1 minChapitre 5/10

La Vision par Ordinateur

La vision par ordinateur permet aux machines de "voir" et d'interpréter les images et les vidéos. Reconnaissance faciale, détection d'objets, imagerie médicale, véhicules autonomes — cette technologie est partout.

Vocabulaire — 1 terme à connaître▸

Vision par ordinateur — La capacité d'une IA à analyser et comprendre des images ou des vidéos : reconnaître des visages, détecter des objets, lire du texte dans une photo, diagnostiquer à partir de radios médicales.

Les CNN (Convolutional Neural Networks) ont révolutionne ce domaine en 2012. Aujourd'hui, les modèles multimodaux comme GPT-5.4 et Gemini 3.1 combinent vision et langage pour analyser des images et répondre a des questions dessus.

Vocabulaire — 2 termes à connaître▸

GPT — Acronyme de « Generative Pre-trained Transformer » : la famille de modèles IA créée par OpenAI. GPT-3 (2020), GPT-4 (2023) et GPT-5.4 (2026) sont les versions successives. ChatGPT en est l'interface principale.

Gemini (Google) — L'assistant IA de Google, intégré dans Gmail, Docs, Search et tous les outils Google. Successeur de Bard, il offre un accès direct à l'index web de Google pour des réponses actualisées.

Applications de la Vision par Ordinateur

Reconnaissance faciale

Identification de personnes

Détection d'objets

Localiser et classer des objets

Imagerie médicale

Diagnostic précoce de maladies

Véhicules autonomes

Perception de l'environnement

Points clés à retenir

La vision par ordinateur permet aux machines d'analyser images et vidéos
Les CNN sont la base des systèmes de vision modernes
Les modèles multimodaux combinent vision et langage
Applications : reconnaissance faciale, imagerie médicale, véhicules autonomes

Testez vos connaissances

4 questions — 70% pour valider ce chapitre

Tester mes connaissances

Chapitre précédent Chapitre suivant

L'IA de A à Z