La vision par ordinateur permet aux machines de "voir" et d'interpréter les images et les vidéos. Reconnaissance faciale, détection d'objets, imagerie médicale, véhicules autonomes — cette technologie est partout.
Vision par ordinateur — La capacité d'une IA à analyser et comprendre des images ou des vidéos : reconnaître des visages, détecter des objets, lire du texte dans une photo, diagnostiquer à partir de radios médicales.
Les CNN (Convolutional Neural Networks) ont révolutionne ce domaine en 2012. Aujourd'hui, les modèles multimodaux comme GPT-5.4 et Gemini 3.1 combinent vision et langage pour analyser des images et répondre a des questions dessus.
GPT — Acronyme de « Generative Pre-trained Transformer » : la famille de modèles IA créée par OpenAI. GPT-3 (2020), GPT-4 (2023) et GPT-5.4 (2026) sont les versions successives. ChatGPT en est l'interface principale.
Gemini (Google) — L'assistant IA de Google, intégré dans Gmail, Docs, Search et tous les outils Google. Successeur de Bard, il offre un accès direct à l'index web de Google pour des réponses actualisées.
Applications de la Vision par Ordinateur
Reconnaissance faciale
Identification de personnes
Détection d'objets
Localiser et classer des objets
Imagerie médicale
Diagnostic précoce de maladies
Véhicules autonomes
Perception de l'environnement
4 questions — 70% pour valider ce chapitre