Le Deep Learning (apprentissage profond) est inspiré du fonctionnement du cerveau humain. Tout comme notre cerveau est compose de milliards de neurones interconnectes, un réseau de neurones artificiel est compose de couches de "neurones" mathématiques qui traitent l'information.
Chaque neurone artificiel reçoit des entrées, les multiplie par des poids, appliqué une fonction d'activation, et produit une sortie. C'est simple individuellement, mais la puissance émerge de la combinaison de millions de ces neurones en couches successives.
Un réseau de neurones typique comprend : une couche d'entrée (reçoit les données brutes), des couches cachées (traitent et transforment l'information), et une couche de sortie (produit le résultat final).
Le "deep" dans "deep learning" fait référence au nombre de couches cachées. Plus il y a de couches, plus le réseau peut apprendre des représentations complexes et abstraites.
Les réseaux modernes comme GPT-5.4 peuvent avoir des centaines de couches et des trillions de paramètres. L'entraînement nécessite des milliers de GPU travaillant en parallèle pendant des semaines.
Trois facteurs ont converge pour révolutionner l'IA : 1) La disponibilité de données massives (Internet, smartphones). 2) La puissance de calcul (GPU, TPU). 3) Les avancées algorithmiques (Transformers en 2017).
En 2012, AlexNet a démontré que le deep learning pouvait dominer la vision par ordinateur. Depuis, le deep learning a successivement révolutionné le NLP (traduction, génération de texte), la génération d'images (DALL-E, Midjourney), la video (Sora), et même la découverte scientifique (AlphaFold pour les proteines).
L'architecture Transformer, introduite par Google en 2017 dans l'article "Attention Is All You Need", est la fondation de tous les grands modèles de langage actuels (GPT, Claude, Gemini).
Architecture d'un Réseau de Neurones
Couche d'entrée
Données brutes (pixels, tokens…)
Couches cachées
Traitement et représentations abstraites
Couche de sortie
Prédiction ou génération finale
Les 3 Catalyseurs du Deep Learning
Big Data
Milliards de textes et images
GPU / TPU
Puissance de calcul parallèle
Transformers
Architecture de 2017 — base des LLM
4 questions — 70% pour valider ce chapitre