L'apprentissage profond avec convolution
- Raoul Salzberg
- 22 févr. 2024
- 3 min de lecture

L’apprentissage profond avec convolution est la technique qui donne aujourd’hui les meilleurs résultats pour les résolutions de reconnaissance de formes :
Reconnaissance d’objets ou de personnes dans une image
Identification de tumeurs pour une analyse médicale d’une radiographie
Authentification de signature dans un document
Détection d’obstacles lors d’une conduite automobile
C’est la technique qui, depuis 2012, gagne régulièrement les principaux concours de classifications dans le domaine des reconnaissance de formes dans le monde, qui a supplanté toutes les techniques concurrentes. Certains concours, comme ILSVRC, comptent des milliers de participant, avec des prix de plusieurs millions de dollars. Le langage de base est Python, avec des surcouches de plus haut niveau comme Keras.
Elle fonctionne sur la base de réseaux neuronaux, qui regroupent plusieurs couches d’objets, appelés neurones, reliés entre eux par différentes fonctions non linéaires, avec des coefficients d’ajustement, qui sont les variables, appelées poids, qui vont être déterminées par des méthodes dites d’apprentissage, permettant de faire évoluer le modèle pour, à partir des exemples appris, permettre de prédire les résultats d’exemples nouveaux.
Trois facteurs techniques ont permis la percée de l’apprentissage profond avec convolution :
Le développement du matériel, en terme de taille mémoire et de vitesse de calcul, et surtout en terme de qualités graphiques, grâce à des sociétés comme NVIDIA et AMD. Ces sociétés ont investi des milliards de dollars dans le développement de puces rapides massivement parallélisées, à destination principalement de jeux vidéos. Des grappes de plusieurs centaines de processeurs comme NVIDIA TITAN X permettent d’atteindre des performances 350 fois plus élevées que les meilleurs ordinateurs portables. Et de nouvelles avancées ont lieu avec des processeurs dédiés à l’apprentissage profond comme le Tensor Processing Unit TPU de Google, 10 fois plus rapides et plus économes en énergie.
La réalisation de jeux de données de taille importante, réalisées par une coopération internationale de nombreux participants. En corollaire, réalisation de benchmarks, ou exemples à traiter, pour mettre en concurrence des compétiteurs.
Avancées algorithmiques, comme la rétro propagation du gradient, où on remonte, depuis la sortie vers l’entrée du réseau, selon des lignes de plus grande pente. Ou bien de meilleures fonctions d’activation pour les couches de neurones. Ou encore de meilleurs schémas d’initialisation des poids, avec préentraînement des couches (méthode aujourd’hui abandonnée). Ou de meilleurs schémas d’optimisation tels ceux des optimiseurs RMSProp et Adam.
Des sociétés spécialisées dans l’apprentissage profond sont rachetées à prix d’or par des géants de la technologie, pour lesquels l’apprentissage profond est devenu un élément central de leur stratégie produit :
La start-up DeepMind achetée 500 millions de dollars par Google en 2013
Baidu a lancé un centre de recherche en apprentissage profond dans la Silicon Valley, en investissant 300 millions de dollars
La start-up de matériel d’apprentissage profond Nervana Systems a été acquise par Intel en 2016 pour plus de 400 millions de dollars
A la suite de cette vague d’investissements, le nombre de personnes travaillant sur l’apprentissage profont est passé de quelques centaines à plusieurs milliers en l’espace de 5 ans, et les progrès de la recherche ont atteint un rythme effréné, et cette tendance ne ralentira pas de sitôt.
La démocratisation des outils développés dans le domaine de l’apprentissage profond est l’un des facteurs clés de cet afflux de nouveaux acteurs dans ce domaine. Des bibliothèques logicielles de développement comme Theano ou TensorFlow, rendent l’apprentissage pprofond aussi facile à manipuler que des briques de LEGO. Et Keras, apparu en 2015, est devenu une référence pour nombre de nouvelles start-ups.
L’apprentissage profond possède de nombeuse qualités que n’avaient pas les précédents outils de développement de l’Intelligence Artificielle :
Simplicité. Des modèles simples peuvent être entraînés de bout en bout à l’aide de 5 ou 6 opérations différentes sur les tenseurs.
Scalabilité. Parallélisation sur des processeurs graphiques, permettant d’entraîner par des itérations sur de petits lots de données, pour ensuite entraîner sur des ensembles de données de taille quelconque.
Polyvalence et capacité de réutilisation. Entraînement sur des données supplémentaires sans redémarrer à zéro, ce qui les rend viable pour l’apprentissage incrémental continu. Les modèles sont adaptables à d’autres objectifs, et sont donc réutilisables, ce qui permet de réinvestir des travaux antérieurs dans des modèles de plus en plus complexes et puissants.
Toutes les révolutions technologiques suivent une courbe appelée sigmoïde : Démarrage rapide, Stabilisation, Plafonnement. L’apprentissage profond, en 2017, en était au stade du début de la sigmoïde.
Comments