Histoire de l'IA linguistique

Transcript

Bonjour, ici Julien Salinas de NLP Cloud, une plateforme d'IA avancée pour votre prochain projet d'IA.

Il est intéressant pour les praticiens de l'IA de comprendre l'histoire de l'IA et de voir quelles étapes importantes ont conduit aux modèles génératifs de pointe que nous utilisons tous aujourd'hui.

Dans ce cours, je passerai rapidement en revue l'histoire des modèles linguistiques du 20e siècle à aujourd'hui.

L'IA n'est pas une nouveauté.

Les ingénieurs et les linguistes ont commencé à travailler sur l'intelligence artificielle pour la compréhension des textes vers 1950.

C'était l'ère du traitement symbolique du langage naturel jusqu'aux années 90.

À l'époque, la principale motivation était la traduction automatique et l'IA était basée sur un ensemble de règles.

L'amélioration d'un algorithme d'IA consistait principalement à ajouter des règles au programme.

Les chercheurs étaient très enthousiastes quant à leurs premiers résultats et pensaient que la traduction automatique serait un problème résolu dans quelques années.

Aujourd'hui, le problème n'est pas encore totalement résolu.

Ces systèmes basés sur des règles ont également donné naissance au premier chatbot, très simple, appelé Elisa.

En 1990, nous sommes entrés dans l'ère de la PNL statistique.

L'utilisation de l'IA avec des statistiques au lieu de règles prédéfinies nous a permis de commencer à construire des systèmes beaucoup plus puissants sans avoir à penser à tous les scénarios à l'avance.

Cela a été rendu possible par les progrès de la recherche mathématique, mais aussi par l'augmentation de la puissance de calcul offerte par les nouveaux processeurs.

Les systèmes apprendront en fonction des réactions humaines, ce que l'on appelle l'apprentissage supervisé, et plus tard même sans aucune intervention humaine, ce que l'on appelle l'apprentissage non supervisé.

Il a donc été possible de former des modèles intéressants basés sur l'énorme volume de données non structurées provenant de l'internet.

À l'époque, de nouvelles entreprises utilisaient l'apprentissage automatique en production et le cas d'utilisation le plus populaire était la reconnaissance des entités nommées, également connue sous le nom d'extraction d'entités.

Les réseaux neuronaux ne sont pas nouveaux.

Au milieu du 20e siècle, certains chercheurs ont déjà eu l'intuition de créer un système d'IA composé de neurones qui imiterait le cerveau humain.

Mais les réseaux neuronaux n'ont commencé à donner des résultats intéressants que vers 2010.

Grâce aux GPU, il a été possible d'entraîner des réseaux neuronaux beaucoup plus importants.

C'est le début de l'ère de l'apprentissage profond.

Les premiers résultats impressionnants sont venus de la vision par ordinateur grâce aux réseaux neuronaux convolutifs, qui ont permis une classification avancée des images.

Ce n'est qu'un peu plus tard que le langage a réellement bénéficié de l'apprentissage en profondeur.

Jusqu'en 2010 et l'essor de l'apprentissage profond, l'IA linguistique était essentiellement un domaine de recherche et peu d'entreprises utilisaient le traitement du langage naturel dans leurs produits.

Voyons maintenant quelle percée récente a conduit à la technologie d'IA générative que nous connaissons tous aujourd'hui.

La véritable percée pour les modèles de langage a eu lieu en 2017, lorsque des chercheurs de Google ont publié un document intitulé Attention is All You Need (L'attention est tout ce dont vous avez besoin).

Cet article décrit un nouveau type d'architecture de réseau neuronal appelé transformateur, basé sur un nouveau principe appelé auto-attention.

L'architecture du transformateur est au cœur de tous les modèles linguistiques impressionnants que nous avons vus depuis 2017.

Très rapidement, le premier modèle a été formé par Google en suivant l'architecture du transformateur.

Ce modèle a été baptisé BERT.

BERT a été le premier modèle linguistique de niveau de production qui pouvait être utilisé pour toutes sortes de cas d'utilisation, résumés, extraction d'entités, réponse aux questions, traduction, etc.

BERT était vraiment intéressant parce que, pour la première fois, un modèle a été créé qui était bon pour l'apprentissage par transfert.

Fondamentalement, le modèle a été pré-entraîné sur un grand ensemble de données non annotées et il a ensuite été capable d'apprendre rapidement de nombreux types de cas d'utilisation grâce à des ajustements rapides nécessitant très peu de données supplémentaires.

OpenAI était à l'origine une startup à but non lucratif spécialisée dans l'IA qui a lancé un nouveau type d'architecture, GPT, basé sur le transformateur.

Lors de la sortie du GPT-2 en 2019, tout le monde a été impressionné par les capacités de ce modèle de nouvelle génération.

GPT-2 a été le premier modèle génératif de niveau de production.

Il était particulièrement efficace pour compléter les textes.

Par exemple, il a été utilisé par Microsoft pour l'autocomplétion dans Microsoft Office.

Il a été entraîné sur 8 millions de pages web et 7 000 livres et contenait 1,5 milliard de paramètres, ce qui est bien sûr peu par rapport aux modèles dont nous disposons aujourd'hui.

En 2020, l'OpenAI a fait une deuxième révolution.

Ils sont devenus une entreprise à but lucratif et ont publié un puissant modèle génératif appelé GPT-3.

Le GPT-3 était toujours basé sur l'architecture GPT, mais la formation portait sur un plus grand nombre de contenus.

Il contient 175 milliards de paramètres et a nécessité l'entraînement de milliers de GPU pendant plusieurs mois.

Même si ce n'est pas officiel, les chercheurs pensent que le pré-entraînement GPT-3 a coûté environ 5 millions de dollars.

Il s'agissait du premier modèle génératif polyvalent capable de répondre à toutes sortes de cas d'utilisation.

Pour tirer le meilleur parti de ce modèle, il n'était même plus nécessaire de procéder à un réglage précis.

La plupart du temps, l'apprentissage en quelques coups suffisait et il fonctionnait même très bien en mode d'apprentissage en zéro coup.

Puis, dans le même esprit, sont arrivés ChatGPT et GPT-4.

Peu après, OpenAI a lancé d'autres types de modèles perturbateurs.

Grâce à DALI, il a été possible de générer de belles images à partir de textes.

Grâce à Whisper, ils ont placé la barre très haut dans le secteur de la synthèse vocale.

Vous avez peut-être remarqué qu'il existe de nombreux termes différents dans ce cours.

Apprentissage automatique, apprentissage profond, réseaux neuronaux, traitement du langage naturel, IA, IA générative.

Certains sont des termes techniques spécifiques, tandis que d'autres sont simplement des mots à la mode.

Personnellement, je pense que le terme "traitement du langage naturel" est le plus approprié pour désigner la technologie d'IA linguistique que nous utilisons aujourd'hui.

Mais ce n'est pas très important.

Vous avez maintenant une compréhension de base de l'origine de nos modèles d'IA.

Histoire de l'IA linguistique

Summary

Transcript