Qu’est-ce que GPT-3 et pourquoi est-il si puissant ?

Comprendre le battage médiatique autour de ce modèle de langage qui génère des textes d’apparence humaine.

GPT-3 (Generative Pre-trained Transformer 3) est un modèle de langage qui a été créé par OpenAI, un laboratoire de recherche en intelligence artificielle situé à San Francisco. Ce modèle d’apprentissage profond de 175 milliards de paramètres est capable de produire un texte de type humain et a été entraîné sur de grands ensembles de données textuelles contenant des centaines de milliards de mots.

« Je suis ouvert à l’idée qu’un ver avec 302 neurones soit conscient, donc je suis ouvert à l’idée que GPT-3 avec 175 milliards de paramètres soit aussi conscient. » – David Chalmers

Depuis l’été dernier, GPT-3 a fait les gros titres, et des startups entières ont été créées grâce à cet outil.

Cependant, il est important de comprendre les faits derrière ce qu’est réellement le GPT-3 et comment il fonctionne plutôt que de se perdre dans tout le battage médiatique qui l’entoure et de le traiter comme une boîte noire qui peut résoudre tous les problèmes.

Dans cet article, je vais vous donner un aperçu de haut niveau du fonctionnement du GPT-3, ainsi que les forces et les limites du modèle et comment vous pouvez l’utiliser vous-même.

Comment fonctionne le GPT-3

À la base, GPT-3 est un modèle de transformateur. Les modèles transformateurs sont des modèles d’apprentissage profond de séquence à séquence qui peuvent produire une séquence de texte à partir d’une séquence d’entrée. Ces modèles sont conçus pour des tâches de génération de texte telles que la réponse à des questions, le résumé de texte et la traduction automatique.

Un transformateur prédit itérativement le mot suivant dans les tâches de traduction automatique.

Les modèles de transformateurs fonctionnent différemment des LSTM en utilisant plusieurs unités appelées blocs d’attention pour apprendre quelles sont les parties d’une séquence de texte sur lesquelles il est important de se concentrer. Un seul transformateur peut avoir plusieurs blocs d’attention distincts qui apprennent chacun des aspects séparés du langage, allant des parties du discours aux entités nommées.

GPT-3 est la troisième génération des modèles de langage GPT créés par OpenAI. La principale différence qui distingue GPT-3 des modèles précédents est sa taille. GPT-3 contient 175 milliards de paramètres, ce qui le rend 17 fois plus grand que GPT-2, et environ 10 fois plus grand que le modèle NLG Turing de Microsoft. Si l’on se réfère à l’architecture du transformateur décrite dans mon précédent article cité plus haut, GPT-3 possède 96 blocs d’attention qui contiennent chacun 96 têtes d’attention. En d’autres termes, GPT-3 est essentiellement un modèle de transformateur géant.

D’après l’article original qui a présenté ce modèle, GPT-3 a été entraîné en utilisant une combinaison des grands ensembles de données textuelles suivants :

  • Common Crawl
  • WebText2
  • Livres1
  • Books2
  • Corpus Wikipedia

L’ensemble de données final contenait une grande partie des pages Web de l’Internet, une collection géante de livres et la totalité de Wikipédia. Les chercheurs ont utilisé ce jeu de données contenant des centaines de milliards de mots pour entraîner GPT-3 à générer du texte en anglais dans plusieurs autres langues.

Pourquoi GPT-3 est si puissant

Le GPT-3 fait la une des journaux depuis l’été dernier parce qu’il est capable d’effectuer une grande variété de tâches en langage naturel et de produire des textes d’apparence humaine. Les tâches que GPT-3 peut effectuer incluent, mais ne sont pas limitées à :

  • La classification de textes (c’est-à-dire l’analyse des sentiments)
  • Réponse à des questions
  • la génération de textes
  • Le résumé de texte
  • Reconnaissance d’entités nommées
  • Traduction de la langue

Sur la base des tâches que GPT-3 peut effectuer, nous pouvons le considérer comme un modèle capable d’effectuer des tâches de compréhension de la lecture et d’écriture à un niveau quasi humain, sauf qu’il a vu plus de textes que n’importe quel humain n’en lira jamais dans sa vie. C’est exactement la raison pour laquelle GPT-3 est si puissant. Des startups entières ont été créées avec GPT-3 parce que nous pouvons le considérer comme un couteau suisse à usage général pour résoudre une grande variété de problèmes dans le traitement du langage naturel.

Limites de GPT-3

Bien qu’au moment de la rédaction de cet article, GPT-3 soit le modèle de langage le plus important et sans doute le plus puissant, il a ses propres limites. En fait, tout modèle d’apprentissage automatique, quelle que soit sa puissance, présente certaines limites.

Considérez certaines des limites de GPT-3 énumérées ci-dessous :

  • GPT-3 manque de mémoire à long terme – le modèle n’apprend rien des interactions à long terme comme les humains.
  • Manque d’interprétabilité – c’est un problème qui touche les modèles extrêmement grands et complexes en général. GPT-3 est si grand qu’il est difficile d’interpréter ou d’expliquer les résultats qu’il produit.
  • Taille d’entrée limitée – les transformateurs ont une taille d’entrée maximale fixe, ce qui signifie que les invites que GPT-3 peut traiter ne peuvent pas être plus longues que quelques phrases.
  • Temps d’inférence lent – parce que GPT-3 est si grand, il faut plus de temps au modèle pour produire des prédictions.
  • GPT-3 souffre de biais – tous les modèles sont aussi bons que les données qui ont été utilisées pour les entraîner et GPT-3 ne fait pas exception.

Bien que GPT-3 soit puissant, il présente des limites qui font qu’il est loin d’être un modèle de langage parfait ou un exemple d’intelligence artificielle générale (IAG).
(AGI).

Comment utiliser GPT-3

Actuellement, GPT-3 n’est pas open-source et OpenAI a décidé de mettre le modèle à disposition via une API commerciale. Cette API est en version bêta privée, ce qui signifie que vous devrez remplir le formulaire de liste d’attente pour l’API d’OpenAI afin de rejoindre la liste d’attente pour utiliser l’API.

OpenAI dispose également d’un programme spécial pour les chercheurs universitaires qui souhaitent utiliser GPT-3. Si vous souhaitez utiliser GPT-3 pour des recherches universitaires, vous devez remplir le formulaire de demande d’accès universitaire.

Bien que GPT-3 ne soit pas open-source ou disponible publiquement, son prédécesseur, GPT-2, est open-source et accessible via la bibliothèque transformers de Hugging Face. N’hésitez pas à consulter la documentation pour l’implémentation de GPT-2 de Hugging Face si vous souhaitez utiliser ce modèle de langage plus petit, mais toujours puissant.

Résumé

GPT-3 a reçu beaucoup d’attention depuis l’été dernier parce qu’il est de loin le plus grand et sans doute le plus puissant modèle de langage créé au moment de la rédaction de cet article. Cependant, GPT-3 souffre encore de plusieurs limitations qui font qu’il est loin d’être un modèle de langage parfait ou un exemple d’AGI.

Si vous souhaitez utiliser GPT-3 à des fins de recherche ou commerciales, vous pouvez demander à utiliser l’API d’Open AI qui est actuellement en version bêta privée. Sinon, vous pouvez toujours travailler directement avec GPT-2 qui est publiquement disponible et open-source grâce à la bibliothèque de transformateurs de HuggingFace.

Laisser un commentaire