Fine-tuner GPT-J, l'alternative open-source à GPT-3

GPT-J a beau être le modèle NLP open-source le plus puissant aujourd'hui (il s'agit de l'unique l'alternative open-source à GPT-3), vous pourriez le trouver trop général et pas parfaitement adapté à votre cas d'utilisation. Dans ce cas, le fine-tuning de GPT-J avec vos propres données est la clé.

La puissance de GPT-J

Depuis sa création par EleutherAI en juin 2021, GPT-J a attiré des tonnes d'utilisateurs NLP - data scientists ou développeurs - qui croient que ce puissant modèle NLP les aidera à porter leur application basée sur l'IA au niveau supérieur.

EleutherAI logo

GPT-J est puissant car il a été entraîné sur 6 milliards de paramètres. La conséquence est qu'il s'agit d'un modèle très polyvalent que vous pouvez utiliser pour presque n'importe quel cas d'utilisation NLP avancé (analyse de sentiment, classification de texte, chatbots, traduction, génération de code, génération de paraphrase, et bien plus).

Il est possible d'adapte GPT-J à votre cas d'usage à la volée grâce à la technique du few-shot learning. Cependant, si le few-shot learning ne suffit pas, vous devrez opter pour une technique plus avancée: le fine-tuning.

Qu'est-ce que le Fine-Tuning ?

Quand il s'agit de créer votre propre modèle, la technique traditionnelle est d'entraîner un nouveau modèle à partir de zéro avec vos propres données. Le problème est que les modèles modernes comme GPT-J sont si énormes qu'il est presque impossible pour quiconque d'entraîner ce modèle à partir de zéro. EleutherAI a dit qu'il leur avait fallu 5 semaines pour entraîner GPT-J sur des TPUs v3-256, ce qui signifie que ça a coûté des centaines de milliers de dollars...

La bonne nouvelle, c'est que le ré-entraînement de GPT-J n'est pas nécessaire parce que nous avons le fine-tuning ! Le fine-tuning consiste à prendre le modèle GPT-J existant et à l'adapter légèrement. Dans le passé, l'entraînement des modèles NLP traditionnels à partir de zéro nécessitait des tonnes d'exemples. Avec la nouvelle génération de modèles basés sur les transformers, c'est différent: moins d'exemples sont nécessaires et peuvent conduire à de meilleurs résultats.

Comment fine-tuner GPT-J?

Même si le fine-tuning de GPT-J est beaucoup plus facile qu'entraîner le modèle à partir de zéro, cela reste un défi pour plusieurs raisons:

• C'est une opération très gourmande en calculs qui peut être extrêmement longue sur GPU. La meilleure option est d'utiliser un TPU pour cela.
• Le processus de fine-tuning demande une certaine pratique, certains paramètres doivent être ajustés, et vous pouvez facilement finir avec une précision sous-optimale.
• Une fois que vous avez votre tout nouveau modèle fine-tuné, ce n'est pas fini : vous devez le déployer et l'utiliser de manière fiable en production.

Si vous voulez peaufiner GPT-J par vous-même, voici comment faire :

• Suivez ce tuto de l'équipe Mesh Transformer Jax.
• Assurez-vous d'effectuer le fine-tuning sur un TPU V3 car vous manquerez de mémoire sur un TPU V2. Vous pouvez demander un accès gratuit au TPU pendant 1 mois grâce au programme TPU research Cloud (TRC).
• N'oubliez pas de transformer votre résultat en une version slim de GPT-J plus adaptée à l'inférence en production.

Fine-Tuner GPT-J sur NLP Cloud

Chez NLP Cloud, nous avons travaillé dur sur une plate-forme de fine-tuning pour GPT-J. Il est maintenant possible d'affiner facilement GPT-J: il suffit de télécharger votre jeu de données contenant vos exemples, et laissez-nous fine-tuner et déployer le modèle pour vous. Une fois le processus terminé, vous pouvez utiliser votre nouveau modèle comme modèle privé sur notre API.

Fine-Tuner GPT-J sur NLP Cloud

Le processus de fine-tuning lui-même est gratuit, puis vous devez sélectionner un plan fine-tuning en fonction du volume de requêtes que vous souhaitez envoyer à votre modèle nouvellement déployé.

Si vous ne voulez pas passer trop de temps dans les opérations de fine-tuning et de déploiement, c'est une option que vous pourriez envisager.

Conclusion

GPT-J est un modèle NLP impressionnant. Mixez-le avec du few-shot learning et du fine-tuning, et vous obtiendrez une application IA de pointe!

Si vous avez des questions n'hésitez pas à nous contacter.

Julien Salinas
CTO chez NLP Cloud