API de reconnaissance des entités nommées (NER), avec l'IA générative

Qu'est-ce que le NER ?

NER signifie Named Entity Recognition (reconnaissance des entités nommées). Il s'agit d'une tâche secondaire qui consiste à identifier et à classer les entités nommées dans un texte dans des catégories prédéfinies telles que les noms de personnes, d'organisations, de lieux, les expressions temporelles, les quantités, les valeurs monétaires, les pourcentages, etc.

Les modèles génératifs tels que ChatGPT, GPT-3.5, GPT-4, LLaMA 3, Yi 34B, ou Mixtral 8x7B, sont très performants en matière d'extraction d'entités.

Le NER est crucial pour de nombreuses applications NLP telles que la réponse aux questions, le résumé de texte et la traduction automatique, car il fournit des informations détaillées sur les éléments clés d'un texte, permettant une compréhension et un traitement plus approfondis. Par exemple, le fait de savoir que "Paris" fait référence à un lieu dans un texte donné peut influencer de manière significative l'interprétation de ce texte et la réponse générée par un système de TAL.

Supposons que vous ayez la phrase suivante :

John Doe est développeur web chez Google.

Vous aimeriez détecter automatiquement que "John Doe" est un nom, que "développeur web" est un titre de poste et que "Google" est une entreprise. C'est exactement ce que NER va faire.

Annotation NER

Quelques cas d'utilisation de l'extraction d'entités

Le monde est rempli de données non structurées, en particulier le web. Pouvoir en extraire des informations structurées peut donner accès à un grand nombre d'informations précieuses. Voici quelques exemples.

Trier les demandes des clients

Lorsque vous traitez un grand nombre de demandes de clients (support, ventes, ...), il est certainement utile d'appliquer le NER afin de trier automatiquement ces demandes entrantes. Par exemple, vous pouvez extraire automatiquement le type de produit mentionné dans la demande et l'acheminer vers le bon service en conséquence.

Extraire des données financières

L'extraction et la consolidation des données financières peuvent être longues et fastidieuses. NER peut certainement stimuler votre productivité en vous aidant à extraire les bonnes données en une seconde.



Prétraitement des CV et des candidatures

Les services RH ont parfois du mal à lire toutes ces applications. Il peut être intéressant pour eux de mettre automatiquement en évidence les entités intéressantes telles que les noms d'entreprises, les compétences,... afin de gagner du temps.

Extraire des pistes

De nombreux prospects B2B peuvent être trouvés sur des sites web publics ou des brochures d'entreprises, mais les extraire manuellement peut parfois s'avérer fastidieux. Grâce au NER, vous pouvez extraire automatiquement une personne, son titre de poste et son entreprise, s'ils existent.

API NER de NLP Cloud

NLP Cloud propose une API d'extraction d'entités qui permet d'effectuer une reconnaissance d'entités nommées, basée sur spaCy, Ginza, ou des modèles d'IA génératifs plus avancés équivalents à GPT-4, GPT-3.5, ou ChatGPT, comme LLaMA 3, Dolphin, Yi 34B, Mixtral 8x7B, et bien d'autres encore. Pour l'extraction avancée d'entités sur des documents spécifiques, nous vous recommandons d'affiner vos propres modèles génératifs pour le NER sur NLP Cloud.

Pour plus de détails, voir notre documentation sur l'extraction d'entités ici. Pour une utilisation avancée, voir le point de terminaison de l'API de génération de texte ici. Et tester facilement l'extraction d'entités sur notre terrain de jeu.

Tester le NER localement est une chose, mais l'utiliser de manière fiable en production en est une autre. Avec NLP Cloud, vous pouvez faire les deux !

Questions fréquemment posées

Qu'est-ce que la reconnaissance des entités nommées (NER) ?

La reconnaissance des entités nommées (NER) est une tâche secondaire de l'extraction d'informations qui identifie et classe les entités nommées dans un texte dans des catégories prédéfinies telles que les noms de personnes, d'organisations, de lieux, les expressions temporelles, les quantités, les valeurs monétaires, les pourcentages, etc. Il s'agit d'une technique fondamentale de traitement du langage naturel (NLP) utilisée pour la recherche d'informations, les systèmes de réponse aux questions et l'extraction de connaissances.

Quelles sont les catégories courantes utilisées dans les NER ?

Les catégories courantes utilisées dans la reconnaissance des entités nommées (NER) comprennent les noms de personnes, les organisations, les lieux, les dates, les heures, les valeurs monétaires, les pourcentages et les quantités. Ces catégories permettent d'identifier et de classer les éléments clés d'un texte en vue de l'extraction et de l'analyse d'informations.

Comment les systèmes NER modernes gèrent-ils les ambiguïtés linguistiques et les structures complexes ?

Les systèmes modernes de reconnaissance des entités nommées (NER) exploitent des algorithmes avancés d'apprentissage automatique, notamment des architectures d'apprentissage profond telles que les réseaux neuronaux récurrents (RNN) et les transformateurs, pour analyser le contexte et les relations sémantiques dans le texte, ce qui leur permet de gérer les ambiguïtés et les structures linguistiques complexes. Ils utilisent de vastes quantités de données d'entraînement annotées et des modèles linguistiques pré-entraînés pour prédire avec précision les entités, même en présence de constructions ambiguës ou complexes.

Les systèmes NER peuvent-ils reconnaître des entités nouvelles ou inconnues ?

Les systèmes de reconnaissance d'entités nommées (NER) reconnaissent principalement les entités sur lesquelles ils ont été formés, mais leur capacité à reconnaître des entités nouvelles ou inconnues dépend de la généralité de leurs données de formation et de la capacité d'adaptation de leurs algorithmes. Certains systèmes avancés, en particulier ceux qui utilisent l'apprentissage profond et la compréhension contextuelle, peuvent déduire ou généraliser pour identifier des entités jamais vues auparavant en apprenant du contexte dans lequel elles apparaissent. Sur NLP Cloud, vous pouvez parfaitement reconnaître des entités nouvelles ou inconnues !

Quelles langues votre API d'IA prend-elle en charge pour l'extraction d'entités ?

Nous prenons en charge l'extraction d'entités dans 100 langues

À quelle vitesse l'API IA renvoie-t-elle les entités ?

Il dépend de la taille de votre texte et du modèle d'IA que vous utilisez. En général, le temps de réponse est de l'ordre de quelques secondes.

Comment évaluer la précision du NER ?

Pour évaluer la précision d'un système de reconnaissance d'entités nommées (NER), on utilise généralement la précision, le rappel et le score F1 basé sur les vrais positifs, les faux positifs et les faux négatifs. Ces mesures comparent les résultats du système à un étalon-or annoté manuellement ou à la vérité de base afin de déterminer dans quelle mesure le système identifie et classifie les entités nommées.

Puis-je essayer votre API NER gratuitement ?

Oui, comme tous les modèles de NLP Cloud, le point d'accès à l'API NER peut être testé gratuitement.

Comment votre API d'IA gère-t-elle la confidentialité et la sécurité des données au cours du processus d'extraction des entités ?

NLP Cloud se concentre sur la confidentialité des données dès la conception : nous n'enregistrons pas et ne stockons pas le contenu des requêtes que vous effectuez sur notre API. NLP Cloud est conforme aux normes HIPAA et GDPR.