Reconnaissance automatique de la parole (Speech-To-Text) Whisper API

Qu'est-ce que la reconnaissance automatique de la parole (Speech-To-Text) ?

La reconnaissance automatique de la parole (également connue sous le nom de speech-to-text) consiste à extraire du texte d'un fichier audio. Il s'agit souvent d'une première étape importante dans un pipeline d'IA. De grands progrès ont été réalisés ces dernières années et il est désormais possible d'extraire du texte d'un fichier audio ou vidéo avec une grande précision.

Par exemple, voici un chapitre d'un livre audio LibriVox (The Metal Giants, d'Edmond Hamilton), stocké sur Archive.org : https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

Reconnaissance automatique de la parole

Une fois que nous avons effectué la reconnaissance vocale automatique de ce fichier sur NLP Cloud, nous obtenons le texte suivant :

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

Il s'agit d'une très bonne extraction de texte, non seulement parce qu'il n'y a pas de faute d'orthographe, mais aussi parce que la ponctuation a été ajoutée automatiquement.

En outre, vous pouvez également obtenir des horodatages au niveau des mots, afin de procéder au sous-titrage.

Pourquoi utiliser la synthèse vocale ?

La qualité de la synthèse vocale s'est récemment améliorée de manière spectaculaire et a donné lieu à de nombreuses applications intéressantes. En voici quelques exemples :

Soutien à la clientèle

Grâce à la reconnaissance vocale automatique, vous pouvez désormais analyser automatiquement les appels des clients et en extraire de précieuses informations. Par exemple, vous pouvez automatiquement savoir quelles discussions d'assistance se sont bien déroulées et lesquelles n'ont pas été fructueuses, afin de pouvoir agir en conséquence.

Analyse des messages vocaux

Il est parfois difficile de répondre à tous ces messages vocaux en temps voulu. Mais vous pouvez analyser automatiquement chaque message entrant et en extraire l'intention, le classer par catégorie, détecter l'urgence, etc. afin d'adapter facilement votre réponse.

Rapports médicaux

Il est très courant que les médecins enregistrent leurs discussions avec leurs patients ou qu'ils en fassent un résumé. Ils peuvent désormais convertir automatiquement ces rapports en texte, puis effectuer plusieurs types de post-traitement tels que le résumé de la conversation, l'extraction d'entités, etc.

Sous-titrage de vidéos

Les vidéos sont omniprésentes aujourd'hui. Le sous-titrage automatique des vidéos est un excellent moyen d'accroître l'accessibilité et de rendre le contenu de la vidéo plus propice au référencement. Dans un deuxième temps, vous pouvez facilement traduire vos sous-titres pour que la vidéo soit disponible dans le monde entier.

Reconnaissance automatique de la parole avec OpenAI Whisper Large

Whisper Large est un modèle d'IA de reconnaissance vocale avancé publié par OpenAI afin d'améliorer considérablement la reconnaissance automatique de la parole dans 97 langues.

Ce modèle détecte automatiquement la langue à partir du fichier audio ou vidéo d'entrée et ajoute automatiquement la ponctuation au résultat. Il peut également extraire des horodatages au niveau des mots, ce qui est très utile pour le sous-titrage. Vous pouvez trouver le projet open-source Whisper ici. Ce modèle a été affiné sur des ensembles de données populaires comme Common Voice, Librispeech, VoxPopuli... et il s'agit du modèle multilingue de conversion de la parole au texte le plus avancé à l'heure où nous écrivons ces lignes.

Whisper Large API sur NLP Cloud

NLP Cloud propose une API de reconnaissance vocale rapide qui vous permet d'effectuer une reconnaissance vocale automatique, basée sur OpenAI Whisper Large, à un prix abordable.

Pour plus de détails, voir notre documentation sur la reconnaissance automatique de la parole. ici.

Tester la synthèse vocale localement est une chose, mais l'utiliser de manière fiable en production en est une autre. Avec NLP Cloud, vous pouvez faire les deux !

Questions fréquemment posées

Qu'est-ce que la reconnaissance automatique de la parole ?

La reconnaissance automatique de la parole (RAS) est une technologie qui permet aux ordinateurs ou à d'autres appareils de reconnaître et de transcrire la parole humaine en données textuelles. Elle consiste à convertir le langage parlé en un format lisible par la machine, qui peut ensuite être utilisé pour diverses applications telles que la transcription de la voix en texte, les commandes vocales et le traitement du langage naturel.

Qu'est-ce que Whisper ?

Whisper est un modèle ASR (speech-to-text) open-source avancé créé par OpenAI. Il est capable de transcrire de l'audio dans 97 langues avec une très bonne précision.

Puis-je essayer l'API Whisper gratuitement ?

Oui, comme tous les modèles de NLP Cloud, l'API Whisper peut être testée gratuitement.

Puis-je utiliser l'API Whisper pour transcrire de l'audio en plusieurs langues ?

Oui, Whisper est capable de transcrire de l'audio en 97 langues.

Whisper ajoute-t-il automatiquement la ponctuation ?

Oui

Puis-je utiliser Whisper pour transcrire de l'audio et traduire automatiquement dans une autre langue ?

Non. Vous devrez utiliser notre point d'arrivée de traduction une fois que votre audio aura été extrait : see our translation documentation here.

Whisper renvoie-t-il les horodatages ?

Oui

L'API Whisper supporte-t-elle la transcription en direct (token streaming) ?

Non, pas pour le moment

Comment votre API d'IA gère-t-elle la confidentialité et la sécurité des données au cours du processus de reconnaissance vocale ?

NLP Cloud se concentre sur la confidentialité des données dès la conception : nous n'enregistrons pas et ne stockons pas le contenu des requêtes que vous effectuez sur notre API. NLP Cloud est conforme aux normes HIPAA et GDPR.