Reconnaisance vocale, de la parole à l'écrit

 

Vous vous êtes souvent demandé comment retranscrire vos notes vocales,un discours, une conversation en texte ? Quel logiciel utiliser ? Les caractéristiques ?
Cette page, orientée pour aider les personnes sourdes/malentendantes renseignera également toutes personnes ayant besoin de retranscrire de la "voix" en "texte".

Nouveau : Mise à jour du 1 décembre 2017 : ajout de scribovox, mise à jour du  5 janvier 2017 : ajout de Lync et Microsoft Translator , historique des mises à jour :  20 novembre 2016 ajout de PEDIUS, 31 octobre 2016 : ajout de AVA, le chapitre prototype et confidentialité, 28 octobre 2016 (maj mineure), 26/10/2016 mises à jours importante : liste logiciels de reconnaissance vocale.

Principales caractéristiques

Avant de choisir une solution attention aux caractéristiques suivantes :

Logiciels grand public

Temps réel

Voir aussi : trousse à outils mobile

Différé (depuis un enregistrement sur dictaphone par exemple)

Pour développeurs

Les développeurs d'applications disposent souvent de logiciels et d'accès à des services en ligne avec un grand temps d'avance, ce qui permet également de prévoir ce qu'il sera possible de faire dans les prochains mois, semaines ou jours...

Les assistants vocaux

De nombreux spécialistes insistent sur la révolution des assistants vocaux qui seront de plus en plus performants. Siri, Cortana, Google Now, sont autant d'assistants qui existent aujourd'hui capable parfois de simuler de vraies petites conversations pour vous aider à trouver le restaurant le plus proche, prendre un rendez-vous

Les prototypes

Le principe du perroquet

Les logiciels de reconnaissance vocale fonctionnent mal dans un environnement bruyant (avec fond sonore, de la musique de fond, où plusieurs locuteurs, dont les propos, s'entrecroisent), la qualité des microphones lors de la captation joue un rôle également très important. Dans ces cas-là, on peut utiliser la méthode du "perroquet", utilisée par exemple pour sous-titrer de nombreuses émissions de TV en direct, il s'agit d'un opérateur qui va écouter l'émission et "répéter" à un logiciel de reconnaissance vocal les propos qu'il entend.

 

Confidentialité

N'hésitez pas à consulter la licence d'utilisation de la solution pour laquelle vous optez. Il faut savoir que les solutions basées sur du "cloud" / calcul dans le "nuage", transmettent pour la plupart vos paroles sur un serveur, même si le transfert est en théorie sécurisé, ainsi que le stockage de ces informations il vaut mieux être prudent si vous échangez des informations trop confidentielles (recettes de cuisines et autres codes de cartes bleues... ). Attention également aux solution "hors lignes", la plupart, même si elles fonctionne sans conenction à Internet, vont échanger des données collectées avec leur serveur dès qu'une connection à Internet est possible. On peut se demander pourquoi ces logiciels récupèrent autant de données. Pour de nomrbeuses raisons, mais surtout pour une cause importante : pouvoir analyser le plus de mots/phrases/type de prononciation possible pour améliorer les futures versions. N'oubliez pas de prévenir vos correspondants que votre échange est suceptible d'être enregistré.

Les principaux acteurs du marché

Techniques et technologies multiples

Outre la "reconnaissance vocale" / "retranscription automatique" de la parole en texte d'autres techniques et technologies existent : la sténotypie, dactylographie, la vélotypie, la langue des signes française (LSF), le langage parlé complété (LPC) pour permettre la compréhension d'un discours, d'un échange téléphonique/vidéo-phonique, une réunion... Vous trouverez plus bas dans ce document un petit comparatif (mots par minutes) et fiche explicative sur ces derniers.

Les plateformes spécialisées pour personnes sourdes et malentendantes

Il existe quelques plateformes permettant à des personnes sourdes-malentendantes de disposer d'une ligne téléphonique et d'un interprète qui pourra au choix : retranscrire sous forme de texte les échanges téléphoniques, conférences, ou sous forme de retranscription LSF (Langue des signes française) / LPC (langage parlé  complété). Ces solutions sont malheureusement trop couteuses pour un particulier et souvent mises à dispositions d'entreprises et/ou organismes publics.

TADEO et ACCEO (Delta Process)

Historiquement la plateforme la plus connue et une des plus complête du marché : propose le matériel et les services adaptés pour le téléphone, conférence.
TADEO et ACCEO sont réservés essentiellement aux entreprises du fait de leur coût très élevé. (sur devis)
Lien : http://www.tadeo.fr/

Association ADITUS

Une association qui propose des heures d'appel téléphonique et qui milite pour la mise en place d'une plateforme publique.
Lien : http://www.aditus.fr

Roger Voice (application)

Voir plus haut

AVA (application, prototype)

Voir plus haut

SCRIBOVOX de Maxime RINNA (Services, prototype)

Voir plus haut

IVès (Interactivité Vidéo et Systèmes)

Plateforme internationale téléphonique / vidéo pour personnes sourdes et malentendantes, propose essentiellement ses services aux entreprises / sous la forme d'une marque blanche.
Lien : http://www.ives.fr

Elioz (Partenaire Ivès)

Plateforme pour personnes sourdes/malentendantes pour entreprises et collectivités.
Lien : http://www.elioz.fr

Sociétés spécialisées dans le sous-titrage

Organismes et associations

Société spécialisée dans la vélotypie

 

EN CHIFFRE

Voix

150 mots en moyenne sont débités avec un maximum  de 240 à 250 mots minutes maximum en moyenne.

Vélotypie

Une vitesse de 150 à 180 mots minutes en moyenne
( source : http://users.joomla-host.be/aldsmlyon/index.php?option=com_content&view=article&id=97&Itemid=111 )

Important :

"La vélotypie ne doit pas être confondue avec la sténotypie : le Velotype permet d'orthographier correctement et d'afficher directement le message,
contrairement à la sténotypie qui nécessite un traitement supplémentaire pour présenter un texte rédigé correctement en français."
(Source : http://www.systemerisp.com/velotype.html )

Note : plusieurs sociétés proposent un service de Vélotypie pour sous-titrer émissions, évènements en temps réel.

Sténotypie

Première année : 120 mots minute
Seconde années : 170/180 mots minutes
Après 3 ans d'apprentissage : 240 mots minute
(source : http://www.youtube.com/watch?v=uU2IrM0SUnM )

Reconnaissance vocale

240 à 250 mots par minute
Proche de la vitesse de la parole, légèrement en dessous si on considère que l'on doit corriger quelques fautes d'homophonies.

70 à 80 mots minutes en respectant scrupuleusement une typographie :
On s'approche toutefois de 70 à 80 mots par minutes, la même vitesse de la dactylographie expérimentée dès qu'il s'agit de respecter scrupuleuseument la recopie d'un texte avec des mots nouveaux, une typographie et mise ne page précise. ( Test effectué sur http://www.lecturel.com/clavier/mots-par-minute.php )

Dactylographie

Dactylo expérimenté(e) 350 caractères par minutes soit 70 mots minute.

(Source : http://www.ticken.fr/Teste-Dactylographie.html)
 

J'ai fait le test ; j'ai obtenu le résultat de 342 caractères par minutes soit 70 mots minute environ.
J'utilise mon clavier dans sa totalité, cette vitesse est généralement associée aux personnes qui utilisent leurs 10 doigts bien placés sur leur clavier, ce qui n'est pas mon cas, j'ai grandi avec l'informatique et adapté la position de mes doigts et mes mains de façon spécifique, particulière, j'utilise bien environ 10 doigts mais pas comme une dactylo, mes mains se baladent, dansent, sur toute la surface du clavier évitant la fatigue, tendinite et autres crampes :o)

Dactylo expérimenté(e) 350 caractères par minutes 70 mots par minutes
Taper avec 10 doigts 250 caractères par minutes 50 mots minute
Taper avec 2 doigts 140 caractères par minutes 28 mots minute
Taper en copiant avec 2 doigts 135 caractères par minutes 27 soit mots minute
(Source : http://www.ticken.fr/Teste-Dactylographie.html)

Vous pouvez connaître votre vitesse de frappe avec ces deux sites :

Taux d'erreur

Les logiciels de reconnaissance vocaux dernière génération affirment descendre en dessous d'un taux d'erreur de 7%. Je constate plutôt du 10% qui a tendance à descendre à 7% dans les meilleures conditions possible (pas de bruit, locution parfaite, le texte dicté est situé dans un contexte lexical clair et sans surprise). La barre des 7% est liée à l'utilisation du Deeplearning / l'apprentissage profond, une méthode logicielle liée à l'intelligence artificielle permettant de "comprendre" les données brutes (ici de la voix) avec une finesse jamais atteinte avant.

Matériel

Pour faire de la reconnaissance vocale il vous faut "absolument" un microphone de très bonne qualité (en général adapté pour la "voix" ), et du calme.
Le logiciel NUANCE de Dragon propose dans la plupart de ses packs un casque/micro spécialement sélectionné pour travailler sur votre machine, bien qu'il soit également possible de passer sur son téléphone pour certaines version (ce dernier devient un microphone sans fil).
Pour plus de confort vous pouvez choisir des casque/micro spécialement conçus pour la dictée vocale.Si vous souhaitez utiliser un dictaphone attention également à la qualité de son microphone.
En général il vous faut un microphone capable de filtrer le son pour capter uniquement la voix humaine tout en évitant de capter les bruit ambiants.

Attention : Il n'est pas possible d'obtenir une retranscription de qualité en posant un microphone premier prix au milieu d'une grande salle de réunion par exemple ! L'idéal étant d'avoir 1 microphone par locuteur (oui, comme à la TV).

Bonnes habitudes

Portée internationale

La retranscription de la voix en texte est également très appréciée pour étudiants, romanciers, chercheurs, journalistes, docteurs.
Imaginez : vous animez une webradio, une série de vidéos, mais lorsque l'on vous cherche sur Google on ne vous trouve pas ?
Améliorez ceci grâce à la reconnaissance vocale ! En effet : fournir un sous-titrage de qualité permettra à Google de vous retrouver plus facilement grace aux mots clefs composant vos sous-titres.
Vous pouvez permettre à vos "auditeurs" de suivre vos contenus même avec le son est coupé ! (pratique dans les transports en communs)
Pensez par exemple aux vidéos Facebook dont le son est coupé par défaut. Pensez également à la portée de vos textes retranscrits qui peuvent désormais être traduits automatiquement en ligne (avec Google Translate par exemple, ou système de traduction automatique de Youtube).

Demain

La plupart des solutions sont parfaites pour "gagner" du temps sur une dictée, mais manque encore un peu de maturité pour un usage en toute transparence, les conditions matérielles, logicielles sont encore immatures pour la plupart pour un sous-titrage de qualité automatique et temps réel pour une personne malentendante.
Au vu des avancées actuelles on peut estimer que d'ici une paire d'années voir moins les solutions actuelles seront arrivées à maturité et deviendront monnaie courante pour les personnes sourdes et malentandantes.

 

Cédric Vasseur Cédric Vasseur