Transcription audio : les limites de l'intelligence artificielle
La transcription de supports audio représente aujourd'hui une grande partie de mon activité. De nombreux instituts de recherche et universités me confient la transcription de leurs entretiens sociologiques et scientifiques, portant sur des sujets extrêmement variés. Mais la technologie évolue et la tentation peut être grande de recourir à des solutions d’IA, pour gagner du temps et bien sûr, de l’argent. Dois-je redéfinir certains aspects de mon offre actuelle ? On m’a par exemple déjà sollicitée pour effectuer la correction de transcriptions automatiques… ce qui prend quasiment autant de temps que de faire la transcription en direct ! Par ailleurs, quid de la confidentialité de vos données et des propos, parfois très sensibles, tenus par vos interlocuteurs, lors de l’utilisation d’un outil en ligne ?
Alors avant de faire le choix d’un tel outil, voici un inventaire des avantages de la transcription « humaine » par rapport à la transcription automatique :
Les outils de transcription automatique ne distinguent pas les homophones et autres subtilités de langage. Seul l’humain saura, selon le contexte, que le problème est remonté jusqu'à la maire et non jusqu'à la mer, et si l’on est en train de parler des allers-retours en tracteur ou… entre acteurs ! Ce sont des exemples réels, rencontrés récemment. Je pourrais en citer des dizaines. Inutile de s’étendre sur les conséquences de telles coquilles dans un texte scientifique ou technique !
Je travaille essentiellement en transcription intégrale épurée, c'est-à-dire en reprenant les propos dans leur intégralité mais sans restituer (sauf si le client le souhaite ou si cela me semble nécessaire) les tics de langage, répétitions, maladresses. Ainsi, je vais remplacer un encombrant « alors voilà du coup » par un simple « donc », ou gommer les « machin-chose, patati-patata » et autres expressions admises à l’oral mais qui alourdissent terriblement la lecture d’un document écrit. De même, si la personne se reprend : « non, désolé, ce n'était pas en 2014 mais en 2015 », cette autocorrection disparaît du document final, en remplaçant simplement 2014 par 2015.
Je rétablis les négations, qui disparaissent souvent à l’oral, et je détecte et corrige les fautes de français, car il va de soi que le phénomène n’est pas circoncis mais… circonscrit !
Je fais apparaître entre parenthèses certaines manifestations émotionnelles, indétectables par un outil d’IA, mais qui apportent un éclairage sur le ton de la discussion (larmes, rires, silences, tremblements de voix…), et je signale la non-transcription d’un aparté sans rapport avec la discussion (point horaire, conversation téléphonique, entrée d’une personne dans la pièce…).
J’indique en gras les time codes des passages incompris ou nécessitant une validation, afin que mon client les retrouve facilement.
Les termes techniques, sigles, noms de personnes, sont systématiquement recherchés sur Internet, pour en garantir une orthographe parfaite. De plus, je constitue au fur et à mesure une liste par client de ces éléments spécifiques, qui réapparaissent généralement dans les entretiens suivants.
La ponctuation a également beaucoup d’importance. Elle permet de restituer le rythme et l’intention du discours. Un défaut de ponctuation peut modifier le sens d’une phrase.
Chevauchements de voix : quand plusieurs personnes parlent en même temps, l’oreille humaine peut généralement distinguer les différents propos, en faisant plusieurs écoutes du passage en question et en se concentrant à chaque fois sur l’une des voix.
Je suis titulaire de la certification Voltaire niveau Expert, ce qui vous garantit une orthographe parfaite de tous vos documents.
Alors, transcription manuelle ou automatique ? Avant de faire votre choix, définissez clairement vos besoins et le niveau de qualité attendu. Optidoc est à l’écoute de vos demandes, contraintes temporelles et budgétaires.