Common Voice : Mozilla apprend aux machines à nous comprendre

« Ok, Google, comment est-ce que tu comprends ce que je dis ? »

De Alexa à Siri, en passant par Google et Cortana, plusieurs assistants personnels à reconnaissance vocale ont vu le jour. Ces outils nous écoutent, et répondent à nos demandes lorsqu’on les dit à voix haute. Mais, est-ce que vous vous êtes déjà demandé comment ça fonctionnait ?

Pour transformer votre voix en ordre compréhensible pour votre assistant, il y a plusieurs étapes :

  • Enregistrer votre voix, et repérer quels segments correspondent à un ordre qui doit être traité (par exemple, reconnaître « Ok Google »)
  • Envoyer cet enregistrement vers un serveur (les serveurs de Google, Apple, Amazon, Microsoft …)
  • Le serveur essaye de reconnaître chaque mot, en le comparant à une base de donnée composée de milliers d’enregistrements de personnes qui disent la même chose
  • Une fois l’enregistrement traduit en texte, le texte est interprété, pour déterminer ce que l’assistant doit faire
  • Le serveur renvoit cet ordre à l’assistant
  • L’assistant exécute l’ordre.

langfr-220px-Microsoft_Cortana.svg

Toutes ces étapes ne sont pas simples. Et un des plus gros défi se trouve dans l’étape de reconnaissance. En effet, à partir d’un enregistrement, il n’est pas facile de le transformer en texte. Et pour cela, ces différents algorithmes comparent les enregistrements à des bases de données fabriquées à partir de milliers d’enregistrements préexistants pour lesquels on a déjà une transcription.

Mais alors, comment fabriquer cette base de données ? Avec des enregistrements. Des milliers d’heures d’enregistrement et leur transcription en texte. On comprend facilement que ce genre de base de données vaut de l’or pour ces entreprises qui vendent les services de leur assistant. Ils les gardent donc jalousement, et chacun essaye d’avoir une base d’enregistrement de meilleure qualité que celle de son concurrent.

Cela fait que si toi, petit programmeur indépendant, tu veux fabriquer un petit programme qui utilise la reconnaissance vocale, tu ne peux qu’envoyer tes enregistrements à Google, Apple & Co. et gentiment leur demander de te donner la transcription. Car ils ne donneront jamais de quoi le faire nous même. Ce serait mauvais pour les affaires. Et si tu leurs demande trop de choses à transcrire, ils factureront le service…

Et c’est là qu’arrive la Fondation Mozilla. Ce sont ceux qui développent Firefox et Thunderbird. Et ils ne font pas que ça ! Ils créent et soutiennent de nombreux projets libres, défendent les libertés des internautes, militent pour la neutralité du net… Face à la centralisation de ces services de reconnaissance vocale, ils ont décidé de fabriquer leurs propre base de données, avec des enregistrements, et des transcriptions, dans toutes les langues du monde… et de la rendre gratuite, accessible à tous, pour que chacun puisse créer des outils utilisant cette technologie. Mais comment récupérer des centaines de milliers d’heures d’enregistrement et de transcriptions ? Google, Apple, Amazon & Co. embauchent des gens, payés au lance-pierre et gardent les données pour eux… Mozilla n’a pas ce genre de moyens… Mais ils ont une communauté !

Et c’est là que nous (vous comme moi) intervenons ! Afin d’aider Mozilla dans ce projet, et de nous libérer des GAFAM qui gardent jalousement leurs outils, nous pouvons tous donner un peu de notre temps en remplissant deux grandes missions :

  • Enregistrer notre voix en lisant des textes donnés
  • Vérifier et valider les enregistrements d’autres utilisateurs

Sur leur site Common Voice, chacun peut contribuer, autant de temps qu’il veut ! Tout se présente sous la forme de 5 phrases : soit on s’enregistre en train de les lire, soit on écoute l’enregistrement de quelqu’un d’autre et on valide que le texte lu est bien le bon.
L’interface est ultra simple et intuitive, tout se fait directement dans le navigateur. Vous pouvez y passer juste quelques minutes ou y passer des heures, toute contribution est bonne à prendre !

C’est un projet Libre et libérateur. Et ça, c’est bien.

Si vous avez quelques minutes à consacrer à un projet d’intérêt général, foncez ! Et allez faire entendre votre voix ! Plus le projet a de voix différentes, plus la reconnaissance vocale sera de qualité !