Depuis quelques années, l’intelligence artificielle se conjugue à tous les temps et les géants du numérique en ont fait leur cheval de bataille. Parmi ces entreprises, on peut notamment compter sur la détermination de Microsoft qui a récemment fait une annonce susceptible de chambouler le marché lucratif des synthèses vocales.
Jusqu’à présent, la plupart des moteurs de synthèses vocales traditionnels reposent sur un ensemble de processus fastidieux qui imposent aux comédiens de passer de nombreuses heures en studio, sans même parler des étapes inhérentes au travail réalisé par les linguistes en amont ; des processus qui peuvent résulter en une synthèse vocale assourdie.
Grâce à l’intelligence artificiel, ce sont toutes ces tâches qui seront simplifiées, à en croire Microsoft qui a annoncé un nouveau service basé sur son réseau neuronal convolutif capable de rendre les voix de synthèse pratiquement impossible à distinguer des voix humaines.
Ce réseau neuronal permet de surmonter ces limites en faisant correspondre les modèles de stress et d’intonation en langage parlé, appelé prosodie, et en synthétisant les unités de parole en voix artificielle. Disponible au sein de la solution Azure Kubernetes Service, cette fonctionnalité ne compte actuellement que deux voix anglaise mais d’autres langues seront bientôt ajoutées.
Bien qu’il y ait encore de nombreux fans inconditionnels de l’antique voix Eloquence parmi les déficients visuels, il est très probable que la majorité d’entre nous ne manqueront pas de s’approprier ce nouveau genre de synthèses vocales, que ce soit par le biais des technologies d’assistance ou encore pour la lecture de livres audio au format numérique !
Source : Microsoft Azure Blog.