Conversie Speech-To-Text și Neural Text-To-Speech în limba Română cu ajutorul platformei Microsoft Azure

Am auzit cu toții, deja, de asistenții virtuali care transformă în mod profund interacțiunea cu lumea digitală reprezentată de dispozitive cum sunt telefoanele, televizoarele, boxele inteligente, ceasurile și chiar mașinile proprii. Siri, Alexa, Google sau Cortana reprezintă „vârful” unor cicluri de inovare digitală care au revoluționat aceste interacțiuni. În ciuda caracterului spectaculos, în România aceste noutăți nu au făcut valuri prea mari în trecut, iar asistenții virtuali rămân în mare parte neutilizați – încercați din curiozitate și dezactivați destul de repede.

Motivul este unul foarte simplu – algoritmii care controlează abilitățile de voce ale asistenților erau antrenați (cu destule eforturi de programare și machine learning) pentru limba engleză, iar în lipsa ei (sau într-o cultură pentru care limba engleză este importantă, dar nu și principala limbă vorbită) funcționalitatea unui astfel de sistem era redusă spre zero. Oricât de spectaculoasă ar fi prima impresie, să vorbești în engleză cu voce tare cu telefonul sau televizorul tău nu este de natură să impresioneze pe cei din jur. Poate chiar dimpotrivă.

Asistenții virtuali sunt cel mai vizibil aspect al interacțiunii vocale om-mașină, însă nu sunt nici pe departe cel mai de impact. Folosirea unei interfețe de voce în care să poți avea încredere poate revoluționa interfața și experiența de utilizare a tehnologiei în domenii profesionale – la birou, pentru transcrieri, subtitrări și dictări automate, în industrie, unde poate însemna o reducere remarcabilă a riscurilor de manipulare a echipamentelor sau în servicii, unde poate asigura o interfață completă și continuă în timp real cu clienții, iar exemplele pot continua aproape la nesfârșit.

Până nu de mult, dezvoltarea unui sistem de voce digitală era, prin necesarul de efort și resurse, apanajul exclusiv al marilor companii. Iar acest lucru era un dezavantaj aproape insurmontabil pentru limba română, care nici nu reprezenta o piață potențială destul de mare și nici nu avea companii suficient de mari care să fie interesate de dezvoltarea independentă a unui sistem propriu.

„Îmi face o deosebită plăcere să vă pot spune că, între numeroasele anunțuri făcute la conferința virtuală Microsoft Ignite 2020, este și cel că sistemele text-to-speech și speech-to-text ale Microsoft Azure sunt acum disponibile și în limba română, cu funcționalitate completă. «Alina» este noua voce sintetizată pentru limba română, bazată pe noile abordări cu rețele neurale, capabilă să redea natural cuvintele, punctuația și inflexiunile necesare și, mai important, complet customizabilă”, spune Lucian Ungureanu, Cloud Business Group Lead, Microsoft România.

Serviciile de voce și text din Microsoft Azure permit dezvoltatorilor integrarea ușoară a unei interfețe vocale bidirecționale în produsele lor – ceea ce deschide un univers de noi oportunități de funcționalitate și inovație. Digitalizarea la toate nivelurile este dorită și extrem de necesară în România. Fie că este vorba de instituții publice sau de organizații private, creșterea calității și eficienței interacțiunii dintre sisteme și oameni este una dintre cheile dezvoltării durabile pe termen lung. Acest aspect devine semnificativ mai important dacă luăm în calcul și transformările (multe dintre ele ireversibile) generate de actuala criză globală.

“Serviciile din categoriile text-to-speech și speech-to-text sunt disponibile în Microsoft Azure sub forma unor interfețe de programare care pot fi integrate în orice fel de aplicații informatice cu destul de multă ușurință. Partea de Machine Learning, cea mai dificilă și consumatoare de resurse de calcul, este gestionată integral de Microsoft Azure. Cu alte cuvinte, un dezvoltator de aplicații nu mai trebuie să dețină cunoștințe avansate de procesare de text și/sau limbaj natural pentru a integra funcții vocale bazate pe limba română”, susține Ciprian Jichici, General Manager Genisoft, Chief Data Scientist Solliance și Microsoft Regional Director.

Câteva exemple de asemenea funcții includ:

  • Interacțiunea bazată pe voce cu asistenți digitali și roboți conversaționali;
  • Preluarea mai eficientă a cererilor și reclamațiilor într-un call-center;
  • Diseminarea de informații cu caracter public în instituții publice;
  • Creșterea gradului de accesibilitate la informație pentru persoane cu deficiențe de vedere;
  • Manipularea vocală a echipamentelor industriale;

Desigur, lista poate continua cu multe alte exemple.

„Două aspecte remarcabile ale noului suport pentru limba română în serviciile text-to-speech și speech-to-text din Microsoft Azure sunt robustețea și calitatea implementării. Investițiile tehnologice uriașe în cercetare fundamentală, dezvoltare, antrenare și rafinare de modele de machine learning făcute de Microsoft constituie fundamentul tuturor acestor tipuri de servicii, indiferent de limbă. Cu alte cuvinte, dezvoltatorii de aplicații care doresc integrarea limbii române scrise și vorbite se pot baza pe o infrastructură de servicii inteligente de cloud performantă, scalabilă și de cea mai bună calitate”, a adăugat Ciprian Jichici.

Aceste servicii fac parte din familia de servicii Azure Cognitive Services și sunt disponibile la https://azure.microsoft.com/en-us/services/cognitive-services/speech-services/.

Visits: 0