#NotadeVeu 0077 | Saps com les màquines aprenen a parlar com les persones?

Això és una nota de veu. Això és una microcol·laboració amb Ràdio Tàrrega per capturar i compartir bones pràctiques i recursos TIC, amb totes vosaltres. Per cert, saps com les màquines aprenen a parlar com les persones?

01001000 01101111 01101100 01100001 

T’acabo de dir “Hola” amb el codi binari, un sistema numèric per representar dades o instruccions, utilitzat pels microprocessadors. 

Davant d’aquest i d’altres llenguatges de programació poc usables i de mal aprendre, ens cal algú que ensenyi als nostres dispositius a comunicar-se amb nosaltres amb el llenguatge natural.

Això té un cost força elevat, que moltes empreses només financen per a unes poques llengües. Però quan es tracta d’una llengua petita i amb una salut febre, com la nostra, això suposa l’enèsima situació de desavantatge, respecte a altres idiomes més globals.

Per això, a mitjans de desembre de l’any 2020, la Generalitat de Catalunya va presentar el projecte Aina.

Amb una durada de quatre anys, pretén estimular la creació de recursos digitals i lingüístics, per garantir que la llengua catalana es mantingui viva en el món digital. Amb l’objectiu que la ciutadania pugui parlar i interactuar en entorns digitals i amb les màquines en català. En igualtat d’oportunitats i condicions, com ja ho poden fer en altres llengües, com el castellà o l’anglès. 

El Barcelona Supercomputing Center (BSC) s’encarrega del desenvolupament del programa que compta amb un pressupost global de 13,5 milions d’euros i el finançament dels fons europeus NextGenerationEU.

Pots aprofundir en les altres accions d’aquest projecte a aina.gencat.cat

Aquest projecte es basa en les tecnologies de dades i la intel·ligència artificial 

Per començar, s’ha elaborat una primera versió del diccionari digital, que ha de servir per entrenar els algoritmes d’intel·ligència artificial utilitzats pels assistents i sintetitzadors de veu, els traductors automàtics, els classificadors de textos o els agents conversacionals. 

Aquest primer corpus textual del català, conté 1.770 milions de paraules, reunides en 95 milions de frases i es publicaran en obert i amb llicències permissives, per tal que pugui fer-lo servir qualsevol empresa o entitat.

‘La nostra llengua és la teva veu’

Un cop superada la fase inicial, ara encara la creació de la primera versió del corpus de veu, amb els models de la llengua, de la parla i per a la traducció, entre altres.

Per poder generar models de reconeixent de veu de qualitat calen més de 2.000 hores d’enregistraments de veu, amb la diversitat més gran d’edats, gènere i dialectes.

Per això, el Govern de Catalunya engega una campanya de captació de veus sota el lema La nostra llengua és la teva veu. 

La crida es realitza a través de la iniciativa de Common Voice de Mozilla pel català. Una plataforma col·laborativa on tothom que ho vulgui, pot aportar el seu granet de sorra digital: llegint, enregistrant i validant un nombre il·limitat de frases.

La veritat és que ja fa vora quatre anys que recullen dades de veu en català. Ja han aplegat les gravacions de més de 1000 hores de veus. Ara mateix, el perfil de veu majoritari a la plataforma, és el d’homes d’entre 30 i 50 anys que parlen el dialecte oriental. 

Captura de pantalla de Common Voice en català Saps com les màquines aprenen a parlar com les persones?
Captura de pantalla del web de Common Voice de Mozilla pel català

Com pots ajudar?

Per això, es pretén arribar a més persones de totes les edats, gèneres i procedències per animar-les a aportar la seva veu. 

Si tens més de divuit anys i vols contribuir-hi, pots fer-ho des del web la campanya projecteaina.cat

Comença creant-te el perfil. Encara que aquest pas és opcional, si ho fas, facilites generació de models lingüístics més acurats.

Després, ja pots començar a enregistrar talls de veu llegint en veu alta els textos que se’t presentin. Amb frases agrupades de 5 en 5 però sense límit.

També hi ha altres maneres de col·laborar: valorant els talls de veu contribuïts per altres usuàries o ajudin en la traducció de la interfície del Common Voice al català.

Tots els continguts són d’accés lliure i gratuït, sempre mantenint-ne l’autoria.
Amb tot, si ho desitges, pots convidar-me a un cafè.
Sempre gràcies!

Vols rebre les noves publicacions a la teua bústia? Subscriu-te a la llista de distribució quinzenal d’Aplec d’experiències i reflexions sobre tecnologia, educació, ‘…i lo que surja.’

Deixeu un comentari

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *