Gràcies a un avatar digital, l’Ann ha pogut parlar amb expressions facials per primera vegada en 18 anys.
Investigadors de la Universitat de Califòrnia a Sant Francisco (UCSF) i de la Universitat de Berkeley han desenvolupar una interfície cervell-ordinador (BCI) que gràcies a la intel·ligència artificial ha permès tornar a parlar a través d’un avatar digital a una dona anomenada Ann amb una paràlisi greu provocada per un ictus. Els investigadors asseguren en un article publicat a la revista Nature que és la primera vegada que se sintetitza la parla i les expressions facials a partir de senyals cerebrals. El sistema també pot descodificar aquestes senyals a text a gairebé 80 paraules per minut, cosa que suposa una gran milloria respecte a la tecnologia disponible al mercat.
Una interfície cervell-ordinador tradueix les senyals cerebrals del participant a l’estudi en la parla i els moviments facials d’un avatar animat.
El Dr. Edward Chang, catedràtic de cirurgia neurològica de la UCSF, porta més d’una dècada treballant en aquesta tecnologia BCI i espera que aquest darrer èxit de la investigació condueixi en un futur pròxim a un sistema aprovat per l’Administració d’Aliments i Medicaments dels Estats Units (FDA) que permeti parlar a partir de senyals cerebrals. “El nostre objectiu és restablir una forma de comunicació plena i corporal, que és realment la forma més natural de parlar amb els demés. Aquests avenços ens apropen molt més a convertir-ho en una solució real pels pacients”, afirma Chang, membre de l’Institut Weill de Neurociències de la UCSF.
L’equip de Chang va demostrar anteriorment que era possible descodificar les senyals cerebrals a text en un home que també havia patit un ictus al tronc encefàlic molts anys abans. L’estudi actual demostra quelcom més ambiciós: descodificar les senyals cerebrals en la riquesa de la parla, junt amb els moviments que animen el rostre d’una persona durant una conversa.
Els investigadors asseguren en un article publicat a la revista Nature que és la primera vegada que se sintetitza la parla i les expressions facials a partir de senyals cerebrals.
Chang va implantar un rectangle prim de 253 elèctrodes a la superfície del cervell de la dona, en zones que el seu equip va descobrir que són fonamentals per la parla. Els elèctrodes interceptaven les senyals cerebrals que, de no ser per l’ictus, haurien anat a parar als músculs de la llengua, la mandíbula i la laringe, així com a la cara. Un cable, connectat a un port fixat al seu cap, connectava el elèctrodes a un banc d’ordinadors.
Durant setmanes, la participant va treballar amb l’equip per entrenar els algoritmes d’intel·ligència artificial (IA) del sistema a reconèixer les seves senyals cerebrals úniques per la parla. Per fer-ho, va haver de repetir moltes vegades diferents frases d’un vocabulari conversacional de 1.024 paraules, fins que l’ordinador va reconèixer els patrons d’activitat cerebral associats als sons. En lloc d’entrenar a la IA perquè reconegués paraules senceres, els investigadors van crear un sistema que descodifica paraules a partir de fonemes. Aquests són les subunitats de la parla que formen paraules parlades de la mateixa manera que les lletres formen paraules escrites. “Hola”, per exemple, conté quatre fonemes “HH”, “OW”, “L” i “AH”.
La participant va treballar amb l’equip per entrenar els algoritmes d’IA del sistema a reconèixer les seves senyals cerebrals úniques per la parla.
Amb aquest mètode, l’ordinador només necessitava aprendre 39 fonemes per desxifrar qualsevol paraula en anglès. Això va millorar la precisió del sistema i el va fer 3 vegades més ràpid. “La precisió, la velocitat i el vocabulari són crucials”, assegura Sean Metzger, que va desenvolupar el descodificador de text conjuntament amb Alex Silva, ambdós estudiants de postgrau del Programa Conunt de Bioenginyeria de la UC Berkeley i la UCSF. “És el que dóna a un usuari la possibilitat, amb el temps, de comunicar-se gairebé tan ràpid com nosaltres i mantenir converses molt més naturalistes i normals”.
Per crear la veu, l’equip va idear un algoritme per sintetitzar la parla, que van personalitzar perquè sonés com la veu de l’Ann abans de la lesió, utilitzant una gravació seva parlant a la seva boda. A més, l’equip va animar l’avatar amb l’ajuda d’un software que simula i anima els moviments musculars de la cara, desenvolupat per Speech Graphics, una empresa que realitza animacions facials basades en IA.
Els investigadors van crear processos personalitzats d’aprenentatge automàtic que van permetre al software de l’empresa engranar les senyals que enviava el cervell de la dona mentre intentava parlar i convertir-les en els moviments de la cara de l’avatar, fent que la mandíbula s’obrís i es tanqués, els llavis sobresortissin i s’arrufessin i la llengua pugés i baixés, així com els moviments facials de felicitat, tristesa i sorpresa.
L’equip va idear un algoritme per sintetitzar la parla, que van personalitzar perquè sonés com la veu de l’Ann abans de la lesió, utilitzant una gravació d’ella a la seva boda.
“Estem compensant les connexions entre el cervell i el tracte vocal interrompudes per l’ictus. Quan el subjecte va utilitzar per primera vegada aquest sistema per parlar i moure la cara de l’avatar a la vegada, vaig saber que tot això tindria un impacte real”, explica Kaylo Littlejohn, estudiant de postgrau que treballa amb Chang i el Dr. Gopala Anumanchipalli, catedràtic d’enginyeria elèctrica i informàtica de la Universitat de Berkeley.
De cara al futur, els investigadors volen crear una versió inalàmbrica que no requereixi que l’usuari estigui físicament connectat a la BCI. “Donar a les persones com l’Ann la capacitat de controlar lliurement els seus propis ordinadors i telèfons amb aquesta tecnologia tindria grans efectes en la seva independència i les seves interaccions socials”, conclou David Moses, professor adjunt de cirurgia neurològica de la UCSF.
Font: iSanidad.
|
Subscripción via RSS
![]() |
·