Síntesis del habla desde la actividad cerebral

Artículo original de Joydeep De.

Traducción de David H. Adamowicz.

La tecnología existente que asiste a la gente con discapacidades del habla depende de interfaces cerebro-computadora que traducen movimientos de los ojos y de la cara en palabras. Sin embargo, la traducción está limitada por la velocidad—aproximadamente 10 palabras por minuto, que es considerablemente más lento que el ritmo natural del habla (150 palabras por minuto). El proceso de deletrear pensamientos es comprensiblemente doloroso, contiene muchos errores y es siempre más lento que lo que uno esperara poder hablar. La investigación actual del laboratorio de Edward Chang en la Universidad de California San Francisco (UCSF) provee un avance hacia la dirección de restablecer el habla en pacientes con esclerosis lateral amiotrófica (ELA), el Parkinson y muchas otras enfermedades neurodegenerativas que quitan la habilidad de hablar. La tecnología de Chang funciona, o por lo menos promete funcionar empíricamente cerca del ritmo normal del habla.

Antes de este estudio, el equipo de Dr. Nima Mesgarani en la Universidad Columbia en Nueva York había intentado esclarecer como restablecer el habla en un estudio publicado anteriormente este año en Scientific Reports. Este equipo grabó actividad neural de la corteza auditiva de pacientes que escuchaban grabaciones de frases cortas habladas. Estos datos entonces fueron utilizados para “entrenar” a un programa de computadora. Este programa, una vez entrenado, podía producir palabras habladas a partir de actividad neural. Estos sonidos (de cifras reconstruidas) fueron entendidos por un grupo de oyentes. “Encontramos que la gente podía entender y repetir los sonidos alrededor del 75% del tiempo, lo cual está muy por encima que todos los intentos previos,” dijo el Dr. Mesgarani en una declaración de la Universidad de Columbia. Él añadió, “ En este escenario, si la persona que lo lleva piensa ‘Necesito un vaso de agua,’ nuestro sistema podría tomar las señales generadas por este pensamiento y convertirlas en palabras habladas sintetizadas. Eso sería revolucionario. Le daría a cualquier persona que hubiera perdido su habilidad de hablar, ya fuera por lesión o enfermedad, una nueva oportunidad para conectar con el mundo alrededor de ellos.”

El equipo de Tanja Shultz en la Universidad de Bremen en Alemania también ha logrado producir palabras habladas por un programa de computadora diseñado para escuchar palabras individuales. Aquí, el índice de éxito en el que el oyente podía identificar lo que había sido hablado alcanzó un 30-50%.

Por otro lado, a pesar de tener las mismas metas que los dos grupos antes mencionados, el laboratorio de Edward Chang tomó un enfoque distinto. El Dr. Gopala Anumanchipalli y Josh Chartier, dos científicos del grupo de Chang y autores de un estudio revolucionario en la ciencia del habla publicado en Nature el mes pasado, pusieron un énfasis en los movimientos de los órganos vocales entre los centros del habla en nuestro cerebro y los sonidos. Después de todo, el cerebro no produce sonido audible directamente. El cerebro dirige el movimiento de los órganos vocales como la lengua y la laringe y los labios y la mandíbula, y estos movimientos precisos producen sonidos distintos. El grupo de Chang intentó modelar ese fenómeno para crear una máquina de habla prostética en vez de intentar convertir la actividad del cerebro directamente en sonido como fue procurado en estudios previos tal como el del grupo del Dr. Nima Mesgarani.

Edward Chang, UCSF

El método del laboratorio de Chang se inspiró en su investigación previa , donde ellos describieron estupendamente cómo las regiones del cerebro “coreografían” los movimientos de los órganos vocales para producir el habla. “Muy pocos de nosotros tenemos cualquier idea de lo que ocurre en nuestra boca cuando hablamos. El cerebro traduce esos pensamientos de lo que quieres decir en movimientos del tracto vocal, y eso es lo que tratamos de descifrar” –Dr. Chang dijo a Reuters. Aceptando las limitaciones de los estudios previos que intentaron descifrar el habla directamente de las señales del cerebro, el grupo de Chang tomó un enfoque doble. A un primer nivel desde el cerebro hasta los órganos vocales y a un segundo nivel de los órganos vocales hasta el habla audible. “La relación entre los movimientos del tracto vocal y los sonidos del habla que son producidos es complicada. Razonamos que si estas regiones del habla en el cerebro codifican movimientos en vez de sonidos, deberíamos hacer lo mismo a la hora de descifrar estas señales.” –Dr. Anumanchipalli mencionó a Science Daily.

Courtesy: UCSF Neurosurgery, YouTube

En este enfoque doble, la primera etapa fue obtener muchísimos datos de actividad cortical proviniendo de cinco sujetos humanos hablando unos cientos de frases en voz alta. Sabemos que las regiones del cerebro donde estos datos fueron obtenidos son las regiones responsables para controlar los movimientos de la boca y de la garganta que producen el sonido. Conectando la actividad neural a los movimientos de los labios, laringe, lengua, etc., ellos desarrollaron un sistema computarizado  que podía descifrar la señal neural en movimientos que produjeran sonido. La segunda etapa consistió en generar palabras habladas de estos movimientos descodificados. Entonces estas palabras habladas fueron escuchadas por personas intermediarias para ver si estos sonidos producidos por la máquina eran realmente comprensibles. El índice de éxito fue entre un 31% y un 53%. Aunque estas cifras no son perfectas, representan un nuevo método para simular al habla que podría ser mejorado. 50% de éxito, en cualquier caso, sería un avance significativo si el punto de inicio fuera mutismo absoluto. “Estábamos en shock cuando escuchamos los resultados—no podíamos creer lo que oíamos. Era increíblemente emocionante oir que muchos de los aspectos del habla real fueron reproducidos por el sintetizador. Claramente, queda mucho por hacer hasta que sea más natural e inteligible pero estábamos muy impresionados con lo que puede ser descifrado de la actividad del cerebro”—dijo Josh Chartier, uno de los autores, a Reuters.

Courtesy: UCSF Neurosurgery, YouTube

Como los participantes de este estudio tenían la habilidad de vocalizar, este equipo de UCSF también intentó sintetizar palabras desde gestos de mímica  pues la meta primaria era instalar el habla en la gente que no puede vocalizar en absoluto. Los participantes fueron instruídos a expresar las palabras y las frases con mímica sin hacer ningún sonido audible.
Aunque el proyecto aún está lejos de la fase de los ensayos clínicos, el Dr. Anumanchipalli mostró esperanza mientras habló con Physics World, “Fue realmente extraordinario que pudiéramos generar señales auditivas a partir de una acción que no crea ningún sonido. Si alguien no puede hablar, entonces no tenemos un sintetizador del habla para esa persona. Usamos un sintetizador del habla entrenado con un sujeto y dirigido por la actividad neural de otro sujeto. Mostramos que eso puede ser posible.”