Smartphones con inteligencia emocional gracias a un nuevo algoritmo
Investigadores de la Universidad de Rochester (Nueva York) han desarrollado un programa de software que, entrenado con la voz de una persona concreta, a posteriori puede analizar su voz de nuevo y adivinar las emociones que siente esa persona con un 81% de fiabilidad. El porcentaje de acierto baja al 30% si se aplica a una persona distinta que la que entrenó al sistema, pero aun así, el programa supera a todos los experimentos anteriores. En el futuro, los smartphones podrían reproducir música o cambiar de color según las emociones que denote la voz de su usuario.
Sorprendentemente, el programa no tiene en cuenta el significado de las palabras. “De hecho utilizamos grabaciones de actores que leen la fecha del mes -realmente no importa lo que dicen, sino cómo lo están diciendo”, explica Wendi Heinzelman, profesor de ingeniería eléctrica e informática, en una nota de prensa publicada enEurekAlert.
Heinzelman cuenta que el programa analiza 12 funciones del habla, como el tono y el volumen, para identificar una de entre seis emociones a partir de una grabación de sonido. Y lo hace con un 81 por ciento de precisión – una mejora significativa respecto a estudios anteriores que alcanzaron sólo alrededor del 55 por ciento de precisión.
La investigación ya ha sido utilizado para desarrollar un prototipo de una aplicación. La aplicación muestra una cara de feliz o triste después de registrar y analizar la voz del usuario. Fue desarrollado por uno de los estudiantes de posgrado de Heinzelman, Na Yang, durante una beca de verano en Microsoft Research.
En el proyecto participa también Ilker Demirkol, de la Universidad Politécnica de Cataluña. “La investigación está todavía en sus inicios”, agrega Heinzelman, “pero es fácil imaginar una aplicación más compleja que podría utilizar esta tecnología para todo, desde el ajuste de los colores que aparecen en su móvil, hasta reproducir música adaptada a cómo te sientes.”
Heinzelman y su equipo están colaborando con los psicólogos de Rochester Melissa Sturge-Apple y Patrick Davies, que están estudiando las interacciones entre los adolescentes y sus padres.
“Una manera fiable de categorizar las emociones puede ser muy útil en nuestra investigación”, explica Sturge-Apple. “Significaría que un investigador no tendría que escuchar las conversaciones y apuntar manualmente las emociones de las diferentes personas en las diferentes etapas.”
Enseñar a un ordenador cómo comprender las emociones requiere primero entender cómo las reconocen los seres humanos.
“Usted puede oír a alguien hablar y pensar “oh, ¡suena enfadado!” Pero, ¿qué es lo que te hace pensar eso?” se pregunta Sturge-Apple. Según ella, la emoción afecta a la forma de hablar, alterando el volumen, el tono y hasta los armónicos de su discurso.
“No le prestamos atención a estas características de forma individual; acabamos de aprender cómo suena el enfado -en concreto para personas que conocemos”, añade.
Pero para que un ordenador categorice emociones necesita trabajar con cantidades medibles. Así que los investigadores establecieron 12 funciones específicas en el habla que se midieron en cada grabación a intervalos cortos. Luego, los investigadores clasificaron cada una de las grabaciones y las usaron para enseñar al programa de ordenador cómo suena una persona “triste”, “feliz”, “asustada”, “disgustada” o “neutral”.
Retos pendientes
Después, el sistema analizó nuevas grabaciones y trató de determinar si las voces reflejaban alguna de las emociones conocidas. Si el programa de ordenador no conseguía decidirse entre dos o más emociones, dejaba la grabación sin clasificar.
“Queremos estar seguros de que cuando el ordenador piensa que el discurso grabado refleja una emoción particular, es muy probable que se trate en realidad de esa emoción”, explica Heinzelman.
Investigaciones anteriores han demostrado que los sistemas de clasificación de emociones dependen mucho del hablante, y que funcionan mucho mejor si el sistema está entrenado por la misma voz que se analizará. Los nuevos resultados también confirman este hecho. Si la clasificación de emociones basada en el habla se realiza en una voz diferente de la que entrenó al sistema, la precisión se redujo de un 81% a aproximadamente un 3%.
Los investigadores ahora están buscando maneras de minimizar este efecto, por ejemplo mediante la formación del sistema con una voz en el mismo grupo de edad y del mismo sexo. Como dice Heinzelman, “todavía hay retos por resolver si queremos utilizar este sistema en un entorno parecido a una situación de la vida real, pero sí sabemos que el algoritmo que hemos desarrollado es más eficaz que los intentos anteriores”.