Dime lo que miras y te diré qué dirás
El recorrido que hacen nuestros ojos cuando observamos una imagen permite predecir qué frases usaremos para describir lo que estamos viendo.
Esta es la conclusión a la que llegó un equipo de investigadores de la Universidad de Edimburgo, en Escocia, que analizó la correlación entre el discurso y el movimiento de los ojos, y descubrió que la forma en que describimos una imagen no es caprichosa sino que está directamente vinculada al recorrido visual que hacemos por la imagen antes de hablar.
Este hallazgo resulta extremadamente útil para mejorar la interface de lo programas que funcionan con reconocimiento de voz y para otras clases de software para personas discapacitadas, muchas de las cuales sólo cuentan con el movimiento de sus ojos para expresarse.
Según explican los investigadores, el patrón que sigue la mirada permite anticipar qué objetos describiremos de una escena determinada, qué relación percibimos entre ellos y cómo ordenaremos las palabras (que siguen el orden de los sitios u objetos en los que hemos posado los ojos), así como la longitud de la frase.
“Notamos muchas diferencias entre la gente”, le dijo a BBC Mundo Moreno Coco, uno de los científicos a cargo del estudio. Ante la misma imagen, “algunos hablaron durante mucho más tiempo que otros, describiendo varios objetos, mientras que otros usaron frases muy cortas, concentrándose sólo en uno o dos detalles”.
La imagen y el movimiento de los ojos están ligados porque en principio necesitamos ver lo que vamos a describir. Lo que la investigación pone en evidencia es la correlación entre el discurso y “la forma en que hablamos con la mirada”, comenta Coco.
Predicción versus generación
A los voluntarios se les mostró una serie de imágenes como esta y se les pidió que describan lo que veían.
Para hacer el estudio los investigadores les presentaron a un grupo de voluntarios una serie de imágenes con escenas realistas en espacios interiores, como por ejemplo una sala de estar o la recepción de un hotel.
Después de ver estas postales, los participantes debían describir la escena tal y como la veían.
Por ejemplo, si los ojos de la persona se dirigían primero al hombre en la foto y luego a la silla, solían decir: “Hay un hombre parado al lado de la silla”. O si sus ojos se posaban primero en la silla, luego en el hombre, más tarde en el mostrador y finalmente en un sofá, empezaban hablando describiendo la silla primero, y, como sus ojos se habían detenido a mirar más objetos, se demoraban más describiendo la imagen.
Tras registrar los patrones del movimiento ocular de los voluntarios y las descripciones que hicieron de las escenas, los científicos lograron identificar qué patrón correspondía a qué frase y predecir cuál frase emplearían después de seguir un patrón determinado.
“Demostramos que es posible reconocer la frase con sólo leer el movimiento de los ojos. Ahora, el paso siguiente es ver si podemos, a partir de un patrón de movimiento, generar una frase. Es decir, analizar un patrón de escaneo de una imagen y generar una oración sin contar con ninguna clave lingüística”, señaló Coco.
El científico reconoce que sería interesante observar también si el recorrido visual varía según el género o la cultura del sujeto, pero aclara que el estudio no se concentró en estas variables.
De la teoría a la práctica
En el campo de la práctica las conclusiones de la investigación, como mencionamos al comienzo, podrían ayudar en el desarrollo de las aplicaciones para personas discapacitadas que sufren algún tipo de parálisis y no pueden hablar.
“Creo que esta clase de estudios puede servir para desarrollar interfaces para usuarios basadas en la información provista por el movimiento de los ojos. Si estás confinado en una cama puedes usar tus ojos para generar frases”
Moreno Coco, Universidad de Edimburgo
“Creo que esta clase de estudios puede servir para desarrollar interfaces para usuarios basadas en la información provista por el movimiento de los ojos. Si estás confinado en una cama puedes usar tus ojos para expresar lo que lo que quieres decir”, dice Coco.
En opinión de Changsong Liu, un investigador de la Universidad del Estado de Michigan, en Estados Unidos, que no está vinculado a esta investigación, los resultados de este estudio pueden ser un aporte para el diseño de cualquier interface entre computadoras y personas que se basa en claves visuales para mejorar los programas de reconocimiento de voz.
Actualmente Coco y su equipo están investigando el papel de la coordinación visual y los procesos lingüísticos en un diálogo entre dos personas.
“Nuestro foco está puesto en cómo se coordinan los movimientos de los ojos entre dos individuos cuando están resolviendo juntos un mismo problema. Queremos descubrir la asociación exacta entre lo que están mirando y lo que están diciendo “.
“Lo que estamos tratando de identificar es si la coordinación de estos movimientos le permite al par realizar la tarea de forma más exitosa”, explicó el investigador.