¿Por qué Google, Microsoft y Amazon en lanzar dispositivos que graban tu voz?
El dispositivo Echo de Amazon ha hecho realidad la promesa de un asistente personal artificialmente inteligente en cada hogar. Quienes tienen esta unidad de comando de voz (conocida como Alexa, por su interlocutora mujer) suelen elogiar sus encantos, aplaudir la capacidad de Alexa de pedir un Uber, ordenar una pizza o revisar la tarea de matemáticas de un alumno de 10º grado. La compañía dice que más de 5,000 personas por día profesan su amor por Alexa.
Pero los devotos de Alexa también saben que, a menos que se le hable muy claro y muy lento, ella va a decir: “Lo lamento, no tengo la respuesta a esa pregunta”.
El reconocimiento de voz ha recorrido un largo camino en los últimos años. Pero todavía no es lo suficientemente bueno como para popularizar la tecnología para su uso cotidiano y marcar el comienzo de una nueva era en la interacción persona-máquina que nos permita hablar con todos nuestros aparatos: automóviles, lavarropas, televisores. Pese a los avances en el reconocimiento de la voz, la mayoría de las personas aún tocan, cliquean o deslizan el dedo por la pantalla. Y probablemente lo sigan haciendo en el futuro cercano.
¿Qué es lo que frena el progreso? En parte, la inteligencia artificial que emplea la tecnología tiene margen para mejorar. Asimismo, hay un grave déficit de datos, sobre todo de audios de voces humanas que hablen en múltiples idiomas, acentos y dialectos en las circunstancias frecuentemente ruidosas que pueden hacer fracasar al código.
Por ello, Amazon, Apple Microsoft y la china Baidu se han embarcado en una caza mundial de terabytes de habla humana. Microsoft ha creado apartamentos ficticios en ciudades de todo el planeta para grabar a voluntarios que hablen en un ambiente familiar. Cada hora, Amazon sube consultas de Alexa a un gigantesco depósito digital. Baidu está recolectando todos los dialectos de China. Luego toma todos esos datos y los utiliza para enseñar a sus computadoras a analizar, comprender y responder a órdenes y preguntas.
Cuando uno le ordena a su teléfono que busque algo, que reproduzca una canción o que lo guíe a un determinado destino, es muy probable que una compañía lo esté grabando. (Apple, Google, Microsoft y Amazon subrayan que anonimizan los datos de los usuarios para proteger la privacidad de sus clientes). “Por su diseño, Alexa se vuelve más inteligente a medida que se la usa”, dice Nikko Strom, científico jefe del programa.
Las empresas también están diseñando sistemas de reconocimiento de voz para situaciones específicas. Microsoft ha probado una tecnología que puede responder a las consultas de los viajeros sin distraerse con el constante bombardeo de anuncios de vuelos en los aeropuertos y que también puede utilizarse en el sistema de pedidos automáticos de McDonald’s que se hacen desde el automóvil. En Amazon están realizando pruebas en automóviles, desafiando a Alexa a funcionar bien con el ruido de la calle y las ventanillas abiertas.
Google en general adhiere a una filosofía de menos es más, aplicando un abordaje fragmentado que utiliza unidades ininteligibles de sonido para armar palabras y frases. Con este sistema de reconocimiento de voz, la compañía apunta a resolver numerosos problemas con apenas un cambio. Para sus conjuntos de datos, Google enlaza decenas de miles de fragmentos de audio que suelen durar de dos a cinco segundos. Por su parte, Baidu está trabajando en algoritmos más eficientes por los que el aprendizaje de un idioma facilita el aprendizaje de los siguientes doce.}