Los auriculares con cancelación activa de ruido han demostrado ser efectivos para crear un espacio auditivo en blanco. Sin embargo, permitir que ciertos sonidos del entorno del usuario atraviesen la cancelación de ruido sigue siendo un desafío para los investigadores. La última edición de los AirPods Pro de Apple, por ejemplo, ajusta automáticamente los niveles de sonido, detectando cuando el usuario está en una conversación, pero el usuario tiene poco control sobre a quién escuchar o cuándo sucede esto.
Un equipo de la Universidad de Washington ha desarrollado un sistema de inteligencia artificial llamado «Target Speech Hearing», que permite al usuario fijarse en una persona que habla durante tres a cinco segundos para «inscribirla». Este sistema cancela todos los demás sonidos del entorno y reproduce en tiempo real solo la voz del interlocutor inscrito, incluso cuando el oyente se desplaza por lugares ruidosos y deja de estar frente a la persona.
El equipo presentó sus resultados el 14 de mayo en Honolulu, en la Conferencia ACM CHI sobre Factores Humanos en Sistemas Informáticos. El código del dispositivo de prueba de concepto está disponible para que otros lo amplíen. El sistema aún no está comercializado.
Auriculares IA
El equipo de la Universidad de Washington ha creado un sistema de inteligencia artificial que permite a un usuario con auriculares enfocar a una persona que habla durante tres o cinco segundos y luego escuchar solo la voz de esa persona en tiempo real, incluso cuando el oyente se desplaza por entornos ruidosos. En la imagen, un prototipo del sistema de auriculares muestra micrófonos binaurales acoplados a auriculares antirruido convencionales. CRÉDITO: Kiyomi Taguchi/Universidad de Washington.
«Tendemos a pensar en la IA como un chatbot basado en la web que responde a preguntas», explica Shyam Gollakota, autor principal y profesor de la Facultad de Informática e Ingeniería Paul G. Allen de la UW. «Pero en este proyecto, desarrollamos IA para modificar la percepción auditiva de cualquier persona que lleve auriculares, según sus preferencias. Con nuestros dispositivos, ahora se puede oír claramente a un solo orador aunque se esté en un entorno ruidoso con muchas otras personas hablando».
Para utilizar el sistema, una persona que lleva auriculares normales equipados con micrófono debe tocar un botón mientras dirige la cabeza hacia alguien que habla. Las ondas sonoras de la voz de ese interlocutor deben llegar simultáneamente a los micrófonos de ambos lados de los auriculares, con un margen de error de 16 grados. Los auriculares envían esa señal a un ordenador integrado, donde el software de aprendizaje automático del equipo aprende los patrones vocales del orador deseado. El sistema se enfoca en la voz de ese orador y la sigue reproduciendo al oyente, incluso cuando ambos se mueven. La capacidad del sistema para centrarse en la voz seleccionada mejora a medida que el interlocutor sigue hablando, proporcionando más datos de entrenamiento.
El equipo probó el sistema con 21 sujetos, quienes, en promedio, valoraron la claridad de la voz del hablante registrado casi el doble que la del audio sin filtrar.
Este trabajo se basa en investigaciones anteriores del equipo sobre «audición semántica», que permitía a los usuarios seleccionar clases específicas de sonidos, como pájaros o voces, que querían oír, cancelando otros sonidos del entorno.
Actualmente, el sistema TSH solo puede registrar a un hablante a la vez y solo es capaz de hacerlo cuando no hay otra voz alta proveniente de la misma dirección. Si el usuario no está satisfecho con la calidad del sonido, puede volver a inscribir al hablante para mejorar la claridad. El equipo está trabajando para ampliar el sistema a auriculares y audífonos en el futuro.