VUI: Interfaz de Usuario de Voz

Cada vez más dispositivos controlados por voz, como Apple HomePod, Google Home, y Amazon Echo están asaltando el mercado. La inteligencia artificial habilitada para voz puede ocuparse de casi cualquier cosa en un instante.
  • “¿Qué sigue en mi calendario?”
  • “Reserva un taxi a Oxford Street”.
  • “¡Reprodúce Jazz en Spotify!”
Las cinco compañías de tecnología de los “Cinco Grandes” — Microsoft, Google, Amazon, Apple y Facebook — han desarrollado (o están actualmente desarrollando) asistentes de inteligencia artificial habilitados para voz. Siri, el asistente de inteligencia artificial para dispositivos Apple iOS y HomePod, está ayudando a más de 40 millones de usuario por mes, y según ComStore, uno de cada diez hogares en los EE. UU. ya posee un altavoz inteligente hoy.

Ya sea que hablemos de VUI (Interfaces de usuario de voz) para aplicaciones móviles o para altavoces domésticos inteligentes, las interacciones de voz se están volviendo más comunes en la tecnología actual, especialmente porque la fatiga de la pantalla es una preocupación.
¿Qué pueden hacer los usuarios con los comandos de voz?
Alexa es la asistente de inteligencia artificial para dispositivos de Amazon habilitados para voz, como el altavoz inteligente Echo y la tableta Kindle Fire — Amazon actualmente lidera el camino con la tecnología de voz (en términos de ventas).
En la tienda de Alexa, algunas de las aplicaciones más modernas (llamadas “habilidades”) se centran en entretenimiento, traducción y noticias, aunque los usuarios también pueden realizar acciones como solicitar un paseo a través de la habilidad de Uber, reproducir música a través de la habilidad de Spotify o incluso pida una pizza a través de la habilidad del Domino.
Otro ejemplo interesante proviene del banco comercial Capital One, que introdujo una habilidad de Alexa en 2016 y fue el primer banco en hacerlo. Al agregar la habilidad de Capital One a través de Alexa, los clientes pueden verificar el saldo y las fechas de vencimiento e incluso liquidar su factura de tarjeta de crédito. PayPal llevó el concepto un paso más allá al permitir a los usuarios realizar pagos a través de Siri en iOS o Apple HomePod, y también hay una habilidad Alexa para PayPal que puede lograr esta.
Pero lo que las VUI pueden hacer, y para qué los usan realmente los usuarios, son dos cosas diferentes.
ComScore declaró que más de la mitad de los usuarios que poseen un altavoz inteligente usan su dispositivo para hacer preguntas generales, verificar el clima y transmitir música, seguido de cerca por la administración de su alarma, lista de tareas y calendario (tenga en cuenta que estas tareas son bastante básico por naturaleza).
Como puede ver, muchas de estas tareas implican hacer una pregunta (es decir, búsqueda por voz).



Uso de altavoces inteligentes en los EE. UU. De acuerdo con ComScore

¿Qué buscan los usuarios con la búsqueda por voz?
La mayoría de las personas usa la búsqueda por voz mientras conduce, aunque cualquier situación en la que el usuario no pueda tocar una pantalla (por ejemplo, al cocinar o hacer ejercicio o al realizar múltiples tareas en el trabajo) ofrece una oportunidad para las interacciones de voz.
Las actualizaciones de tráfico en tiempo real se vuelven mucho más fáciles mientras conduces gracias al Asistente de Google y Android Auto.




La anatomía de un comando de voz
Antes de que se pueda crear un flujo de diálogo, los diseñadores primero deben comprender la anatomía de un comando de voz. Al diseñar VUI, los diseñadores necesitan constantemente pensar sobre el objetivo de las interacciones de voz (es decir, ¿Qué intenta realizar el usuario en este escenario?).
El comando de voz de un usuario consta de tres factores clave: intención, expresión y ranura.
Analicemos la siguiente solicitud: “Reproduce música relajante en Spotify”.
Intención (el objetivo de la interacción de voz)
La intención representa el objetivo más amplio del comando de voz de un usuario, y esto puede ser una utilidad baja o interacción de alta utilidad.
Una interacción de alta utilidad se trata de realizar una tarea muy específica, como solicitar que se apaguen las luces de la sala de estar o que la temperatura de la ducha sea determinada. Diseñar estas solicitudes es sencillo ya que es muy claro lo que se espera del asistente de inteligencia artificial.
Las bajas solicitudes de utilidad son más vagas y difíciles de descifrar. Por ejemplo, si el usuario desea obtener más información acerca de Ámsterdam, primero deseamos comprobar si esto encaja o no en el alcance del servicio y luego hacerle más preguntas al usuario para comprender mejor la solicitud.
En el ejemplo dado, la intención es evidente: el usuario quiere escuchar música.
Expresión (Cómo el usuario pronuncia un comando)
Un enunciado refleja cómo el usuario frases su solicitud. En el ejemplo dado, sabemos que el usuario desea reproducir música en Spotify diciendo “Play me …”, pero esta no es la única forma en que un usuario puede realizar esta solicitud. Por ejemplo, el usuario también podría decir: “Quiero escuchar música …”. Los diseñadores necesitan considerar cada variación de enunciado. Esto ayudará al motor de inteligencia artificial a reconocer la solicitud y vincularla a la acción o respuesta correcta.
Slots (las variables requeridas u opcionales)
A veces, un intento solo no es suficiente y se requiere más información del usuario para cumplir con la solicitud. Alexa llama a esto una “ranura”, y las máquinas tragamonedas son como los campos de formulario tradicionales en el sentido de que pueden ser opcionales o necesarios, dependiendo de lo que se necesita para completar la solicitud.
En nuestro caso, la ranura es “relajante”, pero como la solicitud aún puede completarse sin ella, esta ranura es opcional. Sin embargo, en el caso de que el usuario quiera reservar un taxi, la ranura sería el destino, y sería necesario. Las entradas opcionales sobrescriben cualquier valor predeterminado; por ejemplo, un usuario que solicita un taxi llega a las 4 p.m. sobrescribiría el valor predeterminado de “lo antes posible”.
Consejos prácticos para el diseño de VUI
Mantenga la comunicación simple y conversacional
Al diseñar aplicaciones y sitios web móviles, los diseñadores deben pensar qué información es primaria y qué información es secundaria (es decir, no tan importante). Los usuarios no quieren sentirse sobrecargados, pero al mismo tiempo, necesitan suficiente información para completar su tarea.
Con la voz, los diseñadores tienen que ser aún más cuidadosos porque las palabras (y tal vez una GUI relativamente simple) son todo lo que hay para comunicarse. Esto lo hace especialmente difícil en el caso de transmitir información y datos complejos. Esto significa que menos palabras son mejores, y los diseñadores deben asegurarse de que la aplicación cumpla con el objetivo de los usuarios y se mantenga estrictamente conversacional.
Confirmar cuando se ha completado una tarea
Al diseñar un flujo de pago de eCommerce, una de las pantallas clave será la confirmación final. Esto le permite al cliente saber que la transacción se ha registrado correctamente.
El mismo concepto se aplica al diseño de VUI. Por ejemplo, si un usuario estaba en la sala de estar y le pedía a su asistente de voz que apagara las luces del baño, sin una confirmación, tendrían que caminar hacia la sala de estar y verificar, derrotando el objeto de una “mano”. “Aplicación VUI por completo.
En este escenario, una respuesta de “luces de baño apagadas” funcionará bien.
Crear una estrategia de error fuerte
Como diseñador de VUI, es importante tener una estrategia de error fuerte. Siempre diseña para el escenario donde el asistente no entiende o no escucha nada. Los análisis también se pueden usar para identificar giros incorrectos y malas interpretaciones, de modo que se pueda mejorar la estrategia de error.
Algunas de las preguntas clave que debe hacer al buscar diálogos alternativos:
  • ¿Has identificado el objetivo de la interacción?
  • ¿Puede la IA interpretar la información hablada por el usuario?
  • ¿La IA requiere más información del usuario para cumplir con la solicitud?
  • ¿Podemos entregar lo que el usuario ha pedido?
Agregar una capa adicional de seguridad
Google Assistant, Siri y Alexa ahora pueden reconocer voces individuales. Esto agrega una capa de seguridad similar a Face ID o Touch ID. El software de reconocimiento de voz mejora constantemente, y cada vez es más difícil imitar la voz; sin embargo, en este momento, puede no ser lo suficientemente seguro y una autenticación adicional puede ser requerido. Al trabajar con datos confidenciales, los diseñadores pueden necesitar incluir un paso de autenticación adicional, como huellas dactilares, contraseña o reconocimiento facial. Esto es especialmente cierto en el caso de los mensajes y pagos personales.
Designing a VUI – Voice User Interface.