Alexa+ con IA: ¿Es el asistente de Amazon por fin más inteligente?

Indianexpress

El asistente virtual de Amazon, Alexa, ha sido durante mucho tiempo un elemento básico en los hogares inteligentes, utilizado principalmente para tareas sencillas como reproducir música, configurar temporizadores y ofrecer pronósticos meteorológicos. Sin embargo, el advenimiento de la inteligencia artificial generativa sofisticada, particularmente las capacidades de conversación fluidas demostradas por sistemas como ChatGPT desde 2023, señaló una evolución inevitable para los asistentes de voz. Amazon estuvo de acuerdo, embarcándose en un ambicioso esfuerzo de varios años para infundir a Alexa un nuevo cerebro de IA, construido sobre los mismos grandes modelos de lenguaje (LLMs) que impulsan los chatbots de vanguardia. Esta extensa revisión, que según se informa estuvo plagada de luchas internas y complejidades técnicas, finalmente ha culminado en Alexa+, que ahora se está implementando más ampliamente después de un período de pruebas de acceso anticipado.

Alexa+ representa el intento significativo de Amazon de fusionar la destreza conversacional dinámica de la IA generativa con las funcionalidades diarias confiables que definían la Alexa original. Los miembros Prime recibirán acceso a Alexa+ sin costo adicional, mientras que los suscriptores no Prime enfrentarán una tarifa mensual de $19.99. Este lanzamiento coincide con el reciente acuerdo de licencia de Amazon con The New York Times, que permite al gigante tecnológico integrar el contenido del Times en sus sistemas de IA, incluido Alexa+. (Cabe señalar que The New York Times está simultáneamente persiguiendo acciones legales contra OpenAI y Microsoft por presuntas infracciones de derechos de autor relacionadas con los datos de entrenamiento de IA).

Las pruebas iniciales de Alexa+ revelan una mezcla de avances y regresiones notables. En el lado positivo, interactuar con la nueva Alexa es innegablemente más atractivo. Sus voces sintéticas son más realistas, exhibiendo una cadencia similar a la humana, y los usuarios pueden seleccionar entre ocho perfiles vocales distintos. El sistema también introduce nuevas capacidades impresionantes, como reservar mesas en restaurantes y generar y narrar historias largas para niños. Fundamentalmente, Alexa+ sobresale en el manejo de solicitudes de varios pasos, gestionando hábilmente comandos complejos como configurar varios temporizadores simultáneamente o redactar y enviar por correo electrónico un itinerario de viaje. Una mejora significativa en la calidad de vida es la eliminación de la necesidad constante de una palabra de activación, lo que permite conversaciones más naturales y continuas, y preguntas de seguimiento.

A pesar de estos prometedores avances, Alexa+ está actualmente plagada de errores e inconsistencias que obstaculizan su fiabilidad. En las pruebas, no solo se quedó atrás de otros asistentes de voz de IA, sino que, en algunos casos, funcionó peor que la Alexa original en funciones básicas. Por ejemplo, un simple comando para cancelar una alarma, una tarea rutinaria para el sistema anterior, fue inexplicablemente ignorado. Los intentos de que Alexa+ resumiera un documento de investigación enviado por correo electrónico resultaron en un mensaje de error que indicaba que el documento no se pudo encontrar. Más preocupantes fueron los casos de imprecisiones fácticas, o “alucinaciones”, como la identificación errónea del rallador de caja recomendado por Wirecutter. En una interacción memorable, cuando se le pidió ayuda con una instalación técnica, Alexa+ se puso nerviosa y repitió: “Oh, no, mis cables se cruzaron”. Además, algunas características anunciadas, como una rutina de detección de presencia para saludos personalizados, aún no estaban activas durante las pruebas. Daniel Rausch, vicepresidente de Amazon que supervisa Alexa y Echo, reconoció estas deficiencias, afirmando que la compañía tiene “algunos bordes que pulir” a medida que el sistema escala.

Rausch detalló los profundos desafíos técnicos de integrar la IA generativa en Alexa. La Alexa original se construyó sobre una arquitectura determinista, basada en reglas, donde cada función —desde reproducir una canción hasta controlar un dispositivo inteligente— requería programación individual y llamadas de herramientas específicas. En contraste, los grandes modelos de lenguaje son “estocásticos”, operando con probabilidades, lo que les otorga creatividad pero sacrifica la fiabilidad inherente de los sistemas más antiguos. Esta diferencia fundamental requirió una reconstrucción completa de muchos procesos centrales. Las primeras demostraciones internas revelaron una latencia significativa, con Alexa+ tardando más de 30 segundos en responder a una solicitud simple como reproducir una canción, un retraso “insoportable”. La verbosidad de los primeros LLMs también planteó un desafío; una pregunta sobre un temporizador podría provocar un ensayo de 500 palabras sobre la historia de los temporizadores de cocina. La solución de Amazon implica un sistema de orquestación que enruta inteligentemente las solicitudes de los usuarios a través de una combinación de más de 70 modelos de IA, incluidos modelos propietarios de Amazon y proveedores externos como Claude de Anthropic, con el objetivo de combinar la fluidez conversacional con resultados predecibles.

Otra barrera es la adaptación del usuario. Los usuarios de Alexa de larga data han desarrollado un “pidgin de Alexa” específico, formulando solicitudes en comandos familiares que el sistema entendía. Alexa+, diseñado para una conversación más fluida y similar a la humana, exige un estilo de interacción diferente, lo que requiere que los usuarios desaprendan viejos hábitos. Si bien los obstáculos técnicos son significativos y ningún competidor, incluido Siri de Apple, ha descifrado completamente este código, las limitaciones de Alexa+ no invalidan inherentemente el potencial de la IA generativa para los asistentes de voz. Más bien, resaltan la inmensa dificultad de integrar IA de vanguardia con sistemas heredados establecidos. Por ahora, muchos usuarios pueden encontrarse, como este revisor, optando por volver a la versión más antigua y predecible de Alexa, dejando las extensas pruebas beta a otros. En última instancia, con la IA, al igual que con la inteligencia humana, la capacidad bruta a menudo importa menos que su aplicación práctica y fiable.