Los sistemas conversacionales, basados en tecnologías de inteligencia artificial, se han convertido en una tendencia debido a su capacidad para generar respuestas naturales y, en apariencia, coherentes en la interacción entre maquinas y seres humanos.
Esta reciente popularidad ha llevado a que se hayan adoptado de manera generalizada en ciertas industrias con el ánimo de mejorar sensiblemente áreas como atención al cliente, soporte 24/7, mejora de la experiencia del usuario, entre otras.
Estos sistemas conversacionales son modelos de inteligencia artificial conversacional basados en lo que denominan Large Language Model (LLM), o lo que es lo mismo, algoritmos de Inteligencia Artificial Generativa que producen texto para conversar. Este hecho es bastante relevante ya que los sistemas conversacionales suelen generar respuestas “sin sentido” cuando se les solicitan ciertas instrucciones (prompts). Este fenómeno se conoce como “alucinación de la IA”.
La alucinación ocurre cuando la IA genera una salida que transmite una comprensión distorsionada de la instrucción de entrada. La causa raíz de la alucinación de la IA a menudo está relacionada con la forma en que se entrenan los modelos de IA y las limitaciones de sus datos de entrenamiento.
Este es un hecho notable ya que los sistemas conversacionales basados en IA están diseñados para que conversen, y no necesariamente para que lleven razón. No están entrenados con todo el conocimiento universal verificado, por lo que, si se le pregunta por hechos, por datos concretos, factuales, como el que está buscando en una base de datos un dato puntual, podría acabar inventándose situaciones, o mejor dicho, “alucinando”.
Particularmente he hecho varios experimentos al respecto. Uno de ellos está vinculado a producir modelos predictivos sobre comportamiento de los clientes, por lo que le di instrucciones muy precisas a Microsoft Bing, Google Bard y ChatGPT. Inicié por pedirle cómo se podría hacer un análisis de Recency-Frecuency-Monetary (RFM) en una industria en particular, y las líneas de código para hacerlo en lenguaje Python.
Al principio los resultados sobre la lógica del modelo RFM, su utilidad, argumentos y las líneas de código eran sólidas. Sin embargo, al momento de asignar segmentos basados en quintiles a los RFM scores se hizo una asignación errónea para segmentos de “alto valor”, “medio valor, y “bajo valor”, ya que están fuera de los rangos de los quintiles.
Le di nuevas instrucciones, señalando que quería una versión más evolucionada del modelo RFM, e indiqué que quería saber sobre la probabilidad de que un cliente volviera a comprar, basado en su historial de comportamiento. La respuesta conducía a que utilizará algoritmos de Machine Learning, de aprendizaje supervisado como la regresión logística.
Aunque la lógica para ejecutar un algoritmo de regresión logística era correcta, es importante mencionar que no es el mejor modelo para la instrucción solicitada, ya que es un algoritmo para hacer clasificación “Comprar-no comprar”, y no para determinar una probabilidad especifica de compra por un cliente.
Dado lo anterior, le proporcioné una nueva instrucción sobre probabilidad de compra, cálculo de una tasa de “churn-rate”, y el valor monetario del cliente; la respuesta me condujo de nuevo a un modelo de clasificación binario, ahora mezclando la predicción con las variables clave del modelo RFM. Aunque no es la mejor forma de hacer lo solicitado, es viable hacerlo, no obstante, las líneas de código conducen a un error de estimación significativo al momento de asignar la probabilidad de compra.
Finalmente, le di nuevas instrucciones para que determinara qué otro tipo de modelos puedo utilizar para la tarea que le había indicado, y ahora abre el espectro a todos los algoritmos de aprendizaje supervisado para labores de clasificación en ML y otros modelos como los de series de tiempo. A estas alturas, la información arrojada por los 3 sistemas conversacionales, aunque escrita de manera coherente, presenta datos incorrectos, o plenamente erróneos.
Este mismo experimento lo he repetido en diseño de estrategias para empresas tradicionales consolidadas en el mercado, empresas nacientes basadas en tecnología, o empresas en fase de internacionalización temprana. Los resultados son similares a lo expuesto anteriormente, si bien los sistemas conversacionales dan un buen punto de partida para dar ideas sobre estrategia, a medida en que se profundiza sobre escenarios muy puntuales los resultados reportan estrategias poco coherentes sobre el tipo de empresa-mercado en consideración.
En ambos experimentos los sistemas conversacionales dan un buen comienzo, pero en última instancia es el ser humano quien realiza las indicaciones y, por tanto, es el que tiene que decidir si el contexto, la secuencia y los detalles de la salida corresponden al objetivo de la instrucción dada y si son claramente factuales.
La alucinación de la IA es un fenómeno preocupante que surge de las limitaciones de los modelos actuales de IA. Si bien la IA ha demostrado ser valiosa en diferentes aplicaciones, la posibilidad de generar resultados erróneos o engañosos es una realidad y esto representa un desafío importante en estas primeras iteraciones de la tecnología. Para mitigar el riesgo de alucinaciones de IA, los investigadores deben desarrollar conjuntos de datos de entrenamiento más completos y refinar los algoritmos utilizados para entrenar modelos de IA, en especial los LLM. A su vez, los usuarios deben examinar cuidadosamente los resultados generados por la IA para identificar y corregir cualquier alucinación o incoherencia (p. ej., solicitar un ejemplo mínimamente reproducible y confirmar que el ejemplo genera resultados lógicos y coherentes).
No soy un negacionista de la IA, claramente creo que los modelos LLM bien entrenados, con datos correctos, y con evolución tecnológica serán grandes maneras de acceder a “hechos” y/o “datos factuales de diversas áreas de especialidad”, y podrán ayudar a mejorar ostensiblemente actividades sensibles de la gestión de empresas. Pero hoy en día son una interfaz para charlar y conversar, sin ninguna garantía de veracidad.
El rol del ser humano, detrás de cada uno de los aspectos señalados en esta columna, es y seguirá siendo crucial para el correcto desempeño empresarial. No deje que las alucinaciones de la IA lo conduzcan a un callejón sin salida.
El autor es Profesor del Departamento de Mercadotecnia e Inteligencia de Negocios de EGADE Business School del Tecnológico de Monterrey.
Artículo originalmente publicado en El Financiero.