Inteligencia Artificial

La inteligencia artificial supera por primera vez el test de Turing: ¿el inicio de una nueva era digital?

Por primera vez, científicos demostraron empíricamente que dos sistemas de inteligencia artificial —GPT-4.5 de OpenAI y LLaMa-3.1 de Meta— superaron el test de Turing, al ser confundidos con humanos en una conversación. El hallazgo marca un hito en la evolución de la IA y reabre el debate sobre sus límites, aplicaciones y riesgos.

Por primera vez desde su creación en 1950, el icónico test de Turing ha sido superado de forma empírica por dos modelos de inteligencia artificial, marcando un antes y un después en el desarrollo de sistemas conversacionales. Un equipo de científicos de la Universidad de California en San Diego (UCSD) demostró que los modelos de lenguaje GPT-4.5, de OpenAI, y LLaMa-3.1, de Meta, lograron engañar sistemáticamente a humanos al punto de ser indistinguibles de una persona real.

El test de Turing, propuesto por el matemático británico Alan Turing —considerado uno de los padres de la informática moderna— plantea una situación en la que un evaluador humano mantiene una conversación escrita con dos interlocutores ocultos: uno humano y uno artificial. Si el evaluador no logra distinguir cuál es cuál, se considera que la máquina ha superado la prueba.

La metodología del experimento

En este nuevo estudio, los investigadores reclutaron a 284 participantes, incluidos estudiantes universitarios de la UCSD y personas del banco de datos Prolific. Cada uno mantuvo dos chats simultáneos de cinco minutos: uno con un humano y otro con una IA, sin saber cuál era cuál. Luego, debían juzgar quién creían que era humano.

Los resultados sorprendieron incluso a los propios autores. GPT-4.5 fue identificado como humano en el 73% de los casos, superando incluso al humano real con el que se le comparaba. En el caso de LLaMa-3.1, el porcentaje fue del 56%, lo que, según el equipo, también califica como una aprobación del test. “Si los interrogadores no pueden distinguir con fiabilidad entre un humano y una máquina, se dice que la máquina ha pasado la prueba”, explicaron los científicos en su artículo.

Red Hat OpenShift AI permite a las empresas escalar el desarrollo de IA generativa y predictiva en entornos de nube híbrida, garantizando flexibilidad y eficiencia.
Red Hat OpenShift AI permite a las empresas escalar el desarrollo de IA generativa y predictiva en entornos de nube híbrida, garantizando flexibilidad y eficiencia.

Además de estos dos modelos, los investigadores evaluaron a GPT-4o —una versión anterior de OpenAI— y al clásico ELIZA, uno de los primeros programas de chatbot de la década de 1960. Ambos fueron reconocidos como artificiales con una facilidad notable: sus tasas de identificación como humanos fueron de apenas 23% y 21%, respectivamente, cifras muy por debajo del azar.

La importancia de las instrucciones

Una de las claves del experimento fue el uso de indicaciones específicas para que los modelos de IA adoptaran una “personalidad humana”. Esta instrucción previa resultó fundamental: cuando se eliminaron esas directrices y se les dio un mensaje más genérico, los resultados de GPT-4.5 y LLaMa-3.1 cayeron de manera significativa. Para el autor principal del estudio, Cameron Jones, esto no invalida los resultados, sino que pone en evidencia la importancia de cómo se configura una IA antes de interactuar. “Sin ningún tipo de aviso, los LLM fracasarían por razones triviales (como admitir que son IA) y podrían ajustarse fácilmente para que se comporten como lo hacen cuando se les pide”, explicó Jones en un hilo publicado en X.

Implicancias del hallazgo

El estudio fue publicado en formato preimpreso, lo que significa que aún no ha pasado por revisión por pares, pero ya despierta un intenso debate dentro de la comunidad científica y tecnológica. Para muchos, constituye una evidencia sólida de que los modelos de lenguaje actuales están alcanzando niveles de sofisticación que antes solo se atribuían a la inteligencia humana.

Este avance plantea preguntas profundas. Si ya no podemos distinguir entre una persona y una IA en una conversación, ¿qué significa eso para el futuro de la comunicación digital? ¿Qué implicancias tiene para la educación, el trabajo, la política o incluso la ética?

El matemático Alan Turing, padre de la informática moderna.
El matemático Alan Turing, padre de la informática moderna.

¿Qué sigue después del test de Turing?

El test de Turing siempre fue más que una prueba técnica: fue un punto de referencia filosófico sobre los límites de la inteligencia artificial. Que haya sido superado por sistemas como GPT-4.5 y LLaMa-3.1 no solo es un hito tecnológico, sino también un llamado a repensar cómo nos relacionamos con las máquinas en nuestra vida diaria.

A medida que estas IA se integran en plataformas masivas como WhatsApp, Facebook o herramientas de productividad, se vuelve crucial establecer marcos de transparencia, responsabilidad y regulación. El desafío ahora no es solo construir sistemas más inteligentes, sino asegurar que su uso respete los valores humanos y promueva el bienestar colectivo.

En palabras de Turing: «En lugar de tratar de producir un programa que simule la mente del adulto, ¿por qué no uno que simule la mente de un niño?» Hoy, más de 70 años después, la ciencia parece haber llevado esa idea a un nuevo nivel. Y quizás, solo quizás, estemos conversando con máquinas que no solo parecen humanas, sino que empiezan a pensar como tales.

Leer mas

Autor

[mdx-adserve-bstreet region="MED"]

Publicaciones relacionadas

Botón volver arriba