La investigación actual muestra cómo la IA ha experimentado cambios en los últimos meses. La gente suele pensar en ChatGPT como una especie de entidad omnisciente capaz de responder preguntas, encontrar información y escribir código. OpenAI trabaja constantemente en mejorar esta herramienta.

Para verificar la precisión del chatbot, investigadores de la Universidad de Stanford y UC Berkeley realizaron un estudio. Compararon las versiones de marzo de 2023 y junio de 2023 de los modelos GPT-3.5 y GPT-4 en cuatro tareas distintas: resolver problemas de matemáticas, responder preguntas delicadas/peligrosas, generar código y razonamiento visual.


ChatGPT-4 está perdiendo rendimiento frente a ChatGPT-3.5

En el caso de problemas de matemáticas, los resultados fueron sorprendentes. Mientras GPT-3.5 mejoró su precisión con el tiempo, GPT-4 mostró un declive significativo, pasando del 97,6 % de respuestas correctas en marzo al 2,4 % en junio. Además, las respuestas del último modelo se redujeron drásticamente, ofreciendo explicaciones más limitadas.

Al probar el bot por sí mismos, los investigadores notaron que GPT-4 respondió incorrectamente a una pregunta sobre si 17077 era un número primo. En cambio, proporcionó una respuesta incorrecta, diciendo que no lo era. La disminución en la precisión fue notoria.

Para preguntas delicadas o moralmente ambiguas, ambos modelos demostraron ser más seguros al negarse a responder. También se observó una disminución en la cantidad de código generativo cuando se solicitó al bot que escribiera código. Sin embargo, los resultados de razonamiento visual mejoraron tanto en precisión como en extensión.


Conclusiones de la investigación sobre la pérdida de eficacia en ChatGPT

Los investigadores concluyeron que el rendimiento y comportamiento de los modelos GPT-3.5 y GPT-4 pueden variar considerablemente con el tiempo. GPT-4 fue altamente preciso en la identificación de números primos en marzo, pero para junio mostró una deficiencia significativa en esa tarea. Además, ambos modelos fueron menos propensos a responder preguntas sensibles en junio y tuvieron más errores de formato al generar código.

Algunos usuarios señalaron que esta disminución en la precisión podría estar relacionada con el deseo de OpenAI de adaptarse a otras empresas y países, lo que podría implicar limitaciones de censura en su rendimiento. En cualquier caso, las nuevas respuestas de ChatGPT parecen decepcionantes para algunos.