GPT-5 genera controversia entre desarrolladores de software

Cuando OpenAI presentó GPT-5, comunicó a los ingenieros de software que el modelo estaba concebido como un \»verdadero colaborador de codificación\», sobresaliendo en la generación de código de alta calidad y en la automatización de tareas de software. Aunque la empresa no lo mencionó de manera directa, parecía que OpenAI dirigía su atención hacia el Claude Code de Anthropic, que ha ganado rápidamente popularidad entre los desarrolladores para la codificación asistida por inteligencia artificial.

No obstante, desarrolladores han compartido con WIRED que la experiencia con GPT-5 ha sido, hasta ahora, mixta. El modelo destaca en el razonamiento técnico y en la planificación de tareas de codificación, pero algunos usuarios sostienen que los nuevos modelos de razonamiento Opus y Sonnet de Anthropic continúan produciendo código de mejor calidad. Dependiendo de la versión de GPT-5 utilizada, el modelo puede ser más complejo, lo que a veces resulta en la generación de líneas de código innecesarias o redundantes.

Críticas a la evaluación de rendimiento

Algunos ingenieros de software han criticado la manera en que OpenAI evaluó el rendimiento de GPT-5 en tareas de codificación, argumentando que los puntos de referencia utilizados son engañosos. Una empresa de investigación llegó a calificar de \»crimen gráfico\» el informe que OpenAI publicó, elogiando las capacidades de GPT-5.

Varios expertos han señalado que, en comparación con modelos competidores, GPT-5 se presenta como una opción mucho más económica. \»En nuestras pruebas, GPT-5 supera a otros modelos de IA porque es más barato\», comenta Sayash Kapoor, estudiante de doctorado en informática e investigador en la Universidad de Princeton, coautor del libro AI Snake Oil.

Rentabilidad y precisión en las pruebas

Kapoor menciona que él y su equipo han estado realizando pruebas comparativas para evaluar las capacidades de GPT-5 desde su lanzamiento la semana pasada. Indica que la prueba estándar que utilizan, que mide la capacidad de un modelo de lenguaje para escribir código que reproduzca los resultados de 45 artículos científicos, cuesta 30 dólares al ejecutarse con GPT-5 en un nivel de verbosidad medio. En comparación, la misma prueba con Opus 4.1 de Anthropic tiene un costo de 400 dólares. Hasta la fecha, Kapoor estima que su equipo ha invertido alrededor de 20,000 dólares en la evaluación de GPT-5.

A pesar de ser más económico, las pruebas realizadas por Kapoor sugieren que GPT-5 es menos preciso que algunos de sus competidores. El modelo premium de Claude alcanzó un 51% de precisión, medido por el número de artículos científicos que reproducía con exactitud. En contraste, la versión media de GPT-5 obtuvo un 27% de precisión. Kapoor aún no ha realizado la misma prueba con GPT-5 high, lo que convierte esta comparación en indirecta, dado que Opus 4.1 es el modelo más potente de Anthropic.

Declaraciones de OpenAI

Lindsay McCallum, portavoz de OpenAI, dirigió a WIRED a su blog, donde afirmaba que GPT-5 fue entrenado en \»tareas de codificación del mundo real en colaboración con analistas de startups y empresas\». La compañía también destacó algunas de sus métricas internas de precisión, que mostraron que el modelo \»pensante\» de GPT-5, que realiza un razonamiento más deliberado, obtuvo la puntuación más alta en precisión entre todos los modelos de OpenAI. Sin embargo, el GPT-5 \»principal\» sigue estando por debajo de los modelos anteriores en la escala de precisión de OpenAI.