El proyecto First Proof ¿Razonamiento matemático o memoria estadística?

Por.- Gabriela Jiménez Ramírez

La inquietud sobre la relación entre la inteligencia humana y la inteligencia artificial (IA) no es nueva, pero ha adquirido un nuevo impulso con los avances recientes en el campo de las matemáticas.

El proyecto First Proof, un ambicioso estudio liderado por un equipo de matemáticos internacionales, pone en duda la capacidad de la IA para realizar razonamientos matemáticos genuinos.

En lugar de resolver problemas de forma creativa y autónoma, la investigación sugiere que los modelos de IA podrían estar simplemente “recordando” información previamente procesada.

De acuerdo con el portal web Infobae, el proyecto First Proof nació con la intención de evaluar si los sistemas de IA pueden realmente resolver problemas matemáticos complejos de investigación, aquellos que enfrentan los matemáticos en su trabajo cotidiano.

La pregunta central que mueve el proyecto es si la IA está utilizando un razonamiento matemático real o simplemente está recordando patrones de información previamente almacenada, tal como si fuera una memoria estadística.

Como señala el artículo de Infobae, «la hipótesis que trabajan en el proyecto es que la IA no ‘resuelve’ un problema sino que ‘está recordando’ toda la información que pudo procesar».

La distinción entre razonamiento algorítmico y memoria estadística podría tener implicaciones profundas en cómo percibimos la capacidad de la IA para contribuir de manera autónoma en la solución de problemas complejos.

La investigación se basa en la resolución de 10 problemas matemáticos inéditos, cuidadosamente seleccionados por los miembros del proyecto. Estos problemas pertenecen a campos avanzados de las matemáticas como la combinatoria algebraica, la teoría espectral de grafos, la topología algebraica y la geometría simplética, entre otros.

Cada uno de estos problemas fueron resueltos previamente por humanos altamente especializados, pero nunca antes publicados en línea ni formaban parte de los datos con los que se entrenan los modelos de IA. Este es un punto clave, ya que permite evaluar si la IA es capaz de generar soluciones originales sin recurrir a información preexistente.

La evaluación se llevó a cabo utilizando los modelos GPT-5.1 Pro y Gemini 3 Pro, en un formato de «one-shot», es decir, cada modelo tuvo un único intento para resolver cada problema sin pistas previas. Los resultados fueron sorprendentes y reveladores: los sistemas de IA solo lograron resolver correctamente dos de los 10 problemas, y de manera mediocre en comparación con las expectativas de excelencia para este tipo de experimentos.

Los sistemas de IA actuales son entrenados con grandes cantidades de datos que incluyen libros de texto, problemas de olimpiadas matemáticas y soluciones publicadas, sin embargo, como argumentan los investigadores, esta práctica de «contaminación de datos» impide que se pueda evaluar adecuadamente el verdadero razonamiento matemático de la IA.

El equipo de «First Proof» hace hincapié en que la IA, aunque pueda ser capaz de generar textos sofisticados, no está necesariamente razonando de forma matemática. En cambio, está recuperando y reorganizando información almacenada previamente. Este hallazgo se convierte en un llamado de atención sobre las limitaciones actuales de la inteligencia artificial, especialmente en áreas que requieren creatividad y autonomía, como las matemáticas.

¿Pueden los sistemas de IA desarrollar una forma de razonamiento genuino, o simplemente están almacenando y repitiendo patrones aprendidos? Los resultados obtenidos hasta ahora sugieren que la IA aún no ha alcanzado la capacidad de razonamiento matemático autónomo, lo que refuerza la idea de que el conocimiento humano y la creatividad siguen siendo insustituibles, al menos en áreas complejas como las matemáticas.