ChatGPT vient de résoudre un problème de maths que personne n’avait jamais démontré : Amazon déclare que c’est une première mondiale, Cambridge répond que le chatbot s’est trompé 80 % du temps

ChatGPT vient de résoudre un problème de maths que personne n'avait jamais démontré Amazon déclare que c'est une première mondiale, Cambridge répond que le chatbot s'est trompé 80 % du temps

Un système d’intelligence artificielle présenté comme une déclinaison de ChatGPT a été crédité d’une avancée rare, la résolution autonome d’un problème de géométrie encore non démontré.

L’épisode a circulé dans les milieux spécialisés et sur les réseaux, avec un point commun dans les récits, le modèle n’a pas seulement récité une solution connue, il a exploré des pistes, éliminé des impasses et proposé une méthode jugée originale par les observateurs. Cette annonce arrive dans un contexte où les performances des modèles de langage sont scrutées sur deux fronts, leur capacité à raisonner et leur tendance à produire des réponses fausses avec aplomb. Les chercheurs impliqués dans d’autres tests mathématiques, notamment sur un casse-tête antique popularisé depuis Platon, décrivent un comportement apprenant, parfois hésitant, souvent interactif. Entre prouesse réelle et interprétation trop enthousiaste, l’événement pose une question simple, que vaut exactement une “solution” produite par un modèle statistique.

Amazon attribue la résolution à une méthode algébrique

Dans les informations qui circulent, l’initiative est associée à une équipe d’inventeurs chez Amazon, et le résultat est présenté comme la résolution d’un problème de géométrie jusque-là non démontré. Le détail qui retient l’attention tient à la voie empruntée, une approche algébrique plutôt qu’une construction purement géométrique. Pour des mathématiciens, ce choix n’est pas anodin, il suggère que le modèle a cherché un changement de représentation pour rendre le problème manipulable. Ce point fait écho à une observation récurrente sur les modèles de langage, ils sont plus à l’aise avec des chaînes symboliques et des transformations textuelles qu’avec des raisonnements visuo-spatiaux. Une preuve algébrique peut se dérouler en étapes verbalisées, avec des équations et des implications, là où une preuve géométrique classique s’appuie souvent sur un diagramme, des invariants visuels et des constructions. Le fait que la solution rapportée passe par l’algèbre peut donc être lu comme une adaptation à la “forme” de l’outil. Dans les discussions publiques, l’expression première fois revient souvent. Elle doit être maniée avec prudence, car le champ des systèmes d’IA est large, entre assistants conversationnels, moteurs de recherche augmentés, et systèmes hybrides capables de recherche arborescente ou de vérification formelle. Ici, l’accent est mis sur une résolution attribuée à un modèle de type IA conversationnelle, avec un apprentissage à grande échelle. Le caractère autonome est également discuté, car ces systèmes donnent rarement le meilleur d’eux-mêmes sans cadrage précis. Un élément revient dans plusieurs récits, la valeur de la solution ne se limite pas à la réponse finale, mais à la trajectoire. Explorer des pistes, reconnaître des contradictions, reformuler le problème, ce sont des marqueurs de travail mathématique. Mais l’évaluation reste délicate, car un modèle peut produire une suite d’étapes plausibles sans garantie. La question centrale devient alors, qui a validé, par quels moyens, et avec quel niveau de contrôle, surtout si la solution est annoncée comme une première sur un problème ouvert.

Nadav Marco et Andreas Stylianides testent le doublage du carré

Un autre épisode, mieux documenté sur le plan pédagogique, éclaire la manière dont ChatGPT se comporte face à une difficulté classique, le problème du doublage du carré, connu depuis l’Antiquité. Dans un article scientifique publié le 17 septembre dans l’International Journal of Mathematical Education in Science and Technology, des chercheurs ont interrogé le modèle sur une variante consistant à doubler l’aire d’un rectangle avec un raisonnement similaire. Le chatbot a d’abord répondu qu’il n’existait pas de solution géométrique, en s’appuyant sur une idée erronée concernant la diagonale. Deux spécialistes, Nadav Marco, chercheur invité à l’Université de Cambridge et affilié à l’Université hébraïque de Jérusalem, et Andreas Stylianides, professeur en didactique des mathématiques, savaient qu’une solution géométrique existait. Leur intérêt tenait au caractère non évident de la résolution, depuis Platon et les dialogues attribuant à Socrate un échange célèbre où l’élève se trompe en doublant la longueur des côtés, ce qui quadruple l’aire. Le problème sert depuis des siècles à discuter ce qui relève de l’intuition, de l’expérience ou du raisonnement guidé. Le protocole avait une motivation précise. Les chercheurs estiment qu’un modèle entraîné surtout sur du texte a une faible probabilité d’avoir mémorisé une solution exacte à partir de données d’entraînement, surtout si la solution dépend de figures. Cela ne prouve pas qu’il n’y a aucune trace du problème dans les corpus, mais cela renforce l’idée que, s’il trouve la bonne approche, il peut s’agir d’une recomposition plutôt que d’une récitation. Ils cherchaient donc un cas où une réussite serait un indice de capacité apprise. Le résultat, selon leurs observations, est moins spectaculaire qu’un “eurêka” instantané, et plus instructif. Le modèle a résisté à certaines suggestions incorrectes, a proposé des détours, et n’a livré la solution géométrique qu’après des relances plus insistantes. Cette dynamique ressemble à une interaction en classe, où le bon raisonnement se construit avec des questions bien posées. Cela introduit une nuance, l’outil peut aider, mais il ne remplace pas la compréhension, et il peut se tromper au départ, y compris sur un problème réputé accessible.

Les échanges guidés corrigent 80% d’impasses selon Ernest Ryu

Le récit d’Ernest Ryu apporte un contrepoint utile, parce qu’il insiste sur le caractère laborieux du processus. Dans son retour d’expérience, il explique que le modèle n’a pas fourni une preuve complète d’un seul bloc. Le travail s’est étalé sur environ 12 heures sur 3 jours, avec de nombreux essais. Il décrit une proportion élevée d’arguments erronés, autour de 80%, mais souligne que certaines idées étaient nouvelles pour lui et ont accéléré l’exploration. Le problème qu’il évoque, celui d’une bille qui roule dans un bol, illustre une difficulté mathématique souvent mal comprise par le grand public. Les mathématiciens savent démontrer que la “hauteur” d’une trajectoire tend vers la hauteur minimale, ce que Ryu résume comme une certitude que la bille finira par entrer dans la zone la plus basse. Mais le vrai point ouvert est plus fin, il ne suffit pas que la valeur d’une fonction converge, il faut encore prouver que la position converge vers un point précis, et que la bille s’arrête exactement à cet endroit. Ce cas montre ce que l’IA fait bien dans une session interactive, proposer rapidement des pistes, même imparfaites, pour aider un humain à éliminer des voies mortes. Ryu insiste sur une contribution précise, l’étape clé qui a débloqué la preuve aurait été proposée par ChatGPT. Mais il précise aussi que la réussite vient d’une extraction humaine des idées utiles, suivie de relances ciblées. Dans ce schéma, l’IA joue un rôle de générateur d’hypothèses, pas de garant de vérité. La nuance est importante pour interpréter l’annonce d’une résolution de problème ouvert en géométrie. Si une solution est annoncée, la communauté attend des vérifications indépendantes, et souvent une formalisation. Sans cela, on peut confondre une intuition prometteuse avec une preuve robuste. Le récit de Ryu, avec ses erreurs nombreuses, rappelle un fait simple, la productivité peut augmenter, mais la charge de validation reste sur l’humain. Dans un domaine où une seule faute logique invalide tout, ce détail change la portée du mot “résoudre”.

Le débat sur l’intelligence, entre force brute et preuves vérifiables

La discussion n’est pas seulement technique, elle est aussi philosophique. Sur un blog spécialisé en complexité computationnelle, un auteur exprime un scepticisme clair face à l’idée que tester massivement des solutions, par exemple jusqu’à 105 possibilités, soit une mesure d’intelligence. Le billet prend l’exemple d’un problème de chiffres où l’auteur a trouvé plusieurs solutions à la main, puis a interrogé ChatGPT pour comparer. L’argument est que certaines “réussites” peuvent masquer une recherche brute ou une exploitation de régularités, sans compréhension profonde. Le même texte propose un contraste historique, l’algorithme de Liu Hui pour approcher, où l’innovation tient à une méthode structurée et transférable, pas à l’accumulation d’essais. Cette comparaison éclaire ce que les mathématiciens valorisent, une idée qui généralise, un raisonnement qui se vérifie, une méthode qui s’explique. Dans ce cadre, une IA qui “résout” un problème ouvert doit être évaluée sur la lisibilité de la preuve, sa capacité à être auditée, et sa robustesse face aux contre-exemples. Un autre point soulevé concerne les systèmes hybrides, proches de ce que l’on voit dans les compétitions ou dans certains projets de recherche, combinant recherche arborescente, heuristiques et vérification automatique. Ces systèmes ne sont pas comparables à un assistant conversationnel standard. Mélanger les catégories crée un risque de surinterprétation médiatique. Si la résolution attribuée à un modèle de type ChatGPT repose sur des outils annexes, ou sur un contrôle externe fort, la formulation “autonome” devient trompeuse. La critique la plus utile n’est pas de nier toute capacité, mais de demander des critères. Un résultat convaincant associe généralement une preuve reproductible, un protocole clair, et une validation par des pairs. Sans cela, le public retient un slogan, “l’IA a prouvé”, alors que les spécialistes attendent un texte démonstratif, des définitions, et une chaîne logique complète. Dans le cas présent, l’intérêt journalistique est réel, mais l’évaluation scientifique dépendra de la transparence sur la méthode, et sur ce qui relève du modèle ou du pilotage humain.

Enseignement des maths, usage encadré et risques d’erreurs plausibles

Les expériences autour du doublage du carré et les récits de résolution interactive convergent vers une conséquence concrète, l’outil devient pertinent dans l’enseignement si on l’utilise comme partenaire de dialogue, pas comme oracle. Les chercheurs décrivent un modèle “apprenant”, qui progresse avec des relances, qui peut corriger des erreurs, et qui peut aussi s’enfermer dans une fausse piste si la question est mal cadrée. Dans une salle de classe, cela ressemble à un élève rapide, mais pas fiable sans supervision. Le risque principal tient aux erreurs plausibles. Un modèle peut produire une démonstration qui “sonne” juste, avec un vocabulaire mathématique correct, tout en glissant une implication non justifiée. Pour un lycéen ou un étudiant, la tentation est forte de recopier. Pour un enseignant, le défi est de transformer l’outil en exercice de critique, demander de repérer l’étape fragile, de vérifier un cas particulier, de reconstruire la preuve sans l’IA. Ce type d’usage peut renforcer la rigueur, à condition d’être explicitement encadré. Dans la recherche, l’intérêt est comparable à ce que décrit Ernest Ryu, accélérer l’exploration. Une IA peut proposer des changements de variable, suggérer une analogie, ou reformuler un objectif. Mais la responsabilité demeure, surtout quand il s’agit d’un problème ouvert. Une preuve doit survivre à la lecture hostile, celle qui cherche la faille. Les laboratoires qui communiquent sur une “résolution” savent que la crédibilité se joue sur la vérifiabilité, pas sur l’impression de nouveauté. Pour le grand public, l’épisode révèle aussi une limite structurelle, ces modèles sont entraînés principalement sur du texte, et leur rapport aux figures reste indirect. Quand une solution géométrique exige une construction, le modèle peut préférer l’algèbre, ou déclarer à tort l’impossibilité. Ce comportement a été observé dans les tests sur le doublage du carré. La question n’est donc pas de savoir si l’IA “pense” comme un mathématicien, mais de comprendre dans quelles conditions elle aide, et dans quelles conditions elle induit en erreur, parfois avec une assurance déconcertante.

À retenir

  • Une équipe liée à Amazon attribue à une IA une résolution inédite d’un problème ouvert en géométrie.
  • Des tests sur le doublage du carré montrent que ChatGPT peut se tromper puis s’améliorer avec relances.
  • Des retours d’expérience évoquent un processus interactif, avec beaucoup d’impasses mais quelques idées décisives.
  • La valeur d’une “solution” dépend d’une preuve vérifiable et d’une validation indépendante, pas d’un récit viral.
  • En classe comme en recherche, l’IA peut accélérer l’exploration, mais elle exige un contrôle rigoureux.

Questions fréquentes

Qu’est-ce que le « doublage du carré » et pourquoi ce test compte ?
Le doublage du carré consiste à construire un carré dont l’aire est le double d’un carré donné. L’erreur classique est de doubler le côté, ce qui quadruple l’aire. Le test compte parce que la bonne solution passe par la diagonale et demande un raisonnement non intuitif, utile pour mesurer si un modèle peut dépasser une réponse superficielle.
Pourquoi une IA privilégie-t-elle parfois une méthode algébrique plutôt qu’une preuve géométrique ?
Les modèles de langage manipulent plus naturellement des symboles et des transformations textuelles. Une preuve algébrique se prête à une écriture séquentielle en équations, alors qu’une preuve géométrique dépend souvent de figures et de constructions. Cette préférence peut produire une solution valable, mais elle peut aussi contourner l’intuition géométrique attendue.
Peut-on dire qu’une IA a « résolu » un problème ouvert si elle a eu besoin d’échanges guidés ?
La réponse dépend du degré d’autonomie et de la nature de l’aide. Si les relances se limitent à clarifier l’énoncé, la contribution peut rester substantielle. Si l’humain fournit des étapes clés ou corrige la logique, il s’agit plutôt d’un travail collaboratif. Dans tous les cas, seule une preuve complète, publiée et vérifiée, permet de trancher.
Pourquoi les erreurs de ChatGPT en mathématiques sont-elles parfois difficiles à repérer ?
Parce que le modèle peut produire un raisonnement très fluide, avec un vocabulaire correct, tout en glissant une implication non justifiée ou une hypothèse cachée. Le texte paraît cohérent, mais une seule étape fragile suffit à invalider une démonstration. C’est la raison pour laquelle la vérification ligne par ligne reste indispensable.

Laisser un commentaire