Francia

L’intelligenza artificiale avanzata soffre di “crollo completo di precisione” di fronte a problemi complessi, lo studio si trova

13/06/2025

View 6 Comments

6 commenti

xkvm_ on 13/06/2025 10:53

AI is super dumb it can’t even play a simple game like wordle
Imagutsa on 13/06/2025 10:59

Solution plus complexe, problème moins connu, l’inférence statistique et la compression de données deviennent très vite innéficace. Le simple fait que ce ne soit pas une évidence fait un peu peur…
Jesuispardon on 13/06/2025 11:02

Je ne suis pas d’accord avec l’attitude pessimiste de l’article, discréditant l’effet transformateur de l’IA en société dû aux limitations des LLM, qui ne sont qu’un sous genre d’IA.

L’IA n’a pas besoin d’exceller dans la résolution de problèmes complexes. Le fait que l’IA affiche des performances équivalentes, voire supérieures à la plupart des humains dans une variété de tâches simples suffit déjà à donner une sérieuse crédibilité à cette technologie, et provoquera de grands remous dans le marché du travail, qui culmineront à des changements sociétaux.
tyrmael91 on 13/06/2025 11:25

J’étais tombé sur une vidéo où cette étude d’Apple était un peu décortiquée et en l’occurrence, le titre est exagéré et l’étude en elle-même discutable sur pas mal de points.

Probablement aussi influencé par le fait que actuellement, Apple est en retard niveau IA face à ses concurrents. Ça leur est donc profitable de discréditer un outil avec lequel ils rament un peu. Un discours de leur part qui changera probablement s’ils arrivent à revenir sur le devant de la scène, pour mettre leur propre produit en avant.
sandyWB on 13/06/2025 11:39

Quand on voit que toutes ces entreprises d’AI essaient de rendre leur bot plus intelligent en… l’entraînant sur des messages de réseaux sociaux (Instagram, Reddit, Twitter…), on voit bien que c’est voué à l’échec.

Mais venant de “tech bros” qui ont quitté l’école pour créer leur entreprise et en viennent à mépriser l’éducation et les institutions liées au savoir, ça n’a rien d’étonnant.

Qui pourrait imaginer un parent dire “J’ai envie que mon fils devienne docteur, donc je vais lui faire lire le plus de posts Doctissimo possible et il deviendra super intelligent et plus doué que les docteurs”. C’est une démarche complètement idiote et vouée à l’échec.
viag on 13/06/2025 11:42

Je n’ai pas lu l’article du guardian mais j’ai lu le papier en question. (pour info je travaille sur les modèles “de raisonnement” dans le cadre de ma thèse)

Pour comprendre l’article, je pense qu’il faut d’abord bien comprendre ce qu’on appelle “modèles de raisonnement”. La particularité de ces modèles c’est qu’au lieu de répondre directement à la question posée, ils vont écrire explicitement leur “raisonnement” (je sais que le terme énerve certaines personnes, si c’est votre cas désolé :D) à travers plusieurs (longs) paragraphes.

Par exemple, si vous demandez au modèle de vous écrire du code, au lieu de directement vous répondre en vous proposant du code, il va redéfinir la question, explorer les différentes possibilités plausibles, former un plan, potentiellement revenir sur ses pas etc. Sans trop rentrer dans les détails, on entraîne en général ces modèles sur des datasets de maths, où on peut venir vérifier de manière automatique la réponse finale du modèle et donc renforcer les raisonnements qui mènent à la bonne réponse et au contraire pénaliser ceux qui mènent à la mauvaise. On les entraîne aussi souvent sur du code, où on peut vérifier de manière automatique (avec des tests unitaires par exemple) si le code généré suit bien le comportement attendu. Les longues chaînes de “raisonnement” arrivent naturellement en entraînant le modèle de cette façon, ce n’est pas un comportement que l’on vient induire “à la main” et c’est honnêtement assez cool ! On a observé des gros gains de performances de ces modèles sur les datasets de maths, physique & code (ce qui est logique vu qu’ils ont été entraînés dessus)

Le papier en question présente différents puzzles aux modèles de raisonnement. Par exemple le problème des tours de Hanoï ou bien le problème de la traversée (celui avec le loup, la chèvre et le chou). Il montre qu’en augmentant la complexité du problème (par exemple, en ajoutant plus de disques à la tour de Hanoï, ou plus d’animaux au problème de la traversée, la précision des modèles s’effondrent complètement. Ok !

C’est intéressant, mais honnêtement il n’y a rien de nouveau là-dedans pour les gens qui s’intéressent un peu au sujet (or, les auteurs trouvent ça très “surprenant” ??) . A noter, un de leurs problèmes (celui de la traversée) n’a pas de solutions à partir d’un certain nombre de prédateurs ajoutés, donc c’est pas étonnant que le modèle se plante sur ce puzzle à partir d’une certaine complexité. Pour finir, ils précisent dans leur papier qu’ils observent des différences significatives entre les modèles de raisonnement et les modèles classiques sur un dataset de maths (AIME 2025) et expliquent cette différence par le fait que ce dataset pourrait faire appel à des procédés de raisonnement plus sophistiqués, où les modèles de raisonnement ont l’avantage (mais du coup ça vient quand même légèrement contredire leur argumentation??).

Bref, le papier est honnêtement pas incroyable et n’est pas vérifié par les pairs. Je sais que ça donne du grain à moudre pour tous les haters des LLMs, mais il n’apporte rien de nouveau et (à mon avis) il a été beaucoup poussé à cause de son titre & le fait qu’il vienne d’Apple.

D’ailleurs sur une autre note je reviens sur le titre : “The Illusion of Thinking”. Pas sûr que montrer qu’un modèle ne sache pas résoudre le problème de Hanoï avec 10 disques implique forcément que le modèle ne raisonne pas, ou alors il faudrait aussi admettre que la majorité humains eux non plus ne raisonnent pas 😀 (Pour être clair, je dis pas que les modèles “raisonnent”, mais que l’argument qu’ils avancent pour affirmer le contraire est honnêtement bancal)

Désolé pour le gros pavé pas clair, faut que je file et j’ai pas le temps de le relire !!