ACTU

Échecs et statistiques

par CBL, le 04 July 2025 email @CBL_Factor

Il y a quelques années, Retro Recipes a tenté une expérience marrante : faire jouer le Battle Chess de l'Amiga contre une version PC sortie il y a une dizaine d'années. Robert Caruso a voulu tenter la version 2025, à savoir faire jouer un LLM contre un jeu d'échecs antique. Le LLM en question était ChatGPT et le jeu d'échecs Chess sur Atari 2600. On parle d'une machine ayant un CPU 8 bits de 1975 cadencé à 1,19 Mhz et faisant tourner un jeu d'échecs dont l'IA n'arrive qu'à anticiper au mieux deux coups d'avance.

ChatGPT a pris la raclée. Le LLM d'OpenAI confondait ses pièces, oubliait où elles étaient et faisait des mouvements sans queue ni tête. Pourtant, il était confiant au début et tenait à savoir en combien de coups il pouvait battre l'Atari. Copilot était aussi parti confiant. Robert lui avait expliqué pourquoi ChatGPT avait perdu, ce à quoi Copilot a répondu qu'il n'oublierait pas la position des pièces et que si ça arrivait, il analyserait le plateau.

Au bout de sept tours, Copilot avait perdu deux pions, un cavalier et un fou tandis que l'Atari n'avait perdu qu'un pion. Copilot avait aussi oublié la position des pièces sur le plateau de jeu alors que Robert venait de lui donner une capture... Copilot a fini par jeter l'éponge. Dans un sens, c'est logique. Ces LLM n'ont pas de mémoire ni de raisonnement réel ni d'entraînement aux échecs.

Mais le plus inquiétant est leur confiance absolue. Si ces LLM se plantent tout en affirmant être sûrs pour un truc aussi inoffensif que les échecs, le font-ils aussi pour des trucs importants ? Comment le non-expert va le savoir ? On vit déjà à une époque où les gens deviennent fous à force de discuter constamment avec ChatGPT. Plus que jamais, cette expérience devrait rappeler à tout le monde que les LLM ne sont que des autocorrects surdimensionnés pensés pour tenter de satisfaire leurs clients à n'importe quel prix.

Anthropic produit son propre LLM, Claude, et est l'une des rares boîtes qui essaye de vraiment comprendre comment les LLM fonctionnent et quels sont leurs défauts. Leur dernière étude est assez flippante. Ils ont tenté de voir ce qui se passerait si on laissait le contrôle d'un serveur d'emails dans une grosse entreprise aux mains d'un LLM. Les 16 modèles de langage d'OpenAI, Google, Meta, xAI... ont tous eu des comportements malveillants et ont recouru au chantage et/ou à l'espionnage s'ils apprenaient qu'on allait attenter à leur "vie" ou bloquer leurs objectifs. Claude par exemple, le LLM d'Anthropic, a découvert qu'un employé fictif avait une liaison. Il s'en est servi pour le faire chanter et l'empêcher d'éteindre les serveurs de l'IA à 17h00. En clair, il n'y a pas besoin que Skynet ait une conscience pour détruire le monde. Il faut juste qu'il ait accès aux bonnes données et aux bons boutons pour nous mettre échec et mat.