Nl

TECH

Anthropic, Pokémon et Mario Bros

Jeudi 6 Mars 2025

Anthropic, Pokémon et Mario Bros

Il existe de nombreuses plateformes (Artificial Analysis, Chatbot Arena, LLM Stats, etc.), qui évaluent les performances des modèles de langages, les LLM développés par les acteurs de l’intelligence artificielle. Ces classements évoluent en permanence et ne sont d’ailleurs pas toujours alignés.

Aujourd’hui, ce sont les jeux vidéo qui sont mis à contribution pour en mesurer l’efficacité. A l’occasion du lancement de Claude 3.7 Sonnet, Anthropic a lancé Claude Plays Pokémon sur Twitch, un livestream de son modèle jouant une partie de Pokémon Red. Une manière de tester ses capacités de raisonnement et de démontrer les performances de cette version par rapport à la précédente.

Parallèlement, des chercheurs californiens du Hao AI Lab ont testé plusieurs modèles sur le jeu Super Mario Bros : face à Gemini 1.5-Pro et au GPT-4o d’OpenAI, c’est le Claude 3.7 Sonnet qui s’en sort le mieux.
Cette approche intéressante ne doit pas nous faire oublier qu’en 1997 déjà, Deep Blue (IBM) battait le champion d’échec Garry Kasparov et qu'AlphaGo de DeepMind (Google) s’était imposé en 2016 face à Lee Sedol, le grand champion du jeu de Go. Ceci alors que aucun des modèles utilisés pour jouer à Super Mario Bros n’ont atteint le premier niveau du jeu.

Cela n’a pas empêché Anthropic de lever $3,5 milliards et d’atteindre une valorisation de plus de $60 milliards, juste derrière xAI ($75 milliards) mais encore loin des $300 milliards d’OpenAI.

Archive / TECH