Fr

TECH

Anthropic, Pokémon en Mario Bros

Donderdag 6 Maart 2025

Anthropic, Pokémon en Mario Bros

Er zijn veel platformen (Artificial AnalysisChatbot ArenaLLM Stats, enz.) voor de evaluatie van de LLM's ontwikkeld door AI-spelers. De rankings die ze opleveren, evolueren voortdurend en zijn niet altijd op elkaar afgestemd.

Tegenwoordig worden videogames gebruikt om hun effectiviteit te meten. Om de lancering van Claude 3.7 Sonnet te vieren, lanceerde Anthropic Claude Plays Pokémon op Twitch, een livestream van zijn model dat een spelletje Pokémon Red speelt. Dat bleek een prima manier om zijn redeneervermogen te testen en de prestaties van deze versie in vergelijking met de voorgaande te demonstreren.

Tegelijkertijd testten Californische onderzoekers van het Hao AI Lab verschillende modellen in Super Mario Bros: in vergelijking tot Gemini 1.5-Pro en GPT-4o presteerde Claude 3.7 Sonnet het beste.

Deze interessante benadering mag ons niet doen vergeten dat Deep Blue (IBM) al in 1997 schaakkampioen Garry Kasparov versloeg en AlphaGo (Google DeepMind) in 2016 Go-kampioen Lee Sedol versloeg, terwijl geen van de modellen die werden gebruikt om Super Mario Bros te spelen erin slaagden het eerste spelniveau te bereiken.

Het weerhield Anthropic er niet van om $3,5 miljard op te halen en een waardering van meer dan $ 60 miljard te halen, net na xAI ($75 miljard) maar nog steeds ver verwijderd van de $300 miljard van OpenAI.

Archief / TECH