Pokémon: Wird ein Spieleklassiker zum neuen Benchmark-Test für KI-Modelle?

Bildquelle:
Googles Gemini schlägt Claude von Anthropic im ikonischen Spiel Pokémon – zumindest auf den ersten Blick. Ein unfairer Vorteil heizt die Diskussionen um die Aussagekraft von KI-Benchmarks weiter an.