OpenAI GeneBench-Pro: Top-KI-Modelle scheitern bei 70% echter Biologie-Aufgaben

OpenAI veröffentlichte eine Zahl, die schmerzt. Am 1. Juli stellte es GeneBench-Pro vor, einen Benchmark für Computational-Biology-Agenten — und das beste Modell darauf, GPT-5.6 Sol mit maximaler Reasoning-Kapazität, besteht nur zu 28,7% (31,5% im Pro-Modus). Das stärkste Nicht-OpenAI-Modell, Claude Opus 4.8, erreicht 16%. Alle anderen schneiden schlechter ab.

Was es wirklich testet

Nicht Faktenwissen. 129 Probleme aus Genomik, quantitativer Biologie und Translationaler Medizin. Jedes gibt dem Modell einen echten Datensatz plus experimentellen Kontext und sagt: Wähle deine eigene Methode, führe die Analyse durch, gib eine Schlussfolgerung. Jedes Problem wird synthetisch generiert, sodass es eine bekannte Ground-Truth zum Bewerten gibt, und 82 wurden von externen Professoren, Postdocs und Industriewissenschaftlern überprüft. Das ist keine Erinnerung — es ist Forschungsurteilsvermögen.

Warum es wichtig ist

Frontier-Modelle schreiben Code und bestehen medizinische Prüfungen, scheitern aber bei 70% der unübersichtlichen Biologie-Arbeit. Diese Lücke ist der ganze Sinn. Es ist auch ein Schuss gegen Anthropics KI-für-Wissenschaft-Pitch. Repräsentative Probleme sind Open-Source, sodass jeder sehen kann, wie hoch die Messlatte wirklich ist.