Дослідник OpenAI Бенджамін Арнав закликає спільноту штучного інтелекту переглянути методи оцінки моделей через їхню відсутність прозорості. Згідно з його заявами, нинішня система тестів є ненадійною, оскільки показники прогресу часто створюються за різними умовами і вводять у оману розробників та користувачів. Непослідовні методології ускладнюють порівняння рішень між різними компаніями, що впливає на безпеку та розгортання технологій.

Арнав наводить приклад бенчмарку SWE-bench Verified, де різні версії моделей тестувалися з різною кількістю завдань та інструментів. Компанії, такі як Anthropic та OpenAI, змінювали параметри випробувань майже з кожним релізом, що робить результати несумісними. Наприклад, Google спочатку обмежував інформацію про Gemini 2.5, тоді як інші гравці не завжди розкривали деталі оцінювання.

Вчений порівнює ситуацію з іншими галузями, де функцію вимірювання передали незалежним аудиторам. Він пропонує запровадити аналогічну практику для ШІ, коли компанії надавали б свої системи для стандартизованого тестування стороннім організаціям. Це дозволить публікувати результати одночасно з релізами та підвищити довіру до технологій.

Як альтернативу повній незалежності Арнав розглядає узгодження спільних стандартів для відкритих бенчмарків. Це дозволить хоча б частково зменшити розрив між заявленими результатами різних моделей. Дослідник підкреслює, що без стандартизованих оцінок неможливо забезпечити належний рівень безпеки та обґрунтованих рішень щодо впровадження ШІ в суспільство.