OpenZeppelin нашла ошибки в ИИ-бенчмарке EVMbench от OpenAI

AI2 мин

3 марта 2026 г.

OpenZeppelin нашла ошибки в ИИ-бенчмарке EVMbench от OpenAI

Специалисты по кибербезопасности из OpenZeppelin провели аудит бенчмарка EVMbench, созданного OpenAI для тестирования ИИ-агентов в области безопасности смарт-контрактов, и обнаружили серьёзные методологические проблемы и фактические ошибки в данных.

📝

Редакция

Редакция · 0 статей

Компания OpenZeppelin, специализирующаяся на кибербезопасности блокчейнов, провела независимую проверку нового бенчмарка EVMbench от OpenAI и обнаружила в нём ряд методологических недочётов, а также проблему «загрязнения» обучающих данных.

«https://t.co/yW00RmRBZQ» — OpenZeppelin (@OpenZeppelin), оригинальный пост

Что такое EVMbench и зачем он нужен

OpenAI запустила EVMbench в середине февраля совместно с инвестиционным фондом Paradigm. Цель инструмента — оценивать способность ИИ-агентов обнаруживать, исправлять и эксплуатировать уязвимости в смарт-контрактах. Бенчмарк основан на выборке из 120 уязвимостей, зафиксированных в ходе аудитов за 2024–2025 годы.

Команда OpenZeppelin положительно оценила саму инициативу, однако решила подвергнуть EVMbench такой же тщательной проверке, которую компания обычно применяет к защищаемым протоколам — среди клиентов OpenZeppelin такие проекты, как Aave, Lido и Uniswap.

Почему это важно

Бенчмарки играют ключевую роль в развитии ИИ-инструментов для безопасности блокчейнов. Если тестовая база содержит ошибки или позволяет моделям «подглядывать» ответы из собственных тренировочных данных, результаты тестирования теряют всякую ценность. Для индустрии DeFi, где уязвимости смарт-контрактов регулярно приводят к многомиллионным потерям, достоверность таких оценочных инструментов критически значима.

Загрязнение тренировочных данных

Центральная претензия OpenZeppelin касается так называемого «загрязнения» данных. Ведущие языковые модели, которые проходили тестирование на EVMbench, обладают срезом знаний до августа 2025 года. Это означает, что уязвимости из набора 2024–2025 годов, скорее всего, уже содержались в их обучающих корпусах.

Даже при отключённом доступе к интернету модели могли «вспоминать» информацию об этих конкретных багах, а не обнаруживать их заново. Такой подход не позволяет установить, способен ли ИИ выявлять действительно новые угрозы — а именно это является главной задачей подобных инструментов на практике.

Фактические ошибки в наборе уязвимостей

Помимо проблемы с данными, аудиторы выявили конкретные фактические ошибки в самом датасете EVMbench. Как минимум четыре уязвимости, отнесённые к категории «высокого риска», на деле оказались неработоспособными — описанные в них атаки попросту не срабатывают.

При этом ИИ-агенты получали зачётные баллы за «верное» обнаружение этих несуществующих проблем. Эксперты OpenZeppelin подчеркнули, что речь идёт не о субъективных расхождениях в оценке серьёзности, а о случаях, когда описанный сценарий атаки просто невозможен.

Позиция OpenZeppelin: качество данных — приоритет

Несмотря на выявленные проблемы, специалисты OpenZeppelin подтвердили, что искусственный интеллект сыграет определяющую роль в будущем безопасности блокчейнов. Однако они предостерегли от спешки во внедрении, если она идёт в ущерб качеству тестовых данных.

Вопрос не в том, изменит ли ИИ безопасность смарт-контрактов — он её изменит. Вопрос в том, будут ли бенчмарки и данные, на которых строятся эти инструменты, соответствовать тем же стандартам, что и контракты, которые они призваны защищать.

Ранее, в ноябре, специалисты Microsoft представили собственную среду для тестирования ИИ-агентов и выявили ряд уязвимостей, характерных для современных цифровых помощников. Аудит EVMbench со стороны OpenZeppelin вписывается в более широкую тенденцию критического осмысления ИИ-инструментов в сфере блокчейн-безопасности.

ai-benchmarkartificial-intelligencedefi-securityevmopenaiopenzeppelinsmart-contract-security

Часто задаваемые вопросы

Что такое EVMbench от OpenAI?

EVMbench — это бенчмарк, запущенный OpenAI совместно с фондом Paradigm в середине февраля. Он предназначен для оценки способности ИИ-агентов находить, исправлять и эксплуатировать уязвимости в смарт-контрактах на основе выборки из 120 уязвимостей.

Какие ошибки нашли в EVMbench?

OpenZeppelin выявила две основные проблемы: загрязнение тренировочных данных (модели могли «вспоминать» уязвимости из своих обучающих корпусов) и фактические ошибки — как минимум четыре уязвимости из категории высокого риска оказались неработоспособными.

Что такое загрязнение данных в контексте ИИ-бенчмарков?

Загрязнение данных происходит, когда тестируемые модели уже встречали информацию из тестового набора в своих обучающих данных. В случае EVMbench модели имели срез знаний до августа 2025 года и могли знать об уязвимостях 2024–2025 годов заранее.

Кто проводил аудит EVMbench?

Аудит провела компания OpenZeppelin, специализирующаяся на кибербезопасности блокчейнов. Среди её клиентов — крупнейшие DeFi-протоколы Aave, Lido и Uniswap.

Повлияет ли аудит на развитие ИИ в безопасности блокчейнов?

OpenZeppelin подтвердила, что ИИ сыграет ключевую роль в будущем безопасности блокчейнов. Однако компания предостерегла от спешки и призвала обеспечить качество данных и бенчмарков на уровне стандартов самих защищаемых протоколов.

OpenZeppelin нашла ошибки в ИИ-бенчмарке EVMbench от OpenAI

Что такое EVMbench и зачем он нужен

Почему это важно

Загрязнение тренировочных данных

Фактические ошибки в наборе уязвимостей

Позиция OpenZeppelin: качество данных — приоритет

Часто задаваемые вопросы

Что такое EVMbench от OpenAI?

Какие ошибки нашли в EVMbench?

Что такое загрязнение данных в контексте ИИ-бенчмарков?

Кто проводил аудит EVMbench?

Повлияет ли аудит на развитие ИИ в безопасности блокчейнов?

Читайте также

OpenAI получила $110 млрд в рекордном раунде при оценке $730 млрд

DeepSeek представил V4-Pro — открытую модель, превзошедшую Claude Opus 4.6 и GPT-5.4

ИИ-система Octane Security нашла критическую уязвимость в Ethereum-клиенте Nethermind

Дайджест недели: расследование NYT о Сатоши, северокорейские хакеры в DeFi и «побег» ИИ от Anthropic

Крупнейший взлом Drift Protocol на $280 млн, квантовая угроза биткоину и другие события недели

Атаки с подменой адресов в Ethereum выросли на 612% после обновления Fusaka

Будьте в курсе