Перейти к содержимому
OpenZeppelin нашла ошибки в ИИ-бенчмарке EVMbench от OpenAI
AI2 мин
16

OpenZeppelin нашла ошибки в ИИ-бенчмарке EVMbench от OpenAI

Специалисты по кибербезопасности из OpenZeppelin провели аудит бенчмарка EVMbench, созданного OpenAI для тестирования ИИ-агентов в области безопасности смарт-контрактов, и обнаружили серьёзные методологические проблемы и фактические ошибки в данных.

📝
Редакция
0
Редакция · 0 статей

Компания OpenZeppelin, специализирующаяся на кибербезопасности блокчейнов, провела независимую проверку нового бенчмарка EVMbench от OpenAI и обнаружила в нём ряд методологических недочётов, а также проблему «загрязнения» обучающих данных.

«https://t.co/yW00RmRBZQ» — OpenZeppelin (@OpenZeppelin), оригинальный пост

Что такое EVMbench и зачем он нужен

OpenAI запустила EVMbench в середине февраля совместно с инвестиционным фондом Paradigm. Цель инструмента — оценивать способность ИИ-агентов обнаруживать, исправлять и эксплуатировать уязвимости в смарт-контрактах. Бенчмарк основан на выборке из 120 уязвимостей, зафиксированных в ходе аудитов за 2024–2025 годы.

Команда OpenZeppelin положительно оценила саму инициативу, однако решила подвергнуть EVMbench такой же тщательной проверке, которую компания обычно применяет к защищаемым протоколам — среди клиентов OpenZeppelin такие проекты, как Aave, Lido и Uniswap.

Почему это важно

Бенчмарки играют ключевую роль в развитии ИИ-инструментов для безопасности блокчейнов. Если тестовая база содержит ошибки или позволяет моделям «подглядывать» ответы из собственных тренировочных данных, результаты тестирования теряют всякую ценность. Для индустрии DeFi, где уязвимости смарт-контрактов регулярно приводят к многомиллионным потерям, достоверность таких оценочных инструментов критически значима.

Загрязнение тренировочных данных

Центральная претензия OpenZeppelin касается так называемого «загрязнения» данных. Ведущие языковые модели, которые проходили тестирование на EVMbench, обладают срезом знаний до августа 2025 года. Это означает, что уязвимости из набора 2024–2025 годов, скорее всего, уже содержались в их обучающих корпусах.

Даже при отключённом доступе к интернету модели могли «вспоминать» информацию об этих конкретных багах, а не обнаруживать их заново. Такой подход не позволяет установить, способен ли ИИ выявлять действительно новые угрозы — а именно это является главной задачей подобных инструментов на практике.

Фактические ошибки в наборе уязвимостей

Помимо проблемы с данными, аудиторы выявили конкретные фактические ошибки в самом датасете EVMbench. Как минимум четыре уязвимости, отнесённые к категории «высокого риска», на деле оказались неработоспособными — описанные в них атаки попросту не срабатывают.

При этом ИИ-агенты получали зачётные баллы за «верное» обнаружение этих несуществующих проблем. Эксперты OpenZeppelin подчеркнули, что речь идёт не о субъективных расхождениях в оценке серьёзности, а о случаях, когда описанный сценарий атаки просто невозможен.

Позиция OpenZeppelin: качество данных — приоритет

Несмотря на выявленные проблемы, специалисты OpenZeppelin подтвердили, что искусственный интеллект сыграет определяющую роль в будущем безопасности блокчейнов. Однако они предостерегли от спешки во внедрении, если она идёт в ущерб качеству тестовых данных.

Вопрос не в том, изменит ли ИИ безопасность смарт-контрактов — он её изменит. Вопрос в том, будут ли бенчмарки и данные, на которых строятся эти инструменты, соответствовать тем же стандартам, что и контракты, которые они призваны защищать.

Ранее, в ноябре, специалисты Microsoft представили собственную среду для тестирования ИИ-агентов и выявили ряд уязвимостей, характерных для современных цифровых помощников. Аудит EVMbench со стороны OpenZeppelin вписывается в более широкую тенденцию критического осмысления ИИ-инструментов в сфере блокчейн-безопасности.

ai-benchmarkartificial-intelligencedefi-securityevmopenaiopenzeppelinsmart-contract-security

Часто задаваемые вопросы

Что такое EVMbench от OpenAI?

EVMbench — это бенчмарк, запущенный OpenAI совместно с фондом Paradigm в середине февраля. Он предназначен для оценки способности ИИ-агентов находить, исправлять и эксплуатировать уязвимости в смарт-контрактах на основе выборки из 120 уязвимостей.

Какие ошибки нашли в EVMbench?

OpenZeppelin выявила две основные проблемы: загрязнение тренировочных данных (модели могли «вспоминать» уязвимости из своих обучающих корпусов) и фактические ошибки — как минимум четыре уязвимости из категории высокого риска оказались неработоспособными.

Что такое загрязнение данных в контексте ИИ-бенчмарков?

Загрязнение данных происходит, когда тестируемые модели уже встречали информацию из тестового набора в своих обучающих данных. В случае EVMbench модели имели срез знаний до августа 2025 года и могли знать об уязвимостях 2024–2025 годов заранее.

Кто проводил аудит EVMbench?

Аудит провела компания OpenZeppelin, специализирующаяся на кибербезопасности блокчейнов. Среди её клиентов — крупнейшие DeFi-протоколы Aave, Lido и Uniswap.

Повлияет ли аудит на развитие ИИ в безопасности блокчейнов?

OpenZeppelin подтвердила, что ИИ сыграет ключевую роль в будущем безопасности блокчейнов. Однако компания предостерегла от спешки и призвала обеспечить качество данных и бенчмарков на уровне стандартов самих защищаемых протоколов.

Читайте также

AI

OpenAI получила $110 млрд в рекордном раунде при оценке $730 млрд

OpenAI закрыла крупнейший в истории стартапов раунд финансирования на $110 млрд. Основными участниками стали SoftBank, Nvidia и Amazon.

4 мин·🔥 1
AI

DeepSeek представил V4-Pro — открытую модель, превзошедшую Claude Opus 4.6 и GPT-5.4

Китайский стартап DeepSeek выпустил превью линейки V4 с флагманской моделью на 1,6 трлн параметров, которая обошла ведущие закрытые системы в ряде бенчмарков.

3 мин·🔥 0
AI

ИИ-система Octane Security нашла критическую уязвимость в Ethereum-клиенте Nethermind

ИИ-система Octane Security обнаружила критическую уязвимость в Ethereum-клиенте Nethermind, способную остановить блокпроизводство у 38% валидаторов. Ethereum Foundation выплатил максимальную награду — $50 000.

3 мин·🔥 1
Аналитика

Дайджест недели: расследование NYT о Сатоши, северокорейские хакеры в DeFi и «побег» ИИ от Anthropic

Биткоин укрепился выше $71 000, журналист NYT назвал Адама Бэка создателем BTC, ZachXBT раскрыл сеть IT-агентов из КНДР в криптопроектах, а Anthropic заблокировала собственную ИИ-модель после обнаружения тысяч уязвимостей нулевого дня.

5 мин·🔥 0
Рынок

Крупнейший взлом Drift Protocol на $280 млн, квантовая угроза биткоину и другие события недели

Биткоин завершил неделю на уровне $67 000, северокорейские хакеры атаковали Drift Protocol на $280 млн, Anthropic допустила утечку кода Claude Code, а исследователи Google снизили оценку квантовой угрозы для криптовалют.

5 мин·🔥 0
Безопасность

Атаки с подменой адресов в Ethereum выросли на 612% после обновления Fusaka

Снижение комиссий в сети Ethereum после хардфорка Fusaka привело к взрывному росту «пылевых» транзакций — мошенники массово засоряют историю кошельков поддельными адресами.

3 мин·🔥 0