Перейти к содержимому
OpenAI запустила GPT-5.4: компьютерное зрение, управление ПК и рекордные бенчмарки
AI3 мин
49

OpenAI запустила GPT-5.4: компьютерное зрение, управление ПК и рекордные бенчмарки

OpenAI выпустила модели GPT-5.4 и GPT-5.4 Pro со встроенным компьютерным зрением и возможностью управления рабочим столом. Новая версия превзошла человека в бенчмарке OSWorld-Verified.

📝
Редакция
0
Редакция · 0 статей

OpenAI через два дня после выхода GPT-5.3 Instant представила следующее поколение — GPT-5.4 и GPT-5.4 Pro. Ключевое нововведение — встроенная система компьютерного зрения с возможностью управления рабочим столом, мышью и клавиатурой.

«GPT-5.4 Thinking and GPT-5.4 Pro are rolling out now in ChatGPT. GPT-5.4 is also now available in the API and Codex. GPT-5.4 brings our advances in reasoning, coding, and agentic workflows into one frontier model.» — OpenAI (@OpenAI), оригинальный пост

Доступность и стоимость

Стандартная GPT-5.4 уже работает в веб-версии ChatGPT, через API и в Codex. GPT-5.4 Thinking открыта подписчикам Plus, Team и Pro. Максимальная версия GPT-5.4 Pro ориентирована на пользователей тарифа Pro и корпоративных клиентов Enterprise — она также доступна через API.

Тарификация базовой модели: $2,5 за 1 млн входных токенов и $15 за 1 млн выходных. Pro-версия обойдётся значительно дороже — $30 и $180 за 1 млн токенов соответственно.

Почему это важно

GPT-5.4 — первая модель OpenAI со встроенным компьютерным зрением и полноценным управлением ПК. Она способна оперировать мышью и клавиатурой на основе скриншотов, а также автоматизировать действия через Playwright. Уровень допустимого риска настраивается под конкретные сценарии.

В бенчмарке OSWorld-Verified, оценивающем управление рабочим столом, GPT-5.4 выполнила 75% заданий — это выше результата предшественницы (47,3%) и даже человека (72,4%). Улучшенное визуальное восприятие подтверждается и другими тестами: в MMMU-Pro (понимание и логика) — 81,2% против 79,5% у GPT-5.2, а в OmniDocBench (анализ документов) средний показатель ошибок снизился с 0,140 до 0,109.

Прорыв в рабочих задачах

По бенчмарку GDPval, который оценивает выполнение задач по 44 профессиям, GPT-5.4 достигла 83%. Предыдущая GPT-5.2 показывала 70,9%. Фактически модель работает на уровне профильных специалистов или превосходит их.

Результаты бенчмарков GPT-5.4
Сравнение производительности GPT-5.4 с предыдущими версиями. Источник: OpenAI

Разработчики сделали акцент на работе с таблицами, презентациями и документами. В задачах уровня младшего аналитика инвестбанка GPT-5.4 набрала 87,3% против 68,4% у GPT-5.2. Презентации новой модели предпочитались оценщиками в 68% случаев благодаря лучшей эстетике, разнообразию и эффективному использованию генерации изображений.

Результаты GPT-5.4 в рабочих задачах
GPT-5.4 в задачах для младших аналитиков инвестбанков. Источник: OpenAI

GPT-5.4 стала самой точной моделью OpenAI по работе с фактами. При тестировании на промптах с заранее заложенными ошибками отдельные ложные утверждения встречались на 33% реже, а полные ответы содержали ошибки на 18% реже по сравнению с GPT-5.2.

Кодинг и инструменты

В программировании GPT-5.4 сравнялась со специализированной GPT-5.3-Codex, при этом работает быстрее. В Codex добавлен режим /fast, ускоряющий генерацию кода в полтора раза без ухудшения качества. Внутренние тесты показали высокие результаты в сложных задачах фронтенд-разработки.

Экспериментальный навык Playwright (Interactive) позволяет модели визуально отлаживать веб- и Electron-приложения, тестируя собственный код прямо в процессе написания.

Ещё одно нововведение — функция Tool Search. Ранее система загружала описания всех доступных плагинов в контекст, добавляя тысячи лишних токенов к каждому запросу. Теперь модель получает базовый список и самостоятельно подгружает нужные параметры по мере необходимости. В тестах на базе MCP Atlas потребление токенов снизилось на 47% без потери точности.

Веб-поиск также усилен: в бенчмарке BrowseComp показатели выросли на 17%, а Pro-версия достигла рекордных 89,3%.

Управляемость и контекст

GPT-5.4 Thinking в ChatGPT перед выполнением сложных запросов показывает план действий. Пользователь может скорректировать направление на ходу, без перезапуска генерации. Функция уже работает на сайте и в Android-приложении, поддержка iOS ожидается в ближайшее время.

Модель лучше удерживает контекст в продолжительных диалогах и дольше обдумывает сложные задачи, сохраняя связность и релевантность ответов при работе с большими объёмами информации.

ai-modelsartificial-intelligencechatgptcomputer-visiongpt-5machine-learningopenai

Часто задаваемые вопросы

Что нового в GPT-5.4 от OpenAI?

GPT-5.4 — первая модель OpenAI со встроенным компьютерным зрением и управлением рабочим столом. Она способна оперировать мышью и клавиатурой на основе скриншотов, а в бенчмарке OSWorld-Verified превзошла человека, выполнив 75% заданий против 72,4%.

Сколько стоит GPT-5.4 через API?

Базовая GPT-5.4 стоит $2,5 за 1 млн входных токенов и $15 за 1 млн выходных. Версия Pro обойдётся в $30 и $180 за 1 млн токенов соответственно.

Чем GPT-5.4 отличается от GPT-5.2?

GPT-5.4 значительно превосходит GPT-5.2 по всем метрикам: 83% против 70,9% в GDPval, 87,3% против 68,4% в задачах уровня аналитика инвестбанка. Ложные утверждения встречаются на 33% реже.

Кому доступна GPT-5.4 Pro?

GPT-5.4 Pro предназначена для пользователей тарифа Pro и корпоративных клиентов Enterprise. Модель также доступна через API.

Что такое Tool Search в GPT-5.4?

Tool Search — функция, позволяющая модели динамически находить и подгружать нужные плагины вместо предварительной загрузки всех описаний в контекст. В тестах на базе MCP Atlas это снизило потребление токенов на 47% без потери точности.

Читайте также

AI

OpenAI получила $110 млрд в рекордном раунде при оценке $730 млрд

OpenAI закрыла крупнейший в истории стартапов раунд финансирования на $110 млрд. Основными участниками стали SoftBank, Nvidia и Amazon.

4 мин·🔥 1
AI

DeepSeek представил V4-Pro — открытую модель, превзошедшую Claude Opus 4.6 и GPT-5.4

Китайский стартап DeepSeek выпустил превью линейки V4 с флагманской моделью на 1,6 трлн параметров, которая обошла ведущие закрытые системы в ряде бенчмарков.

3 мин·🔥 0
AI

ИИ-система Octane Security нашла критическую уязвимость в Ethereum-клиенте Nethermind

ИИ-система Octane Security обнаружила критическую уязвимость в Ethereum-клиенте Nethermind, способную остановить блокпроизводство у 38% валидаторов. Ethereum Foundation выплатил максимальную награду — $50 000.

3 мин·🔥 1
Аналитика

Недельный обзор: спасение экосистемы Aave на 100 000 ETH и квантовый взлом ключа ECC

Биткоин удержался у $78 000, DeFi-сообщество мобилизовало свыше 100 000 ETH для восстановления экосистемы после взлома Kelp, а исследователь впервые извлёк 15-битный ключ ECC на квантовом компьютере.

5 мин·🔥 0
AI

Недельный обзор: биткоин штурмовал $74 000, майнеры распродают запасы, а пользователи бойкотируют ChatGPT

Биткоин кратковременно достиг $74 000, трейдеры массово торгуют нефтью и золотом на Hyperliquid, публичные майнеры за пять месяцев продали более 15 000 BTC, а движение против ChatGPT набирает обороты.

5 мин·🔥 1
Аналитика

Итоги недели: биткоин тестирует $78 000, Россия вводит уголовную ответственность за нелегальный криптообмен

Биткоин достиг $78 000 на фоне геополитических новостей, криптопроекты потеряли сотни миллионов из-за хакерских атак, а в России одобрили законопроект об уголовной ответственности за незаконные операции с цифровыми активами.

4 мин·🔥 0