Новости Опубликовано: 06.02.2026 Обновлено: 06.02.2026 Просмотры: ...

Выход GPT-5.3-Codex — рабочие заметки по модели

GPT-5.3-Codex — новая версия Codex, в которой объединены:

кодинговые возможности GPT-5.2-Codex
рассуждение и профессиональные знания GPT-5.2

Модель работает примерно на 25% быстрее и рассчитана на длинные задачи: исследование, работу с инструментами, последовательное выполнение шагов.

Используется в Codex app, CLI, IDE и вебе. API — в процессе.

Что в этой версии принципиально нового

Одна модель вместо двух режимов

Раньше было заметно разделение:

модель для кода
модель для рассуждений

В GPT-5.3-Codex это объединено.
Код, анализ, проверка гипотез и дальнейшие правки идут в одном контексте, без ощущения «переключения».

На практике это выражается не в том, что ответы стали «умнее», а в том, что они стали последовательнее.

Самостоятельная разработка модели

Это первая версия Codex, которая активно использовалась для собственной разработки:

отладка обучения
анализ тестов и оценок
управление деплоем
диагностика проблем в проде

По поведению это заметно: модель аккуратнее работает с инфраструктурными задачами и лучше ориентируется в сложных, не изолированных сценариях.

Уровень изменений: агентная архитектура
Суть: Codex перестал быть инструментом для отдельных шагов и стал агентом, который может вести задачу целиком

Бенчмарки

GPT-5.3-Codex показывает лучшие результаты по нескольким ключевым тестам:

SWE-Bench Pro
Реальные инженерные задачи, несколько языков, меньше загрязнений.
Результат выше, чем у GPT-5.2 и GPT-5.2-Codex.
Terminal-Bench 2.0
Проверяет умение работать в терминале.
GPT-5.3-Codex — 77.3% точности против ~64% у предыдущей версии.
OSWorld-Verified
Работа в визуальной desktop-среде.
64.7% — заметный рост по сравнению с предыдущими моделями.
GDPval
Профессиональные задачи (документы, таблицы, презентации).
Уровень сопоставим с GPT-5.2, но в рамках более универсального агента.

Отдельно важно: модель достигает этих результатов с меньшим количеством токенов, то есть работает экономнее.

Веб и долгие задачи

Модель тестировали на длинных автономных сценариях — например, разработке игр, где агент:

итеративно улучшает результат
фиксит баги
дополняет механику
делает это на протяжении миллионов токенов

В более приземлённых задачах (лендинги, сайты) заметно:

адекватные дефолты
меньше «пустых» решений
более собранная структура без подробного ТЗ

Beyond coding

GPT-5.3-Codex рассчитан не только на код:

PRD
презентации
таблицы
анализ данных
пользовательские исследования
метрики

По GDPval видно, что модель уверенно справляется с такими задачами.
Важно, что это не отдельный режим — всё происходит в том же агентном контексте.

Интерактивная работа

Codex теперь чаще сообщает о ходе работы:

что делает
какие решения принимает
где находится сейчас

Можно вмешиваться по ходу задачи, не сбрасывая контекст.
Это снижает необходимость либо ждать финал, либо постоянно перезапускать диалог.

Личное ощущение

Самое заметное — стало меньше необходимости управлять агентом вручную.

Раньше:

задачу приходилось дробить
цель часто напоминать
постоянно проверять, не «уехал» ли контекст

Сейчас:

задачу можно формулировать шире
агент сам удерживает направление
контроль остаётся, но в меру

Работа становится менее напряжённой, особенно на длинных задачах