Выход GPT-5.3-Codex — рабочие заметки по модели
GPT-5.3-Codex — новая версия Codex, в которой объединены:
- кодинговые возможности GPT-5.2-Codex
- рассуждение и профессиональные знания GPT-5.2
Модель работает примерно на 25% быстрее и рассчитана на длинные задачи: исследование, работу с инструментами, последовательное выполнение шагов.
Используется в Codex app, CLI, IDE и вебе. API — в процессе.
Что в этой версии принципиально нового
Одна модель вместо двух режимов
Раньше было заметно разделение:
- модель для кода
- модель для рассуждений
В GPT-5.3-Codex это объединено.
Код, анализ, проверка гипотез и дальнейшие правки идут в одном контексте, без ощущения «переключения».
На практике это выражается не в том, что ответы стали «умнее», а в том, что они стали последовательнее.
Самостоятельная разработка модели
Это первая версия Codex, которая активно использовалась для собственной разработки:
- отладка обучения
- анализ тестов и оценок
- управление деплоем
- диагностика проблем в проде
По поведению это заметно: модель аккуратнее работает с инфраструктурными задачами и лучше ориентируется в сложных, не изолированных сценариях.
Уровень изменений: агентная архитектура
Суть: Codex перестал быть инструментом для отдельных шагов и стал агентом, который может вести задачу целиком
Бенчмарки
GPT-5.3-Codex показывает лучшие результаты по нескольким ключевым тестам:
- SWE-Bench Pro
Реальные инженерные задачи, несколько языков, меньше загрязнений.
Результат выше, чем у GPT-5.2 и GPT-5.2-Codex. - Terminal-Bench 2.0
Проверяет умение работать в терминале.
GPT-5.3-Codex — 77.3% точности против ~64% у предыдущей версии. - OSWorld-Verified
Работа в визуальной desktop-среде.
64.7% — заметный рост по сравнению с предыдущими моделями. - GDPval
Профессиональные задачи (документы, таблицы, презентации).
Уровень сопоставим с GPT-5.2, но в рамках более универсального агента.
Отдельно важно: модель достигает этих результатов с меньшим количеством токенов, то есть работает экономнее.
Веб и долгие задачи
Модель тестировали на длинных автономных сценариях — например, разработке игр, где агент:
- итеративно улучшает результат
- фиксит баги
- дополняет механику
- делает это на протяжении миллионов токенов
В более приземлённых задачах (лендинги, сайты) заметно:
- адекватные дефолты
- меньше «пустых» решений
- более собранная структура без подробного ТЗ
Beyond coding
GPT-5.3-Codex рассчитан не только на код:
- PRD
- презентации
- таблицы
- анализ данных
- пользовательские исследования
- метрики
По GDPval видно, что модель уверенно справляется с такими задачами.
Важно, что это не отдельный режим — всё происходит в том же агентном контексте.
Интерактивная работа
Codex теперь чаще сообщает о ходе работы:
- что делает
- какие решения принимает
- где находится сейчас
Можно вмешиваться по ходу задачи, не сбрасывая контекст.
Это снижает необходимость либо ждать финал, либо постоянно перезапускать диалог.
Личное ощущение
Самое заметное — стало меньше необходимости управлять агентом вручную.
Раньше:
- задачу приходилось дробить
- цель часто напоминать
- постоянно проверять, не «уехал» ли контекст
Сейчас:
- задачу можно формулировать шире
- агент сам удерживает направление
- контроль остаётся, но в меру
Работа становится менее напряжённой, особенно на длинных задачах