Выход GPT-5.3-Codex — рабочие заметки по модели

Выход GPT-5.3-Codex — рабочие заметки по модели
новости
Новости
1770336000000
1770336000000
GPT Codex5.3
GPT,Codex5.3

GPT-5.3-Codex — новая версия Codex, в которой объединены:

  • кодинговые возможности GPT-5.2-Codex
  • рассуждение и профессиональные знания GPT-5.2

Модель работает примерно на 25% быстрее и рассчитана на длинные задачи: исследование, работу с инструментами, последовательное выполнение шагов.

Используется в Codex app, CLI, IDE и вебе. API — в процессе.


Что в этой версии принципиально нового

Одна модель вместо двух режимов

Раньше было заметно разделение:

  • модель для кода
  • модель для рассуждений

В GPT-5.3-Codex это объединено.
Код, анализ, проверка гипотез и дальнейшие правки идут в одном контексте, без ощущения «переключения».

На практике это выражается не в том, что ответы стали «умнее», а в том, что они стали последовательнее.

Самостоятельная разработка модели

Это первая версия Codex, которая активно использовалась для собственной разработки:

  • отладка обучения
  • анализ тестов и оценок
  • управление деплоем
  • диагностика проблем в проде

По поведению это заметно: модель аккуратнее работает с инфраструктурными задачами и лучше ориентируется в сложных, не изолированных сценариях.

Уровень изменений: агентная архитектура
Суть: Codex перестал быть инструментом для отдельных шагов и стал агентом, который может вести задачу целиком

Бенчмарки

GPT-5.3-Codex показывает лучшие результаты по нескольким ключевым тестам:

  • SWE-Bench Pro
    Реальные инженерные задачи, несколько языков, меньше загрязнений.
    Результат выше, чем у GPT-5.2 и GPT-5.2-Codex.
  • Terminal-Bench 2.0
    Проверяет умение работать в терминале.
    GPT-5.3-Codex — 77.3% точности против ~64% у предыдущей версии.
  • OSWorld-Verified
    Работа в визуальной desktop-среде.
    64.7% — заметный рост по сравнению с предыдущими моделями.
  • GDPval
    Профессиональные задачи (документы, таблицы, презентации).
    Уровень сопоставим с GPT-5.2, но в рамках более универсального агента.

Отдельно важно: модель достигает этих результатов с меньшим количеством токенов, то есть работает экономнее.

Веб и долгие задачи

Модель тестировали на длинных автономных сценариях — например, разработке игр, где агент:

  • итеративно улучшает результат
  • фиксит баги
  • дополняет механику
  • делает это на протяжении миллионов токенов

В более приземлённых задачах (лендинги, сайты) заметно:

  • адекватные дефолты
  • меньше «пустых» решений
  • более собранная структура без подробного ТЗ

Beyond coding

GPT-5.3-Codex рассчитан не только на код:

  • PRD
  • презентации
  • таблицы
  • анализ данных
  • пользовательские исследования
  • метрики

По GDPval видно, что модель уверенно справляется с такими задачами.
Важно, что это не отдельный режим — всё происходит в том же агентном контексте.

Интерактивная работа

Codex теперь чаще сообщает о ходе работы:

  • что делает
  • какие решения принимает
  • где находится сейчас

Можно вмешиваться по ходу задачи, не сбрасывая контекст.
Это снижает необходимость либо ждать финал, либо постоянно перезапускать диалог.

Личное ощущение

Самое заметное — стало меньше необходимости управлять агентом вручную.

Раньше:

  • задачу приходилось дробить
  • цель часто напоминать
  • постоянно проверять, не «уехал» ли контекст

Сейчас:

  • задачу можно формулировать шире
  • агент сам удерживает направление
  • контроль остаётся, но в меру

Работа становится менее напряжённой, особенно на длинных задачах

VibeCode Wiki — база знаний по вайбкодингу.
Гайды, паттерны и разборы про ИИ-разработку.