Новият GPT-5.4 на OpenAI - за реална работа: писане и тестване на код, обработка на документи с Agentic AI

Новият GPT-5.4 на OpenAI – за реална работа: писане и тестване на код, обработка на документи с Agentic AI

6 март, 2026

No Comments

OpenAI представи GPT-5.4 – нов флагмански модел, който според компанията е оптимизиран за agentic workflows. Той комбинира по-силни способности за разсъждение и програмиране с вградена възможност за работа с компютър – т.е. управление на софтуер чрез screenshots и действия с мишка и клавиатура – както и поддръжка на до 1 милион tokens контекст за задачи с дълъг хоризонт.

Модел, създаден за агенти, които „вършат работата“

В официалното съобщение OpenAI представя GPT-5.4 като първия си универсален модел със state-of-the-art computer use, насочен към разработчици, които изграждат агенти, способни да изпълняват реални задачи в уебсайтове и софтуерни системи.

Компанията посочва примери като автоматизиране на workflows между различни приложения и подчертава, че моделът може директно да управлява компютърни взаимодействия, както и да пише код за автоматизация чрез инструменти като Playwright.

OpenAI твърди още, че GPT-5.4 е по-ефективен откъм tokens спрямо GPT-5.2 – използва по-малко tokens за решаване на задачи. Това го позиционира като по-бърз и по-евтин на практика за определени натоварвания, въпреки по-високата цена на token.

Бенчмарковете подчертават професионалната работа, инструментите и навигацията в desktop среда

В публикацията си OpenAI акцентира върху подобренията в комбинация от бенчмаркове за knowledge work и agent системи. Компанията отчита 83.0% „wins or ties“ в GDPval – оценка за професионална работа, която обхваща 44 професии – спрямо 70.9% за GPT-5.2.

При задачи за работа с компютър OpenAI съобщава за 75.0% успеваемост в OSWorld-Verified, спрямо 47.3% за GPT-5.2. Компанията отбелязва, че това надхвърля и човешкото представяне от 72.4% в бележките към бенчмарка.

Mercor: „Върхът в класацията“ за агенти в професионалните услуги

В анонса OpenAI включва и ранна обратна връзка от клиенти. Главният изпълнителен директор на Mercor Брендън Фуди заявява:

GPT-5.4 е най-добрият модел, който сме тествали. Вече е начело на класацията в нашия APEX-Agents benchmark, който измерва представянето на модели при задачи в професионалните услуги. Моделът се справя отлично със създаването на дългосрочни deliverables като презентации, финансови модели и правни анализи, като постига водещи резултати и същевременно работи по-бързо и на по-ниска цена от конкурентни frontier модели.

— Брендън Фуди, CEO на Mercor

OpenAI съобщава и за подобрена работа при web browsing и използване на инструменти, включително по-високи резултати в BrowseComp и Toolathlon. Компанията представя тези резултати като доказателство, че GPT-5.4 е по-добър в избора и управлението на инструменти в сложни workflows.

Какво означава това за разработчиците

За софтуерните екипи OpenAI позиционира GPT-5.4 като по-мощен „agentic“ двигател за end-to-end инженерна работа, особено когато е комбиниран с tooling и интерфейси за computer use.

Моделът е проектиран да работи с по-дълги цикли на разработка, без да губи контекст, благодарение на прозорец до 1 милион tokens. Това е особено полезно, когато релевантният код е разпределен в големи repositories, обширни logs, многoетапни incident timelines или обемни тестови резултати.

OpenAI подчертава и подобрения в програмирането и debugging процеса. GPT-5.4 се използва в Codex и е интегриран в workflows, при които моделът не само предлага промени в кода, но и управлява инструменти чрез слой за computer use. Така се отваря възможност за агенти, които могат да изпълняват команди, да проверяват резултатите и да итерират върху тях.

За QA и test engineering екипите възможността за computer use представлява съществена промяна. GPT-5.4 може да генерира автоматизирани UI тестове – например чрез скриптове в стил Playwright – и да изпълнява многоетапни тестови процедури, при които резултатите трябва да бъдат валидирани и коригирани в последователни итерации. Резултатите на OpenAI в OSWorld-Verified са представени като доказателство, че моделът може надеждно да управлява desktop среда, за да изпълнява задачи.

Компанията подчертава още, че GPT-5.4 е „по-ефективен откъм tokens“ спрямо GPT-5.2 – фактор, който има значение за разработчиците, когато инструментите генерират големи обеми изходни данни като stack traces, logs или diffs и разходите са пряко обвързани с обработените tokens.

Какво означава това за бизнес екипите

OpenAI насочва GPT-5.4 и към knowledge work, особено към задачи, които съчетават research, синтез на информация и форматиране на резултата в бизнес документи.

Компанията посочва, че моделът подобрява създаването и редактирането на документи, spreadsheets и презентации. Тези подобрения са свързани с подхода за „long-horizon“ планиране в ChatGPT чрез GPT-5.4 Thinking, който може да представи предварителен план за сложни задачи, по който потребителят да насочва изпълнението.

На практика това е workflow-ът, който Mercor описва – създаване на презентации, финансови модели и правни анализи като цялостни, многоетапни deliverables, а не като кратки отговори.

Метриките на OpenAI също са насочени към демонстриране на практическата стойност за бизнеса. Компанията отчита 83.0% wins-or-ties в GDPval – бенчмарк, който измерва изпълнението на задачи в десетки професии – спрямо 70.9% за GPT-5.2.

Възможността за computer use има значение и извън инженерните екипи. Агенти, задвижвани от GPT-5.4, могат да навигират в web dashboards, да преместват данни между различни инструменти, да генерират отчети и да актуализират системи за отчетност – задачи, които често се изпълняват ръчно в операции, финанси, HR и customer support. OpenAI представя това като част от по-широката си стратегия за агенти, които могат да „вършат“ работа в различни приложения, а не само да отговарят на въпроси.

Надеждност и внедряване

По отношение на точността OpenAI съобщава, че въз основа на неидентифицирани prompts, при които потребители са отбелязали фактически грешки, индивидуалните твърдения на GPT-5.4 са с 33% по-малка вероятност да бъдат неверни, а пълните му отговори са с 18% по-малка вероятност да съдържат грешки спрямо GPT-5.2.

Компанията съобщава, че GPT-5.4 Thinking започва да се внедрява в ChatGPT за потребители на плановете Plus, Team и Pro, като ще замени GPT-5.2 Thinking. Старият модел ще бъде окончателно изтеглен на 5 юни 2026 г. след тримесечен преходен период.

Изображение: OpenAI