Рестарт на AI пазара или когато “Inference”-ът стане тясно място

17 март, 2026

No Comments

През по-голямата част от бума на изкуствения интелект вниманието на индустрията беше насочено към обучението: изграждане на все по-големи модели, захранването им с все повече данни и изтласкването на границите на суровите им възможности. Сега този център на тежестта се измества. Все по-важно е не само как се обучава AI, а колко често, колко бързо и колко интелигентно може да бъде използван в реалния свят.

Това стои зад идеята, която главният изпълнителен директор на Nvidia Дженсън Хуанг описа на GTC като настъпването на „inference inflection“. Изразът означава повратен момент на пазара за изкуствен интелект. Системите вече не се оценяват само по способността си да генерират текст, изображения или код в контролирана среда. От тях все по-често се очаква да вършат по-сложна работа: да разсъждават върху проблеми, да използват инструменти, да четат файлове, да разбират контекст и да изпълняват продуктивни задачи с определена степен на автономност.

На практика това означава, че AI преминава от демонстрация към внедряване в различни индустрии. А внедряването изисква inference.

Дженсън Хуанг обяви 2025 за година на inference и очерта бъдещото навлизане на AI във всички индустрии

Inference е фазата, в която един вече обучен AI модел реално се използва. Това е моментът, в който системата отговаря на запитване, анализира документ, взема решение, пише код, обобщава среща или изпълнява задача. Ако обучението е създаването на интелигентност, inference е нейното приложение.

С превръщането на AI системите в по-agentic — тоест способни да разбиват проблемите на стъпки, да извикват инструменти, да преработват отговорите си и да работят по по-дълги вериги от разсъждения — inference-ът става несравнимо по-важен и несравнимо по-скъп.

Дженсън Хуанг го формулира много точно и не случайно повтори поне 12 пъти думата “inference” за около 1 минута в тази част на своя keynote:

Това е фундаментална повратна точка. Най-сетне AI е в състояние да върши продуктивна работа и затова повратната точка при inference вече е настъпила. AI вече трябва да мисли. За да мисли, трябва да прави inference. AI вече трябва да действа. За да действа, трябва да прави inference. AI трябва да чете. За да го прави, трябва – inference. Трябва да разсъждава. Трябва да прави inference. Всяка част от AI, всеки път когато трябва да мисли, да разсъждава, да действа, да генерира tokens, трябва да прави inference. Отдавна сме отвъд обучението. Вече сме в ерата на inference. И тази повратна точка настъпи в момент, когато обемът от токъни и необходимата изчислителна мощ са се увеличили приблизително 10 000 пъти.

Това изказване стига до същността на голямата промяна, която в момента протича в икономиката на изкуствения интелект. По думите на Хуанг през последните две години търсенето на изчислителна мощ за AI задачи е нараснало приблизително 10 000 пъти, а използването — около 100 пъти. Според него при стартъпите и големите AI лаборатории като OpenAI и Anthropic реалният ръст в търсенето на изчислителни ресурси може да се усеща по-скоро като кратно на милиони увеличение за същия период.

Тази разлика има значение. Тя подсказва, че следващият етап в развитието на AI няма да се определя само от това кой разполага с най-умния модел, а и от това кой може да си позволи да го поддържа в мащаб.

Inference се превръща в новото тясно място.

Когато от AI системите се очаква да разсъждават, преди да отговорят, да обработват повече токъни, да използват външни инструменти и да работят непрекъснато в рамките на продукти и работни процеси, инфраструктурата под тях трябва да върши значително повече работа за всяко едно потребителско взаимодействие. Едно просто chatbot съобщение е едно. AI агент, който чете документи, планира действия, преминава през различни варианти и стига до полезен резултат, е съвсем друго. Вторият модел изисква много повече compute, а оттам и много повече капитал.

Това помага да се разбере защо NVIDIA поставя толкова силен акцент именно върху тази фаза от пазара. Компанията определи 2025 г. като „година на inference“, със стратегия, насочена към това инфраструктурата ѝ да работи по цялата верига на AI — от обучението през post-training до inference — като едновременно с това удължава полезния живот на хардуера и намалява разходите за инвеститорите.

С други думи, NVIDIA не продава просто чипове за създаване на модели. Компанията се позиционира като ключов доставчик за оперативната ера на AI.

Откриване NVIDIA GTC 2026 Джонсън Хуанг
Откриване NVIDIA GTC 2026 Джонсън Хуанг

Пазарните прогнози, цитирани в речта на Хуанг, подчертават мащаба на този залог. По думите му още миналата година е имало много силно търсене и поръчки за общо 500 млрд. долара за системите Blackwell и Ruben до 2026 г. В перспектива до 2027 г. той вече вижда поне 1 трилион долара търсене, като същевременно допуска, че реалното търсене на изчислителна мощ може да се окаже дори по-високо.

Тези числа правят впечатление не само със своя мащаб, а и с това какво подсказват за очакванията на инвеститорите. Пазарът на AI вече не се оценява единствено през призмата на разработката на модели. Все по-често той се ценообразува според устойчивото потребление — ежедневното, повтарящо се изчислително натоварване, което възниква, когато AI се вгражда в търсене, софтуер, корпоративна автоматизация, роботика, наука и дигитални асистенти.

Точно затова тази повратна точка при inference е толкова важна. Тя променя историята на AI — от история за иновация в история за прилагане на AI в различните индустрии.

За стартъпите това повишава цената на амбицията. Вече не е достатъчно да се изгради впечатляващ модел; компаниите трябва и да финансират инфраструктурата, необходима, за да обслужват реални потребители с висока честота. За cloud доставчиците и производителите на чипове това отваря огромна търговска възможност, защото всеки скок в agentic способностите води до още по-голямо търсене на inference хардуер. За компаниите това е сигнал, че внедряването на AI в мащаб може да се окаже по-скъпо и по-оперативно сложно, отколкото предполагаха много от ранните прогнози. А за по-широкия пазар това е знак, че търсенето на изчислителна мощ може да остане изключително високо дори ако темпото на шумните анонси за нови модели започне да се забавя.

В този смисъл повратната точка при inference не е просто технически етап. Тя е рестарт на пазара.