Отбор от 5 невронни мрежи, OpenAI Five, започна да побеждава аматьорски отбори на Dota 2. В момента ботовете играят с немалко ограничения, но целят да победят екип от топ професионалисти през август, ограничени само от набора на герои.
Dota 2 е една от най-популярните и сложни esport игри в света с творчески и мотивирани професионалисти, които тренират целогодишно, за да спечелят част от годишния награден фонд на Dota, който е най-големият от всички esport игри.
OpenAI Five играе толкова, че количеството на възприемане е равно на 180 години геймплей срещу себе си всеки ден, като се учи чрез самостоятелна игра. Той тренира с помощта на подобрена версия на Proximal Policy Optimization, която работи на 256 графични процесора и 128000 CPU ядра – по-мащабна версия на системата, която са създали от OpenAI, за да се играе много по-простия солов вариант на играта миналата година. Използвайки отделен LSTM за всеки герой и без човешки данни, той научава разпознаваеми стратегии. Това показва, че обучението чрез укрепване (reinforcement learning) може да доведе до дългосрочно планиране с голям, но постижим мащаб – без фундаментални постижения.
Проблемът
Една цел на AI е да надхвърли човешките възможности в сложна видеоигра като StarCraft или Dota. В сравнение с предишните етапи на AI като Chess или Go, комплексните видеоигри започват да улавят бъркотията и непрекъснатото естество на реалния свят. Надеждата е, че системите, които решават сложни видео игри, ще бъдат много общи, с приложения извън игрите.
Повечето действия (като простата команда за местене на позицията на герой) имат незначително въздействие поотделно, но някои отделни действия като използването на градски портал могат да засегнат стратегически играта. OpenAI Five гледа всеки четвърти кадър, което дава около 20 000 хода на игра. Шахът обикновено завършва преди 40 хода и Go приключва преди 150 хода, като почти всеки ход е стратегически.
Подходът на OpenAI Five
Системата им се научава да използва по-мащабна версия на Proximal Policy Optimization. Както OpenAI Five, така и техният по-ранен бот 1v1 се учат изцяло от самоуправление. Те започват с случайни параметри и не използват търсене или bootstrap от човешки оператор.
Изследователите на RL по принцип вярват, че дългите времеви хоризонти ще изискват фундаментално нови постижения, като например ученето в йерархичното укрепване (hierarchical reinforcement learning). Резултатите на OpenAI Five показват, че досега известните алгоритми въобще не се справят зле, особено ако се учат достатъчно време и се предвиди възможност за изследване на нови възможности.
Структура на модела
Всяка от мрежите на OpenAI Five съдържа еднослойен LSTM с 1024 върха, което вижда текущото състояние на играта (извлечено от API на бота на Valve) и излъчва действия чрез няколко възможни глави за действие. Всяка глава има семантичен смисъл, например колко да забави действието, което се избери, X, Y координатите спрямо героя и т.н. Действащите глави се изчисляват независимо.
Основната им мотивация достига отвъд Dota. Развитието на AI в реално време ще трябва да се справи с предизвикателствата, повдигнати от Dota, които не са били нужни при играта на шах, Go и класиките на Atari или Mujoco. Интересно е да се види как ще се справя Dota алгоритъма при приложение към реални задачи от всекидневието.