9 декември, 2024

Изображение: Институтът за ИИ “Алън”

Институтът за изкуствен интелект “Алън” (AI2) пусна OLMo – отворен голям езиков модел, който има за цел да помогне за по-ясното разбиране какво се случва при процесите в моделите на изкуствения интелект, както и да допринесе за развитието в областта на науката за езиковите модели.

ОЧАКВАМЕ ТЕ: Участници в Уебинара “Къде Инвестират ИТ Специалистите? Успешните Стратегии”

Сътрудничеството на “Алън” с Института Кемпнер за изследване на естествения и изкуствения интелект към Харвардския университет, както и с партньори, сред които AMD, CSC-IT Center for Science (Финландия), Paul G. Allen School of Computer Science & Engineering към Вашингтонския университет и Databricks правят реализирането на проекта OLMo факт.

OLMo се пуска заедно с данни за предварително обучение и код за обучение, които, както се казва в съобщението на института, “днес не се предлагат в нито един отворен модел от този мащаб”.

Сред инструментите за разработване във framework са данните за предварително обучение, изградени върху набора Dolma на AI2, който включва три трилиона токена, заедно с кода, който създава данните за обучение.

“Много езикови модели днес се публикуват с ограничена прозрачност. Без достъп до данни за обучение изследователите не могат да разберат научно как работи даден модел. Това е равносилно на откриването на лекарства без клинични изпитания или на изучаването на Слънчевата система без телескоп”, казва Хана Хаджиширзи, ръководител на проекта OLMo, старши директор на NLP Research в AI2 и професор в Allen School на UW.

Той допълва още, че благодарение на OLMo изследователите “най-накрая ще могат да изучават науката за LLM, което е от решаващо значение за изграждането на следващото поколение безопасен и надежден изкуствен интелект”.

Институтът за изкуствен интелект “Алън” отбеляза, че OLMo осигурява на изследователите и разработчиците по-голяма точност, като предлага информация за данните за обучение, които стоят зад модела, като премахва необходимостта да се разчита на предположения за това как моделът работи. И тъй като моделите и наборите от данни са отворени, изследователите могат да се учат и да надграждат върху предишни модели и работа.

Повече подробности около новината прочетете на DevStyleR.ioAllen AI Institute Launches Fully Open Large Language Model


Гледайте Втори Епизод “ИТ Индустрията във Варна – Компании, Кариера, Бъдеще” от документалната поредица The BIG TECH на DevStyleR.

Слушайте новия подкаст на DevStyleR “Може ли да се доверим на Cloud Provider”.

Следвайте ни във Facebook, Instagram, LinkedIn и YouTube.


Прочетете още:
1. От Студентите в Харвард до Потребителите в Цял Свят: 20 Години от Създаването на Facebook
2. Мисията ни е Българската ИКТ Индустрия да е Водеща и на Световния Пазар
3. Известни са Победителите от Третия Кръг на CodeIT

Тагове: , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,
Editor @ DevStyleR