research – DevStyleR

SCROLLS анализът на дълги езикови последователности е вече факт

kalina — Wed, 02 Mar 2022 08:34:20 +0000

Изследователи от Университета в Тел Авив, Meta AI, IBM Research и Института за изкуствен интелект “Allen” (AI2) публикуваха Standardized CompaRison Over Long Language Sequences (SCROLLS) – набор от сравнителни задачи за обработка на естествен език (NLP), работещи с дълги текстови последователности, взети от много области. Експериментите върху базови модели за NLP показват, че настоящите модели имат значителни възможности за подобрение, съобщава InfoQ.

Експериментите с еталонните и базовите модели са описани в статия, публикувана в arXiv. SCROLLS съдържа задачи за обобщаване, отговаряне на въпроси и изводи на естествен език, които обхващат множество области, включително литература, наука, бизнес и развлечения.

Първоначалните базови данни, включително Longformer Encoder-Decoder, показват, че има достатъчно възможности за подобрение на SCROLLS. Предоставят се всички набори от данни в унифициран формат текст-към-текст и се организира класация на живо, за да се улеснят изследванията на архитектурата на моделите и методите за предварително обучение.

Google стартира грантова програма за намиране на бъгове в JS енджини

plamen — Fri, 02 Oct 2020 15:57:07 +0000

Google стартира грантова програма за спомагане и спонсориране на проучвания, свързани с изследване на сигурността и уязвимостите на браузъри, базирани на JavaScript енджини. За целта обаче, има едно единствено правило – бъговете да бъдат намирани чрез метода на “fuzz” тестването – изпробване на случайни, невалидни или неочаквани данни като вход в програмата, а след това анализиране на аномалиите. Техниката е широко разпространена в големите технологични компании, но рядко се използва от изследователите по сигурността, които работят самостоятелно, защото fuzzing тестването е изчислително скъпо – изисква големи и скъпи cloud computing ресурси.

Изследователите на сигурността, работещи на свободна практика, обикновено получават възнаграждение месеци след подаването на грешката, а получените средства не е задължително да покриват първоначалните разходи. Поради тази причина Google заявява, че грантовата програма е решение на този проблем и финансовата помощ, която осигурява е безвъзмездна.

Изследователите и академичните среди могат да кандидатстват за средства, като използват fuzzing тестване на JavaScript браузър по техен избор. Отсрещната страна пък – Google – ще анализира всеки подаден проблем и ще отговаря на участниците в срок от две седмици. Одобрените проекти могат да получат финансиране до 5000 долара.

Програмата е в срок 1-ви октомври 2020 – 1-ви октомври 2021 г. и е наречена Fuzzilli Research Grant, също като open source fuzzing инструмента на Google. Всички грешки, идентифицирани по време на пилотната програма, трябва да бъдат докладвани на засегнатите доставчици, като изследователите могат да задържат допълнителните приходи, които получат от намерените бъгове в периода на програмата.

Допустимите JavaScript енджини включват JavaScriptCore (Safari), V8 (Chrome, Edge) и Spiredmonkey (Firefox), но не се изключват и други, които изследователите предложат.
Както е ясно, JS енджините имат ключова роля за браузърите и като резултат на това, са силно уязвими към потенциални заплахи.

Допълнителна информация за Fuzzilli Research Grant можете да намерите тук.

Изкуствен интелект създава нови подправки

momchil — Tue, 05 Feb 2019 16:51:02 +0000

McCormick, компанията-производител на бранда Old Bay и други подправки, овкусители и подобрители вече използва изкуствен интелект, за създаване на нови аромати и миксове. Компанията е работила с IBM Research за създаването на AI система, обучавана с данни за подправки и аромати, събирани в продължение на десетилетия. Целта на проекта е да бъдат създадени нови комбинации от аромати. Новината беше официално обявена от IBM Research.

Компанията, базирана в Балтимор, Мериленд, планира да пусне на пазара първите продукти, създадени с помощта на изкуствен интелект (ИИ). Новата линия се нарича “One” и включва миксове от подправки за готвене на едно ястие. Тя включва аромати като “Пиле от Тоскана” и “Крехко Телешко по Бурбонски”.

Според представители на компанията намесата на ИИ е била полезна, тъй като машината не е била повлияна от вкусови, културни и др. различния при смесването и тестването на подправките.

IBM Research обявява прототипа на AgroPad IoT

momchil — Thu, 06 Sep 2018 08:34:55 +0000

IBM Research обяви работен прототип на AgroPad в Бразилия, който може да предостави на земеделските производители достъпно решение за тестване на почвата и водата, използвайки само хартиена лента и смартфон.

Прототипът позволява на фермерите да използват своите смартфони, за да анализират хартиените тестови ленти, за да тестват химическия състав на почвата и водата, без да се налагат скъпи и отнемащи време лабораторни тестове.

Малките ферми произвеждат приблизително 80% от световната храна. Здравето на растенията е от решаващо значение за нашата глобална икономика на храни. Представете си въздействието на бурята върху състоянието на малката ферма. Дребните земеделски производители не могат да си позволят да оставят здравето на растенията на случайността. Те се нуждаят от метод, който да тества колко е разградена почвата, заради буря, за да се определи колко да се излее отново или да се реминерализира почвата.

С текущите технологии за изпитване на почвите, стопанствата имат само две възможности, а и двете са твърде скъпи за малките земеделски стопанства. Първо, фермата може да плати “агромер” за събиране на проби от почвата и да ги изпрати до специализирани лаборатории за тестване. Малките ферми понастоящем правят това средно два до три пъти годишно. Другата възможност е да се разработи собствена система за тестване на почвата в помещенията, но това изисква персонализиран хардуер, софтуер и капитал, които имат само по-големи ферми.

Бразилският екип IBM Research, водени от д-р Матиас Щайнер, разработват прототипа на IBM AgroPad IoT, за да обслужват нуждите на земеделските производители, докато се опитват да разрушат индустрията на селскостопанските технологии. Те твърдят, че прототипът може да осигури дълбоко вникване в тестовите проби от нискотехнологична хартия за тестване, като използва високотехнологична облачна платформа, изпълнена с нюансиран алгоритъм на AI.

IBM AgroPad все още е само прототип – творческо приложение на IoT, но недоказано. Остава да се види дали IBM Research може, дори да докаже концепцията и да я мащабира. Но ако IBM може да стартира решението, то би могло да стане безценно за дребните земеделски производители, които са жизненоважни за доставките на храни в света.

Прототипът на IBM Agropad IoT има три стъпки: 1) лентата за тестване на хартия, 2) приложението за смартфони и 3) облачния слой, съдържащ AI.

1) Тестът върху хартията

След поставяне на капка вода или течност от проба от почвата върху задната страна на картата на хартията, индикаторите от другата страна на лентата биха променили цвета в зависимост от химическия състав на пробата. От там идва ред на приложението.

2) Фермата във вашия смартфон

Чрез приложението IBM AgroPad за смартфони потребителят прави снимка на хартиената лента, изложена на пръста. След това приложението изпраща снимката до cloud-а през телефона или WiFi и след няколко минути се визуализира анализът на изображението въз основа на облак. Потребителят може да прочете резултатите от теста директно от своя смартфон. И ако услугата не е налице в полетата, потребителите могат да съхраняват мострата в приложението за анализ, след като отново влязат в зона на обслужване или се свържат с WiFi.

3) Слабо и високотехнологично сближаване

AgroPad използва облачната платформа на IBM, за да интегрира двата долни слоя – хартиената ивица и приложението – с облачен слой, съдържащ алгоритъм на AI (отделен от IBM Watson). AI може да открие минимални вариации в оцветяването на реактивната част на тест лентата и веднага да върне резултатите от теста в приложението.

Щайнер каза, че основното препятствие пред екипа е намирането на добри производствени, селскостопански и химически партньори, които могат да помогнат итеративно да тестват и мащабират прототипа. Както бе споменато по-горе, екипът на IBM все още не е доказал концепцията. Веднъж доказан, прокарването на прототипа става следващото предизвикателство. Например екипът трябва да намери начин да произвежда огромни количества хартиени ленти при минимални разходи, без да се влошава качеството им, като се има предвид, че една малка промяна в производството може да обърка химическия анализ.

Български софтуер намира приложение във висши чуждестранни институции

katya — Tue, 15 May 2018 14:12:17 +0000

Графова база данни GraphDB, дело на Ontotext Sirma AI, предоставя тонове полезна информация

Продуктът GraphDB се използва от много държавни институции с цел предоставяне на отворени данни на обществото. Наскоро, Британският парламент също пусна два нови портала за публикуване на отворена информация, които са базирани именно на този софтуер. Не само правителствата обаче, използват GraphDB. Милен Янкулов, който е Marketing Manager в Ontotext Sirma AI разказва повече за историята на софтуера, работата по него и широкото му разпространение

Разкажете повече за Ontotext – каква е основната дейност на компанията?

Компанията Ontotext е създадена като Research & Development звено на Sirma Group и се занимава със семантични технологии от 2000г. Семантичните технологии са вид изкуствен интелект. Самата Sirma Group е започнала развитието си в областта на AI още преди 25 години, но тогава изкуственият интелект не е бил толкова популярен. Първите проекти на компанията са били предназначени за Канадското правителство.

През 2008г. се отделихме като “spin-off” фирма и оттогава развиваме нашата графова база данни и платформата за текстов анализ.

Колко човека участват в проекта GraphDB? От колко време се работи по него?

Тъй като това е софтуерен продукт, по него се работи постоянно, защото се пускат нови версии, в които се оправят грешки от предишни такива и се добавят нови функционалности. Създават се множество подобрения, като ние се стремим да се вслушваме в обратната връзка на съществуващите ни потребители. Когато те намерят някакви проблеми, разработчиците се вслушват в мненията им и работят по усъвършенстването на продукта. Рeлийзите добавят стабилност, скалируемост и надеждност на базата данни. В момента по GraphDB работят около 20 човека, които са основно девелопъри, QA и Support-специалисти.

По GraphDB се работи от около 10 години. Сегашната версия на продукта е 8.5.8, като през последните 2 години политиката ни е да пускаме minor release на всеки два месеца. Целта е да сме по-пъргави и да усвояваме бързо feedback-а, който получаваме.

Какви са основните функции на софтуера?

Графовата база дани е проектирана за публикуване на отворени данни. Правителствата са задължени да оповестяват информация в портали, които са отворени по смисъла на действащите закони (напр. В България това са търговския регистър, данните за качеството на въздуха, регистъра за публичните поръчки и т.н.). Проблемът на тези портали е, че изходната информация е поднесена по доста сложен и неразбираем начин. Това, което GraphDB прави е, че позволява зареждането на тези банни данни, конвертирането им в стандартизиран формат и публикуването им в достъпен и смислен вид за възприемане от страна на потребителите. Графовата база данни дава възможност да се направи връзката на едни източници на информация с други. Също така, GraphDB прави индексирането на получените данни много по-лесно. Друга функция на софтуера е, че чрез него търсенето се извършва не просто по ключови думи, а и по смисъл. Именно това представлява семантичното търсене. Все повече големите търсачки, като Google, наблягат на този метод.

Разбира се, проектът може да има различни добавени приложения, като Master Data Management.

Имаме 4 версии на продукта – Free, Standart, Enteprise и Cloud. Най-сериозните ни клиенти ползват Enterprise версията.

Какви технологии бяха използвани по време на разработката му?

Софтуерът е основно базиран на Java, но използваме още .NET, C#, Clojure, Javascript,PHP, Python и Ruby. GraphDB има версии за всички основни операционни системи. Софтуерът има user интерфейс, който е много лесен за работа.

Какво привлече вниманието на британския парламент? В какви други институции и компании се използва вашият проект?

Ние работим с Британския парламент от 2011г., но едва сега от институцията пуснаха публични портали с данни. Преди 7 години се явихме на конкурс, където представихме проекта редом с други компании и спечелихме, защото GraphDB е скалируем, мащабируем и надежден. Софтуерът може да събира огромни количества данни от над 20 други IT системи на парламента. Наскоро от Великобритания пуснаха двата сайта за отворени данни – legislation.gov.uk и data.gov.uk. Желанието на парламента там беше да създаде портал за отворени данни, в който хората да могат лесно да се ориентират и да достигат до търсената информация. Великобритания е на първо място в света по обем на отворените данни и необходимостта от подобен портал е значителна.

Относно държавни институции сме внедрили GraphDB още в Холандския кадастър, в Канадското правителство, в Националната галерия на САЩ. Повечето научни издателства и няколко английски медии също използват нашата графова база данни. Спортната секция на BBC се поддържа от GraphDB, като ние помагаме на медията да се генерират автоматично страници за конкретни събития или хора. Например, ако се играе футболен мач, в спортната секция се “вдига” специална страница за този двубой. GraphDB, като база данни, която стои зад тази система има информация за всички играчи от футболните отбори – от коя държава са, в кой отбор са били преди това, свързани с тях организации и лица и т.н. При промяна в резултата, това автоматично се отразява в динамично създадените елементи от съдържание-появява се информация за голмайстора-статистики, допълнителни статии и факти за него. По този начин софтуерът прави работата на медията по-бърза и подобрява потребителското преживяване. Работим и с Financial Times, като ние предоставяме Smart Recommendation. В тази медия срещу определено заплащане, читателят получава ексклузивно съдържание, подготвено само за потребители с платен достъп. Тези, които четат статии на конкретни теми получават подходящи препоръки за статии по теми, от които се интересуват. GraphDB събира данни от историята им на четене в сайта и препоръчва материали на сходна тематика.

Тъй като GraphDB се използва в помощ на потребителите във Великобритания да откриват отворени данни, смятате ли, че подобни иновации допринасят за по-голямата прозрачност на действията на властите?

Убеден съм, че го прави. Много хора в България и по света работят за това да се отварят данните. От друга страна са налице технологични вендори, които имат необходимите характеристики, за да създават подобни софтуери, които да допринасят за по-голямата прозрачност на действията на властите.

Какви са бъдещите ви проекти? Какъв тип услуги ще предоставят те?

Бъдещето на компанията е много тясно свързано с развитието на Sirma Group Holding. Вече започваме да променяме името си от Ontotext на Ontotext Sirma AI. Ние се превръщаме в централно звено за Research & Development на Sirma. Върху GraphDB добавяме Computer Vision, чат-бот и платформа за Process Management и Document Management. Цялото ни портфолио ще е предназначено за FinTech, PublishingPharma и LifeScience индустрията. Разбира се, ще продължаваме да усъвършенстваме и основния ни продукт GraphDB.

Кои са вашите конкуренти в световен мащаб?

Аз лично смятам, че имаме потенциала да се конкурираме с компании от рода на Google, Microsoft и IBM. Мисля, че сме пряк конкурент на IBM Watson в много вертикали, като Health Care & Life Science, Company Intelligence и Publishing. Конкурираме се по възможността на нашите технологии да извличат структурирана информация от огромни масиви неструктурирани данни. Това улеснява работата на много организации, които през годините са натрупали знания, които са пръснати в различни информационни системи и локации.