Google отвори кода на AI за таблични данни

27 май, 2020

No Comments

Google отвори кода на система за deep learning, която може да отговори на въпроси на естествен език от таблични данни. Системата TAPAS беше обучена на 6.2 милиона таблици, извлечени от Wikipedia и съвпада или надвишава най-съвременните постижения в няколко показателя.

Създателят Томас Мюлер даде преглед на работата в скорошна публикация в блога. Като се има предвид таблица с числови данни, като спортни резултати или финансова статистика, TAPAS е предназначен да отговори на въпроси на естествен език за факти, които могат да се изведат от таблицата. Например, предвид списък на спортни първенства, TAPAS може да бъде в състояние да отговори “Кой отбор е спечелил най-много първенства?” за разлика от предишните решения на този проблем, които преобразуват заявки на естествен език в езици на софтуерни заявки като SQL, които след това се изпълняват в таблицата с данни, TAPAS се научава да работи директно върху данните и превъзхожда предишните модели по общи показатели. Подобрението е за отговор на въпроси с повече от 12 точки срещу Microsoft и повече от 4 точки за WikiTableQuestions (WTQ) на Станфорд.

Много предишни AI системи решават проблема с отговори на въпроси от таблични данни с подход, наречен семантичен анализ, който преобразува въпроса на естествен език в “логическа форма” – по същество превежда човешки език в изявления на език на програмиране. За въпроси относно табличните данни, логическата форма обикновено е език за запитвания, като SQL. И Microsoft, и Salesforce са разработили такива системи, но според екипът на Google, един недостатък на семантичния анализ е, че както при всички контролирани обучения, той изисква ръчно обозначен набор от данни – който задава въпроси от естествен език към логически форми. Прозрението на Google беше да прескочи междинната стъпка на логическата форма. TAPAS вместо това директно извежда “подмножество от клетките на таблицата и възможна операция за агрегиране.”