Академичен проект свързва човешки глас с образ

29 май, 2019

No Comments

Speech2Face e академичен проект, който има за цел да изследва технологичните възможности за сформиране на дигитален човешки образ на база на записан човешки глас. Това става чрез проектиране и обучение на дълбоки невронни мрежи и с използване на милиони видеоклипове от Youtube на хора с разнообразни гласове, споделящи информация на различни теми. Самият модел изучава аудиовизуални и гласови корелации, след което визуализира човешки образ с определен пол, възраст, етнос.

Идеята работи на принципа съвпадение на лице с глас спрямо интернет видеоклиповете, които са обработени до този момент, без нужда от специално моделиране на атрибутите. Следва подробна количествена и качествена доколко реконструкциите на Speech2Face съвпадат с външността на говорителите. До този момент слабо място за проекта се оказва разграничението между тънък детски глас на момче и женски глас, както и възрастови разлики. Наблюдава се и колебливо отношение при разпознаване на акценти и свързване с определен етнос.

Докъде е стигнала технологията? Изкуствено генерираните образи от Speech2Face се разпознават от други програми като лица на реални хора. Така например някои приложения създават карикатури от полученото изображение.

Доколко всичко това е морално? В от гледна точка на етични съображения поради използваната лична информация, създателите на идеята споделят, че всичко се извършва в името на научния интерес.