Microsoft представи VALL-E, нов метод на езиков модел за синтез на текст в реч (TTS), който използва кодове на аудиокодеци като междинни представяния и може да възпроизведе гласа на всеки след прослушване на само три секунди аудиозапис, написа Infoq по темата.
Според изследователския документ VALL-E може да създаде не само висококачествена персонализирана реч само с трисекунден запис на наклонен говорител, действащ като акустичен стимул. Той прави това без необходимост от допълнително структурно инженерство, предварително разработени акустични характеристики или фина настройка. Той поддържа подходи за контекстуално учене и подходи за ТТС, базирани на подкани с нулеви изстрели.
Това и още по темата можете да откриете на международното издание на сайта ни DevStyleR.IO – Microsoft Introduces VALL-E, a Level-Changing TTS Language Model