21 юли, 2024

Facebook AI пуска Multilingual LibriSpeech (MLS), огромен, open-source сет от данни. Целта да се подпомогне проучването за автоматично разпознаване на говор (ASR) на няколко различни езика до момента – английски, немски, холандски, френски, испански, италиански, португалски и полски. Това споделиха в блога си Facebook AI.

MLS е набор от данни за четене и реч, който използва данните на LibriVox аудиокниги. Той се основава на широко използвания бенчмарк LibriSpeech ASR, което го прави по-голям и го разширява от само английски до седемте други езика, отбелязани по-горе.

MLS предоставя ценен ресурс за проучване в обучението на ASR системи. Английският му набор от данни е около 47 пъти по-голям от данните за обучение, налични в LibriSpeech. Въпреки че съществуват набори от данни и еталони за различни от английски езици, те често са относително малки или разпръснати на различни места и рядко се предлагат с отворен лиценз.

Четете повече в публикацията “Facebook AI Open-Sources Multilingual LibriSpeech” на DevStyleR.io.

Тагове: , , , , , , , , ,