Специалисты
Санкт-Петербургского Федерального исследовательского центра РАН (СПб ФИЦ РАН) завершили разработку программного комплекса распознавания речи для ливвиковского наречия карельского языка по аудиоматериалам, об этом
ТАСС сообщили в пресс-службе Минобрнауки РФ. В перспективе технология позволит переводить устную речь в режиме реального времени, став частью ранее презентованного онлайн-переводчика с использованием технологий искусственного интеллекта.
По оценкам ученых, в настоящее время на карельском говорят около 30 тыс. человек по всему миру, порядка 25 тыс. из них проживают в России, а в повседневной жизни язык используют лишь 5-7 тыс., что ставит его под угрозу исчезновения. Разработка поможет его сохранить. В будущем система может стать важным инструментом в области автоматизации лингвистических исследований культур коренных народов РФ.
"Мы создали систему автоматического распознавания речи для ливвиковского наречия карельского языка (распространено на юге и юго-западе Карелии). Изучение карельского языка имеет огромное значение не только для сохранения культурного наследия, но и для поддержки языковой традиции его носителей. Создание системы распознавания карельской речи - один из способов если не возродить, то хотя бы задокументировать этот язык", - рассказала старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН
Ирина Кипяткова.
Как пояснили ТАСС в пресс-службе СПб ФИЦ РАН, собранные учеными данные будут храниться на специальном сервере, что позволит не только улучшить работу искусственного интеллекта, но и задокументировать примеры устной речи. На первом этапе система будет выглядеть как приложение для компьютера, которое распознает звук, поступающий на микрофон, а затем переводит. В будущем систему могут адаптировать для использования на смартфонах, чтобы пользоваться ей могли не только ученые.
Трудности исследования и перспективы
Электронных данных, например текстов, аудиозаписей и словарей, на карельском не так много. Для распознания речи на таких языках разрабатывают методы, позволяющие добиться высокой точности при сравнительно небольшом количестве обучающих ресурсов. В качестве примера искусственный интеллект изучил тексты на ливвиковском наречии из открытого корпуса вепсского и карельского языков ВепКар, а также ряда других письменных источников. Кроме того, ученые собрали два набора данных разговорной речи, который обработали участники проекта, владеющие языком.
"Кроме нашей системы, в мире есть лишь одна модель, поддерживающая карельский язык. Однако она является многоязычной, ее обучение базировалось на очень небольшом объеме данных, что существенно снижает точность распознавания именно карельской речи. Мы же учитываем реальные условия использования карельского языка, где часто встречается переключение между карельским и русским. Многие носители карельского в повседневной речи смешивают два языка, и мы обучаем нашу систему корректно обрабатывать такие случаи", - отмечает Ирина Кипяткова.
Разработанная учеными система в перспективе может помочь для автоматического стенографирования речи на карельском, что будет полезно для лингвистических исследований. Также ее могут использовать для разработки ассистивных систем, систем машинного перевода, анализа медиаконтента. Проект поддержан грантом Российского научного фонда. В состав участников проекта вошли сотрудники Карельского научного центра РАН.
Источник:
ТАСС