16+
DOI: 10.18413/2518-1092-2026-11-1-0-3

АРХИТЕКТУРА СИСТЕМЫ ASR ДЛЯ АГГЛЮТИНАТИВНЫХ ЯЗЫКОВ С ОГРАНИЧЕННЫМИ РЕСУРСАМИ

Актуальность темы исследования обусловлена необходимостью преодоления цифрового неравенства, которое особенно остро проявляется в отношении малоресурсных языков. В то время как носители распространенных языков активно пользуются голосовыми помощниками, системами транскрибации и другими речевыми технологиями, малочисленные коренные народы остаются за бортом цифрового прогресса. Это неравенство лишает людей доступа к современным средствам коммуникации, образования и информации на родном языке, что ведет к их дальнейшей маргинализации и ускоряет процесс языкового вымирания. Разработка специализированных решений для автоматического распознавания речи (ASR) в условиях ограниченных данных является ключевым шагом на пути расширения технологической доступности. В статье рассматривается проблема разработки систем автоматического распознавания речи (ASR) для малоресурсных языков, в частности, кабардинского. Представлен комплексный подход, включающий адаптацию массово многоязычной модели MMS (Massively Multilingual Speech), предобработку данных, а также разработку и интеграцию языковых моделей для постобработки. Основное внимание уделено архитектуре модели MMS, основанной на Wav2Vec 2.0, и её модификации с использованием языково-специфических адаптеров (LSAH), что позволяет эффективно дообучать модель на ограниченных наборах данных. Описаны этапы предобработки аудио и текстовых данных. Рассмотрены архитектуры и результаты применения n-граммных (3-gram, 5-gram) и нейросетевой (mT5-base) языковых моделей для коррекции ошибок в выводе ASR. Практическая значимость работы подтверждена созданием рабочей open-source системы с веб-интерфейсом на платформе Hugging Face Spaces, демонстрирующей возможность построения эффективных ASR-решений для миноритарных языков.

Количество просмотров: 56 (смотреть статистику)
Количество скачиваний: 208
Полный текст (PDF)Скачать XMLК списку статей
  • Комментарии
  • Список литературы

Пока никто не оставил комментариев к этой публикации.
Вы можете быть первым.

Оставить комментарий: