DOI: 10.18413/2518-1092-2026-11-1-0-3

АРХИТЕКТУРА СИСТЕМЫ ASR ДЛЯ АГГЛЮТИНАТИВНЫХ ЯЗЫКОВ С ОГРАНИЧЕННЫМИ РЕСУРСАМИ

Ольга Викторовна Тимченко
Дарья Константиновна Алексеева
Залина Хамидбиевна Абрегова
Валерия Андреевна Гречко

Актуальность темы исследования обусловлена необходимостью преодоления цифрового неравенства, которое особенно остро проявляется в отношении малоресурсных языков. В то время как носители распространенных языков активно пользуются голосовыми помощниками, системами транскрибации и другими речевыми технологиями, малочисленные коренные народы остаются за бортом цифрового прогресса. Это неравенство лишает людей доступа к современным средствам коммуникации, образования и информации на родном языке, что ведет к их дальнейшей маргинализации и ускоряет процесс языкового вымирания. Разработка специализированных решений для автоматического распознавания речи (ASR) в условиях ограниченных данных является ключевым шагом на пути расширения технологической доступности. В статье рассматривается проблема разработки систем автоматического распознавания речи (ASR) для малоресурсных языков, в частности, кабардинского. Представлен комплексный подход, включающий адаптацию массово многоязычной модели MMS (Massively Multilingual Speech), предобработку данных, а также разработку и интеграцию языковых моделей для постобработки. Основное внимание уделено архитектуре модели MMS, основанной на Wav2Vec 2.0, и её модификации с использованием языково-специфических адаптеров (LSAH), что позволяет эффективно дообучать модель на ограниченных наборах данных. Описаны этапы предобработки аудио и текстовых данных. Рассмотрены архитектуры и результаты применения n-граммных (3-gram, 5-gram) и нейросетевой (mT5-base) языковых моделей для коррекции ошибок в выводе ASR. Практическая значимость работы подтверждена созданием рабочей open-source системы с веб-интерфейсом на платформе Hugging Face Spaces, демонстрирующей возможность построения эффективных ASR-решений для миноритарных языков.

Ключевые слова: автоматическое распознавание речи (ASR), малоресурсные языки, кабардинский язык, MMS (Massively Multilingual Speech), Wav2Vec 2.0, адаптеры, языковые модели, постобработка, n-граммы, mT5.

Количество просмотров: 153 (смотреть статистику)

Количество скачиваний: 512

Полный текст (PDF)Скачать XML К списку статей

Информация для цитирования:

Тимченко О.В., Алексеева Д.К., Абрегова З.Х., Гречко В.А. Архитектура системы ASR для агглютинативных языков с ограниченными ресурсами // Научный результат. Информационные технологии. – Т.11, №1, 2026. – С. 20-28. DOI: 10.18413/2518-1092-2026-11-1-0-3

Комментарии
Список литературы

Пока никто не оставил комментариев к этой публикации.
Вы можете быть первым.

1. Алексеева Д.К. Технологии автоматического распознавания речи на малоресурсных миноритарных языках Северного Кавказа / Д.К. Алексеева, О.В. Тимченко // Наукосфера. – 2024.

2. Кипяткова И.С., Кагиров, И.А. Система автоматического распознавания карельской речи / И.С. Кипяткова, И.А. Кагирова // Информационно-управляющие системы. – 2023. – Т. 3. – С. 16-25.

3. Кузьмин Е.И. Современные проблемы сохранения и развития миноритарных языков в условиях многоязычия в России и в мире: пути решения и перспективы / Е.И. Кузьмин // Университетская книга. – 2022. – URL: https://www.unkniga.ru/kultura/13442-sovremennye-problemysohraneniya-i-razvitiyaminoritarnyh-yazykov-v-usloviyahmnogoyazychiya.html.

4. Orken M. Study of transformer-based end-to-end speech recognition system for Kazakh language / M. Orken, O. Dina, A. Keylan [et al.] // Sci Rep. – 2022. – Vol. 12. – Pp. 8337.

5. Baevski A. Wav2vec 2.0: a framework for self-supervised learning of speech representations / A. Baevski [et al.] // Advances in Neural Information Processing Systems. – 2020.

6. Boosting Wav2Vec2 with N-Grams in Transformers // Hugging Face Blog. – URL: https://huggingface.co/blog/wav2vec2with-ngram (дата обращения: 17.06.2025).

7. Wang H. Understanding knowledge transferability for transfer learning: a survey / H. Wang [et al.] // ACM Comput. Surv. – 2025. – Vol. 1, No. 1. – July. – 35 p. DOI: 10.1145/XXXXXXX.XXXXXXX.

8. Dialectal diversity and its effect on the language model landscape // Appen blog. – URL: https://www.appen.com/blog/pulseoflanguageevolution (дата обращения: 10.03.2025).

9. Fine-tuning MMS adapter models for multi-lingual ASR // Hugging Face Blog. – URL: https://huggingface.co/blog/mmsadapters. (дата обращения: 08.04.2025).

10. Hou W. Exploiting adapters for cross-lingual low-resource speech recognition / W. Hou [et al.] // IEEE/ACM Transactions on Audio, Speech, and Language Processing. – 2021.

11. Pratap V. Scaling speech technology to 1,000+ languages / V. Pratap [et al.] // Journal of Machine Learning Research. – 2024.

12. Protasov V. Super donors and super recipients: studying cross-lingual transfer between high-resource and low-resource languages / V. Protasov [et al.] // Proceedings of the Seventh Workshop on Technologies for Machine Translation of Low-Resource Languages. – 2024. – Pp. 94-108.

13. Supriyono A. Advancements in Natural Language Processing: Implications, Challenges, and Future Directions / A. Supriyono [et al.] // Telematics and Informatics Reports. – 2024. – Vol. 16. – Art. no. 100173. DOI: 10.1016/j.teler.

14. Transfer learning with Keras // Neurohive.io. – URL: https://neurohive.io/ru/tutorial/transfer-learningkeras (дата обращения: 23.02.2025).

15. Latif S. Transformers in Speech Processing: A Survey / S. Latif [et al.] // 2023. – URL: https://arxiv.org/abs/2303.11607.

16. Babu A. XLS-R: SelfSupervised Cross-Lingual Speech Representation Learning at Scale / A. Babu [et al.] // Proc. Interspeech. – 2022. – Pp. 2278-2282.

17. Xue L. MT5: A Massively Multilingual PreTrained TexttoText Transformer / L. Xue [et al.] // ArXiv preprint arXiv:2010.11934. – 2020.

Все журналы

Отправить статью

Научный результат. Информационные технологии включен в научную базу РИНЦ (лицензионный договор № 765-12/2014 от 08.12.2014).

Журнал включен в перечень рецензируемых научных изданий, рекомендуемых ВАК

Журнал индексируется следующими научными базами и платформами

Научный результат. Научный результат. Информационные технологии (ISSN 2518-1092)

The journal materials and website are licensed under Creative Commons «Attribution» 4.0 International.

Учредитель: федеральное государственное автономное образовательное учреждение высшего образования «Белгородский государственный национальный исследовательский университет» (НИУ «БелГУ»). Адрес: 308015, Белгородская область, г. Белгород, ул. Победы, 85.

Издатель: федеральное государственное автономное образовательное учреждение высшего образования «Белгородский государственный национальный исследовательский университет» (НИУ «БелГУ»). Адрес: 308015, Белгородская область, г. Белгород, ул. Победы, 85.

Редакция: главный редактор Черноморец Андрей Алексеевич, e-mail: RR_IT@bsuedu.ru, тел.: +7 (4722) 30-13-92.

Зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор)

Свидетельство о регистрации СМИ

Информационное письмо (русс. яз)

Приказ № 1097-ОД от 15.11.2023 "Об утверждении Регламента издания научных журналов НИУ «БелГУ»"

Приказ № 144-ОД от 16.03.2026 "Об утверждении состава редакционной коллегии журнала «Научный результат. Информационные технологии»"

Приказ № 145-ОД от 16.03.2026 "Об утверждении Устава редакции средства массовой информации научного журнала «Научный результат. Информационные технологии»"

Устав редакции средства массовой информации «Научный результат. Информационные технологии»

Остались вопросы?
Можете написать нам:

✉ Ответственный cекретарь

✉ Администратор сайта

✉ Контент менеджер