АРХИТЕКТУРА СИСТЕМЫ ASR ДЛЯ АГГЛЮТИНАТИВНЫХ ЯЗЫКОВ С ОГРАНИЧЕННЫМИ РЕСУРСАМИ
Актуальность темы исследования обусловлена необходимостью преодоления цифрового неравенства, которое особенно остро проявляется в отношении малоресурсных языков. В то время как носители распространенных языков активно пользуются голосовыми помощниками, системами транскрибации и другими речевыми технологиями, малочисленные коренные народы остаются за бортом цифрового прогресса. Это неравенство лишает людей доступа к современным средствам коммуникации, образования и информации на родном языке, что ведет к их дальнейшей маргинализации и ускоряет процесс языкового вымирания. Разработка специализированных решений для автоматического распознавания речи (ASR) в условиях ограниченных данных является ключевым шагом на пути расширения технологической доступности. В статье рассматривается проблема разработки систем автоматического распознавания речи (ASR) для малоресурсных языков, в частности, кабардинского. Представлен комплексный подход, включающий адаптацию массово многоязычной модели MMS (Massively Multilingual Speech), предобработку данных, а также разработку и интеграцию языковых моделей для постобработки. Основное внимание уделено архитектуре модели MMS, основанной на Wav2Vec 2.0, и её модификации с использованием языково-специфических адаптеров (LSAH), что позволяет эффективно дообучать модель на ограниченных наборах данных. Описаны этапы предобработки аудио и текстовых данных. Рассмотрены архитектуры и результаты применения n-граммных (3-gram, 5-gram) и нейросетевой (mT5-base) языковых моделей для коррекции ошибок в выводе ASR. Практическая значимость работы подтверждена созданием рабочей open-source системы с веб-интерфейсом на платформе Hugging Face Spaces, демонстрирующей возможность построения эффективных ASR-решений для миноритарных языков.
Тимченко О.В., Алексеева Д.К., Абрегова З.Х., Гречко В.А. Архитектура системы ASR для агглютинативных языков с ограниченными ресурсами // Научный результат. Информационные технологии. – Т.11, №1, 2026. – С. 20-28. DOI: 10.18413/2518-1092-2026-11-1-0-3
















Пока никто не оставил комментариев к этой публикации.
Вы можете быть первым.
1. Алексеева Д.К. Технологии автоматического распознавания речи на малоресурсных миноритарных языках Северного Кавказа / Д.К. Алексеева, О.В. Тимченко // Наукосфера. – 2024.
2. Кипяткова И.С., Кагиров, И.А. Система автоматического распознавания карельской речи / И.С. Кипяткова, И.А. Кагирова // Информационно-управляющие системы. – 2023. – Т. 3. – С. 16-25.
3. Кузьмин Е.И. Современные проблемы сохранения и развития миноритарных языков в условиях многоязычия в России и в мире: пути решения и перспективы / Е.И. Кузьмин // Университетская книга. – 2022. – URL: https://www.unkniga.ru/kultura/13442-sovremennye-problemysohraneniya-i-razvitiyaminoritarnyh-yazykov-v-usloviyahmnogoyazychiya.html.
4. Orken M. Study of transformer-based end-to-end speech recognition system for Kazakh language / M. Orken, O. Dina, A. Keylan [et al.] // Sci Rep. – 2022. – Vol. 12. – Pp. 8337.
5. Baevski A. Wav2vec 2.0: a framework for self-supervised learning of speech representations / A. Baevski [et al.] // Advances in Neural Information Processing Systems. – 2020.
6. Boosting Wav2Vec2 with N-Grams in Transformers // Hugging Face Blog. – URL: https://huggingface.co/blog/wav2vec2with-ngram (дата обращения: 17.06.2025).
7. Wang H. Understanding knowledge transferability for transfer learning: a survey / H. Wang [et al.] // ACM Comput. Surv. – 2025. – Vol. 1, No. 1. – July. – 35 p. DOI: 10.1145/XXXXXXX.XXXXXXX.
8. Dialectal diversity and its effect on the language model landscape // Appen blog. – URL: https://www.appen.com/blog/pulseoflanguageevolution (дата обращения: 10.03.2025).
9. Fine-tuning MMS adapter models for multi-lingual ASR // Hugging Face Blog. – URL: https://huggingface.co/blog/mmsadapters. (дата обращения: 08.04.2025).
10. Hou W. Exploiting adapters for cross-lingual low-resource speech recognition / W. Hou [et al.] // IEEE/ACM Transactions on Audio, Speech, and Language Processing. – 2021.
11. Pratap V. Scaling speech technology to 1,000+ languages / V. Pratap [et al.] // Journal of Machine Learning Research. – 2024.
12. Protasov V. Super donors and super recipients: studying cross-lingual transfer between high-resource and low-resource languages / V. Protasov [et al.] // Proceedings of the Seventh Workshop on Technologies for Machine Translation of Low-Resource Languages. – 2024. – Pp. 94-108.
13. Supriyono A. Advancements in Natural Language Processing: Implications, Challenges, and Future Directions / A. Supriyono [et al.] // Telematics and Informatics Reports. – 2024. – Vol. 16. – Art. no. 100173. DOI: 10.1016/j.teler.
14. Transfer learning with Keras // Neurohive.io. – URL: https://neurohive.io/ru/tutorial/transfer-learningkeras (дата обращения: 23.02.2025).
15. Latif S. Transformers in Speech Processing: A Survey / S. Latif [et al.] // 2023. – URL: https://arxiv.org/abs/2303.11607.
16. Babu A. XLS-R: SelfSupervised Cross-Lingual Speech Representation Learning at Scale / A. Babu [et al.] // Proc. Interspeech. – 2022. – Pp. 2278-2282.
17. Xue L. MT5: A Massively Multilingual PreTrained TexttoText Transformer / L. Xue [et al.] // ArXiv preprint arXiv:2010.11934. – 2020.