<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.2 20190208//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
<article article-type="research-article" dtd-version="1.2" xml:lang="ru" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink"><front><journal-meta><journal-id journal-id-type="issn">2518-1092</journal-id><journal-title-group><journal-title>Научный результат. Информационные технологии</journal-title></journal-title-group><issn pub-type="epub">2518-1092</issn></journal-meta><article-meta><article-id pub-id-type="doi">10.18413/2518-1092-2026-11-1-0-3</article-id><article-id pub-id-type="publisher-id">4097</article-id><article-categories><subj-group subj-group-type="heading"><subject>ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И ПРИНЯТИЕ РЕШЕНИЙ</subject></subj-group></article-categories><title-group><article-title>&lt;strong&gt;АРХИТЕКТУРА СИСТЕМЫ ASR ДЛЯ АГГЛЮТИНАТИВНЫХ ЯЗЫКОВ С ОГРАНИЧЕННЫМИ РЕСУРСАМИ&lt;/strong&gt;</article-title><trans-title-group xml:lang="en"><trans-title>&lt;strong&gt;SYSTEM ARCHITECTURE FOR ASR OF AGGLUTINATIVE LOW-RESOURCE LANGUAGES&lt;/strong&gt;</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Тимченко</surname><given-names>Ольга Викторовна</given-names></name><name xml:lang="en"><surname>Timchenko</surname><given-names>Olga Viktorovna</given-names></name></name-alternatives><email>gorbachenkotim@mail.ru</email></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Алексеева</surname><given-names>Дарья Константиновна</given-names></name><name xml:lang="en"><surname>Alekseeva</surname><given-names>Darya Konstantinovna</given-names></name></name-alternatives><email>dashaalekseeva08.20@gmail.com</email></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Абрегова</surname><given-names>Залина Хамидбиевна</given-names></name><name xml:lang="en"><surname>Abregova</surname><given-names>Zalina Khamidbievna</given-names></name></name-alternatives><email>zalinaabregova@mail.ru</email></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Гречко</surname><given-names>Валерия Андреевна</given-names></name><name xml:lang="en"><surname>Grechko</surname><given-names>Valeriya Andreevna</given-names></name></name-alternatives><email>Lera197689@yandex.ru</email></contrib></contrib-group><pub-date pub-type="epub"><year>2026</year></pub-date><volume>11</volume><issue>1</issue><fpage>0</fpage><lpage>0</lpage><self-uri content-type="pdf" xlink:href="/media/information/2026/1/НР.ИТ_11.1_3.pdf" /><abstract xml:lang="ru"><p>Актуальность темы исследования обусловлена необходимостью преодоления цифрового неравенства, которое особенно остро проявляется в отношении малоресурсных языков. В то время как носители распространенных языков активно пользуются голосовыми помощниками, системами транскрибации и другими речевыми технологиями, малочисленные коренные народы остаются за бортом цифрового прогресса. Это неравенство лишает людей доступа к современным средствам коммуникации, образования и информации на родном языке, что ведет к их дальнейшей маргинализации и ускоряет процесс языкового вымирания. Разработка специализированных решений для автоматического распознавания речи (ASR) в условиях ограниченных данных является ключевым шагом на пути расширения технологической доступности. В статье рассматривается проблема разработки систем автоматического распознавания речи (ASR) для малоресурсных языков, в частности, кабардинского. Представлен комплексный подход, включающий адаптацию массово многоязычной модели MMS (Massively Multilingual Speech), предобработку данных, а также разработку и интеграцию языковых моделей для постобработки. Основное внимание уделено архитектуре модели MMS, основанной на Wav2Vec 2.0, и её модификации с использованием языково-специфических адаптеров (LSAH), что позволяет эффективно дообучать модель на ограниченных наборах данных. Описаны этапы предобработки аудио и текстовых данных. Рассмотрены архитектуры и результаты применения n-граммных (3-gram, 5-gram) и нейросетевой (mT5-base) языковых моделей для коррекции ошибок в выводе ASR. Практическая значимость работы подтверждена созданием рабочей open-source системы с веб-интерфейсом на платформе Hugging Face Spaces, демонстрирующей возможность построения эффективных ASR-решений для миноритарных языков.</p></abstract><trans-abstract xml:lang="en"><p>The relevance of the research is driven by the need to overcome the digital divide, which is particularly acute for low-resource languages. While speakers of widely spoken languages actively use voice assistants, transcription systems, and other speech technologies, small indigenous peoples are left behind in the digital progress. This inequality deprives people of access to modern means of communication, education, and information in their native language, leading to their further marginalization and accelerating the process of language extinction. The development of specialized solutions for automatic speech recognition (ASR) under low-resource conditions is a key step towards expanding technological accessibility. The article addresses the problem
of developing automatic speech recognition (ASR) systems for low-resource languages, specifically Kabardian. It presents a comprehensive approach, including the adaptation of the Massively Multilingual Speech (MMS) model, data preprocessing, as well as the development and integration of language models for post-processing. The main focus is on the MMS model architecture, based on Wav2Vec 2.0, and its modification using Language-Specific Adapter Heads (LSAH), which enables efficient fine-tuning of the model on limited datasets. The stages of audio and text data preprocessing are described. The architectures and results of applying n-gram (3-gram, 5-gram) and neural network (mT5-base) language models for correcting errors in the ASR output are considered. The practical significance of the work is confirmed by the creation of a functional open-source system with a web interface on the Hugging Face Spaces platform, demonstrating the feasibility of building effective ASR solutions for minority languages.</p></trans-abstract><kwd-group xml:lang="ru"><kwd>автоматическое распознавание речи (ASR)</kwd><kwd>малоресурсные языки</kwd><kwd>кабардинский язык</kwd><kwd>MMS (Massively Multilingual Speech)</kwd><kwd>Wav2Vec 2.0</kwd><kwd>адаптеры</kwd><kwd>языковые модели</kwd><kwd>постобработка</kwd><kwd>n-граммы</kwd><kwd>mT5</kwd></kwd-group><kwd-group xml:lang="en"><kwd>automatic speech recognition (ASR)</kwd><kwd>low-resource languages</kwd><kwd>Kabardian language</kwd><kwd>MMS (Massively Multilingual Speech)</kwd><kwd>Wav2Vec 2.0</kwd><kwd>adapters</kwd><kwd>language models</kwd><kwd>post-processing</kwd><kwd>n-grams</kwd><kwd>mT5</kwd></kwd-group></article-meta></front><back><ref-list><title>Список литературы</title><ref id="B1"><mixed-citation>1. Алексеева Д.К. Технологии автоматического распознавания речи на малоресурсных миноритарных языках Северного Кавказа / Д.К. Алексеева, О.В. Тимченко // Наукосфера. &amp;ndash; 2024.</mixed-citation></ref><ref id="B2"><mixed-citation>2. Кипяткова И.С., Кагиров, И.А. Система автоматического распознавания карельской речи / И.С.&amp;nbsp;Кипяткова, И.А. Кагирова // Информационно-управляющие системы. &amp;ndash; 2023. &amp;ndash; Т. 3. &amp;ndash; С. 16-25.</mixed-citation></ref><ref id="B3"><mixed-citation>3. Кузьмин Е.И. Современные проблемы сохранения и развития миноритарных языков в условиях многоязычия в России и в мире: пути решения и перспективы / Е.И. Кузьмин // Университетская книга. &amp;ndash; 2022. &amp;ndash; URL: https://www.unkniga.ru/kultura/13442-sovremennye-problemysohraneniya-i-razvitiyaminoritarnyh-yazykov-v-usloviyahmnogoyazychiya.html.</mixed-citation></ref><ref id="B4"><mixed-citation>4. Orken M. Study of transformer-based end-to-end speech recognition system for Kazakh language / M.&amp;nbsp;Orken, O. Dina, A. Keylan [et al.] // Sci Rep. &amp;ndash; 2022. &amp;ndash; Vol. 12. &amp;ndash; Pp. 8337.</mixed-citation></ref><ref id="B5"><mixed-citation>5. Baevski A. Wav2vec 2.0: a framework for self-supervised learning of speech representations / A. Baevski [et al.] // Advances in Neural Information Processing Systems. &amp;ndash; 2020.</mixed-citation></ref><ref id="B6"><mixed-citation>6. Boosting Wav2Vec2 with N-Grams in Transformers // Hugging Face Blog. &amp;ndash; URL: https://huggingface.co/blog/wav2vec2with-ngram (дата обращения: 17.06.2025).</mixed-citation></ref><ref id="B7"><mixed-citation>7. Wang H. Understanding knowledge transferability for transfer learning: a survey / H. Wang [et al.] // ACM Comput. Surv. &amp;ndash; 2025. &amp;ndash; Vol. 1, No. 1. &amp;ndash; July. &amp;ndash; 35 p. DOI: 10.1145/XXXXXXX.XXXXXXX.</mixed-citation></ref><ref id="B8"><mixed-citation>8. Dialectal diversity and its effect on the language model landscape // Appen blog. &amp;ndash; URL: https://www.appen.com/blog/pulseoflanguageevolution (дата обращения: 10.03.2025).</mixed-citation></ref><ref id="B9"><mixed-citation>9. Fine-tuning MMS adapter models for multi-lingual ASR // Hugging Face Blog. &amp;ndash; URL: https://huggingface.co/blog/mmsadapters. (дата обращения: 08.04.2025).</mixed-citation></ref><ref id="B10"><mixed-citation>10. Hou W. Exploiting adapters for cross-lingual low-resource speech recognition / W. Hou [et al.] // IEEE/ACM Transactions on Audio, Speech, and Language Processing. &amp;ndash; 2021.</mixed-citation></ref><ref id="B11"><mixed-citation>11. Pratap V. Scaling speech technology to 1,000+ languages / V. Pratap [et al.] // Journal of Machine Learning Research. &amp;ndash; 2024.</mixed-citation></ref><ref id="B12"><mixed-citation>12. Protasov V. Super donors and super recipients: studying cross-lingual transfer between high-resource and low-resource languages / V. Protasov [et al.] // Proceedings of the Seventh Workshop on Technologies for Machine Translation of Low-Resource Languages. &amp;ndash; 2024. &amp;ndash; Pp. 94-108.</mixed-citation></ref><ref id="B13"><mixed-citation>13. Supriyono A. Advancements in Natural Language Processing: Implications, Challenges, and Future Directions / A. Supriyono [et al.] // Telematics and Informatics Reports. &amp;ndash; 2024. &amp;ndash; Vol. 16. &amp;ndash; Art. no. 100173. DOI: 10.1016/j.teler.</mixed-citation></ref><ref id="B14"><mixed-citation>14. Transfer learning with Keras // Neurohive.io. &amp;ndash; URL: https://neurohive.io/ru/tutorial/transfer-learningkeras (дата обращения: 23.02.2025).</mixed-citation></ref><ref id="B15"><mixed-citation>15. Latif S. Transformers in Speech Processing: A Survey / S. Latif [et al.] // 2023. &amp;ndash; URL: https://arxiv.org/abs/2303.11607.</mixed-citation></ref><ref id="B16"><mixed-citation>16. Babu A. XLS-R: SelfSupervised Cross-Lingual Speech Representation Learning at Scale / A. Babu [et al.]&amp;nbsp;// Proc. Interspeech. &amp;ndash; 2022. &amp;ndash; Pp. 2278-2282.</mixed-citation></ref><ref id="B17"><mixed-citation>17. Xue L. MT5: A Massively Multilingual PreTrained TexttoText Transformer / L. Xue [et al.] // ArXiv preprint arXiv:2010.11934. &amp;ndash; 2020.</mixed-citation></ref></ref-list></back></article>