<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.2 20190208//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
<article article-type="research-article" dtd-version="1.2" xml:lang="ru" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink"><front><journal-meta><journal-id journal-id-type="issn">2518-1092</journal-id><journal-title-group><journal-title>Научный результат. Информационные технологии</journal-title></journal-title-group><issn pub-type="epub">2518-1092</issn></journal-meta><article-meta><article-id pub-id-type="doi">10.18413/2518-1092-2022-8-3-0-5</article-id><article-id pub-id-type="publisher-id">3225</article-id><article-categories><subj-group subj-group-type="heading"><subject>ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И ПРИНЯТИЕ РЕШЕНИЙ</subject></subj-group></article-categories><title-group><article-title>&lt;strong&gt;КЛАССИФИКАЦИЯ РЕЧЕВЫХ ДАННЫХ&amp;nbsp;ПО ЭМОЦИОНАЛЬНОМУ ФОНУ&lt;/strong&gt;</article-title><trans-title-group xml:lang="en"><trans-title>&lt;strong&gt;CLASSIFICATION OF SPEECH DATA BY EMOTIONAL BACKGROUND&lt;/strong&gt;</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Жихарев</surname><given-names>Александр Геннадиевич</given-names></name><name xml:lang="en"><surname>Zhikharev</surname><given-names>Alexander Gennadievich</given-names></name></name-alternatives><email>zhikharev@bsu.edu.ru</email></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Черных</surname><given-names>Владимир Сергеевич</given-names></name><name xml:lang="en"><surname>Chernykh</surname><given-names>Vladimir Sergeevich</given-names></name></name-alternatives></contrib></contrib-group><pub-date pub-type="epub"><year>2023</year></pub-date><volume>8</volume><issue>3</issue><fpage>0</fpage><lpage>0</lpage><self-uri content-type="pdf" xlink:href="/media/information/2023/3/ИТ_НР_8.3_5_s4Kl0bc.pdf" /><abstract xml:lang="ru"><p>В данной работе рассматривается алгоритм классификации речевых данных по эмоциональному фону, разработанный авторами. В частности, описывается нейронная сеть, созданная с целью распознавания восьми различных эмоций в речи. Для обучения нейронной сети была использована обучающая выборка, полученная из датасета RAVDESS, который содержит 1440 аудиофайлов. Эти аудиофайлы содержат речь 24 актеров (12 женщин и 12 мужчин) с нейтральным североамериканским акцентом.

В работе описывается процесс обучения нейронной сети с использованием библиотеки Keras, включая архитектуру сети, размеры слоев, функции активации и методы оптимизации. Также обсуждаются этапы предварительной обработки и подготовки исходных аудиоданных перед обучением сети.

Полученные результаты исследования показывают, что разработанная нейронная сеть обладает высокой производительностью и способностью распознавать эмоции с точностью 80%.</p></abstract><trans-abstract xml:lang="en"><p>In this paper, the algorithm of classification of speech data by emotional background, developed by the authors, is considered. In particular, it describes a neural network created to recognize eight different emotions in speech. To train the neural network, a training sample obtained from the RAVDESS dataset, which contains 1440 audio files, was used. These audio files contain the speech of 24 actors (12 women and 12 men) with a neutral North American accent.

The paper describes the process of training a neural network using the Keras library, including the network architecture, layer sizes, activation functions and optimization methods. The stages of preprocessing and preparation of the original audio data before training the network are also discussed.

The results of the study show that the developed neural network has high performance and the ability to recognize emotions with an accuracy of 80%.</p></trans-abstract><kwd-group xml:lang="ru"><kwd>аудиопризнаки</kwd><kwd>аудио</kwd><kwd>аудиофайл</kwd><kwd>аудиоданные</kwd><kwd>эмоциональный фон</kwd><kwd>классификация</kwd><kwd>модель</kwd><kwd>слой</kwd></kwd-group><kwd-group xml:lang="en"><kwd>audio attributes</kwd><kwd>audio</kwd><kwd>audio file</kwd><kwd>audio data</kwd><kwd>emotional background</kwd><kwd>classification</kwd><kwd>model</kwd><kwd>layer</kwd></kwd-group></article-meta></front><back><ref-list><title>Список литературы</title><ref id="B1"><mixed-citation>Шолле Ф. Глубокое обучение на Python. 2-е межд. издание. &amp;ndash; СПб.: Питер, 2023. &amp;ndash; 576 с. &amp;ndash; ISBN 978-5-4461-1909-7.</mixed-citation></ref><ref id="B2"><mixed-citation>Han K., Lee K., Kim H.G. Music emotion recognition using chroma feature-based probabilistic neural network. Multimedia Tools and Applications. &amp;ndash; 2017. &amp;ndash; Том №76, Выпуск №3. &amp;ndash; С. 3691-3710.</mixed-citation></ref><ref id="B3"><mixed-citation>Getting to Know the Mel-Spectrogram. [Электронный ресурс] &amp;ndash; Электрон, дан., 2019. &amp;ndash; URL: https://towardsdatascience.com/getting-to-know-the-mel-spectrogram-31bca3e2d9d0</mixed-citation></ref><ref id="B4"><mixed-citation>Graves A., Schmidhuber J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures. Nature. &amp;ndash; 2005. &amp;ndash; Том №18, Выпуск №5-6. &amp;ndash; С. 602-610.</mixed-citation></ref><ref id="B5"><mixed-citation>Understanding LSTM Networks. [Электронный ресурс] &amp;ndash; Электрон, дан., 2015. &amp;ndash; URL: http://colah.github.io/posts/2015-08-Understanding-LSTMs/</mixed-citation></ref></ref-list></back></article>