<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.2 20190208//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
<article article-type="research-article" dtd-version="1.2" xml:lang="ru" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink"><front><journal-meta><journal-id journal-id-type="issn">2518-1092</journal-id><journal-title-group><journal-title>Научный результат. Информационные технологии</journal-title></journal-title-group><issn pub-type="epub">2518-1092</issn></journal-meta><article-meta><article-id pub-id-type="doi">10.18413/2518-1092-2021-6-1-0-2</article-id><article-id pub-id-type="publisher-id">2371</article-id><article-categories><subj-group subj-group-type="heading"><subject>ИНФОРМАЦИОННЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ</subject></subj-group></article-categories><title-group><article-title>РЕАЛИЗАЦИЯ АЛГОРИТМА ДЕТЕКТИРОВАНИЯ АКТИВНОСТИ РЕЧИ ПРИ ПРОВЕДЕНИИ ПАРАЛИНГВИСТИЧЕСКОГО АНАЛИЗА</article-title><trans-title-group xml:lang="en"><trans-title>IMPLEMENTATION OF THE SPEECH ACTIVITY DETECTING ALGORITHM AT CONDUCTING PARALINGUISTIC ANALYSIS</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Дьяченко</surname><given-names>Анна Витальевна</given-names></name><name xml:lang="en"><surname>Diachenko</surname><given-names>Anna Vitalievna</given-names></name></name-alternatives><email>ayrimur@mail.ru</email></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Подольский</surname><given-names>Дмитрий Анатольевич</given-names></name><name xml:lang="en"><surname>Podolsky</surname><given-names>Dmitry Anatolievich</given-names></name></name-alternatives><email>podolsky.dmitry94@gmail.com</email></contrib></contrib-group><pub-date pub-type="epub"><year>2021</year></pub-date><volume>6</volume><issue>1</issue><fpage>0</fpage><lpage>0</lpage><self-uri content-type="pdf" xlink:href="/media/information/2021/1/ИТ_2.pdf" /><abstract xml:lang="ru"><p>В настоящее время широко распространены алгоритмы детектирования активности речи. Такие алгоритмы нашли применение в различных задачах: при передаче речевого потока человека, в хранении информации (для компрессии аудиозаписей), для распознавания состояния человека при паралингвистическом анализе и т.д. Задача данной работы заключается в разработке и реализации алгоритма детектирования активности речи человека в программной среде Csound. На сегодняшний день уже существует ряд методов для распознавания речевой активности человека, такие как алгоритм определения скорости, метод адаптивного многоскоростного детектирования речи, метод, основанный на анализе спектральной формы и энергии поддиапазонов и т.д. [13, 16, 17], однако, на данный момент, указанные алгоритмы не были реализованы в среде Csound. В данной статье категоризированы признаки речи, описан реализованный алгоритм детектирования активности речи, а именно определения пауз паралингвистического анализа речевого аудио с использованием преобразования Гильберта, что уменьшает сложность алгоритма, сохраняя его точность. Целью данной работы является модификация и реализация алгоритма обнаружения речевой активности в помещении на основе речевого потока в среде Csound для проведения паралингвистического анализа речевой активности человека.</p></abstract><trans-abstract xml:lang="en"><p>Algorithms for the speech activity detecting are now widely used. Such algorithms are used in various tasks: transmitting a human speech stream, storing information for compressing audio recordings, for recognizing a person&amp;#39;s state in the paralinguistic analysis, etc. The goal of this work is to develop and implement an algorithm for detecting human speech activity using the Csound software environment. Recently, there are already a number of methods for human speech activity recognition, such as the speed determination algorithm, the adaptive multi rate speech detection method, the method based on the analysis of the spectral shape and energy of subbands, etc. [13, 16, 17], however, at the moment, these algorithms haven&amp;#39;t been implemented in the Csound environment. This article categorizes speech features, describes an implemented algorithm for detecting speech activity, namely, determining pauses in paralinguistic analysis of speech audio using the Hilbert transform, which reduces the complexity of the algorithm, while maintaining its accuracy. The aim of this work is to modify and implement an algorithm for detecting speech activity in a room based on the speech flow in the Csound environment for conducting paralinguistic analysis of human speech activity.</p></trans-abstract><kwd-group xml:lang="ru"><kwd>детектор активности речи</kwd><kwd>Csound</kwd><kwd>паралингвистический анализ</kwd><kwd>активность речи</kwd></kwd-group><kwd-group xml:lang="en"><kwd>voice activity detection</kwd><kwd>Csound</kwd><kwd>paralinguistic analysis</kwd><kwd>speech activity</kwd></kwd-group></article-meta></front><back><ref-list><title>Список литературы</title><ref id="B1"><mixed-citation>Айвазян О.О. Вербальная и невербальная коммуникация, как факторы развития речи // Конференция &amp;quot;Стратегические направления устойчивого развития социально-экономической политики южного региона&amp;quot;. Майкоп, 2012.</mixed-citation></ref><ref id="B2"><mixed-citation>Басов О.О., Карпов А.А., Саитов И.А. Методологические основы синтеза полимодальных инфокоммуникационных систем государственного управления. Орёл: Академия ФСО России, &amp;ndash; 2015. &amp;ndash; 271&amp;nbsp;с.</mixed-citation></ref><ref id="B3"><mixed-citation>Василик. М.А. Пара- и экстралингвистические особенности невербальной коммуникации // Элитариум, 2018. URL: www.elitarium.ru/neverbalnoe-obshhenie-temp-rech-golos-informacija-kommunikacija-intonacija-vnimanie (дата обращения: 16.12.2020).</mixed-citation></ref><ref id="B4"><mixed-citation>Величко А.Н., Будков В.Ю., Карпов А.А. Аналитический обзор компьютерных паралингвистических систем для автоматического распознавания лжи в речи человека // Информационно-управляющие системы. &amp;ndash; 2017. &amp;ndash; №5(90). &amp;ndash; С. 30-41.</mixed-citation></ref><ref id="B5"><mixed-citation>Вердербер, Р., К. Вердербер. Психология общения: Тайны эффектив. Взаимодействия. М.: Прайм-ЕВРОЗНАК: Олма-Пресс, 2003. &amp;ndash; 320 с.</mixed-citation></ref><ref id="B6"><mixed-citation>Карпов А.А., Кайа Х., Салах А.А. Актуальные задачи и достижения систем паралингвистического анализа речи // Научно-технический вестник информационных технологий, механики и оптики. &amp;ndash; 2016. &amp;ndash; Т. 16. &amp;ndash; № 4. &amp;ndash; С. 581&amp;ndash;592.</mixed-citation></ref><ref id="B7"><mixed-citation>Потапова Р.К., Бобров Н.В. Основные тренды в развитии междисциплинарной концепции &amp;ldquo;Анализ-синтез-анализ речи&amp;rdquo; // Математические методы в технике и технологиях. &amp;ndash; 2019. &amp;ndash; Т.7. &amp;ndash;</mixed-citation></ref><ref id="B8"><mixed-citation>С. 124-129.</mixed-citation></ref><ref id="B9"><mixed-citation>Практический алгоритм определения темпа речи для использования в контактцентрах / Никифоров С.Н., Никифоров Д.С., Виторский И.И., Танюкевич М.С. // Речевые технологии. &amp;ndash; 2020. &amp;ndash; №&amp;nbsp;1.&amp;nbsp;&amp;ndash; С. 6-12.</mixed-citation></ref><ref id="B10"><mixed-citation>Симончик К.К., Галинина О.С., Капустин А.И. Алгоритм обнаружения речевой активности на основе статистик основного тона в задаче распознавания диктора // Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. Информатика, телекоммуникации и управление. &amp;ndash; 2010. &amp;ndash; №4(103). &amp;ndash; С. 23-31.</mixed-citation></ref><ref id="B11"><mixed-citation>Чухрова М.Г. Взаимосвязь психоэмоционального состояния младших школьников и их голосоречевых характеристик // Наука и социум / Мат. Всерос. Науч.- практ. конф. с междунар. участием. 1 марта 2018 г. &amp;ndash; Новосибирск: ЧУДПО 2018. &amp;ndash; С. 99-104.</mixed-citation></ref><ref id="B12"><mixed-citation>Шелухин О.И., Лукьянцев В.Г. Цифровая обработка и передача речи. М.: Радио и связь, 2000. &amp;ndash; 456 с.</mixed-citation></ref><ref id="B13"><mixed-citation>Волченков В.А., Витязев В.В. Методы и алгоритмы использования детектирования активности речи // Цифровая обработка сигналов. &amp;ndash; 2013. &amp;ndash; №1. &amp;ndash; С. 54-60.</mixed-citation></ref><ref id="B14"><mixed-citation>Adil Benyassine, H.Y. Eyal Shlomot, Dominique Massaloux Su. Silence compression scheme for use with g. 729 // Digital simultaneous voice and data applications IEEE Commun. Mag., 1997. &amp;ndash; №35(9). &amp;ndash; P. 64-73.</mixed-citation></ref><ref id="B15"><mixed-citation>Boulanger R. The Csound Book: Perspectives in Software Synthesis, Sound Design, Signal Processing, and Programming. Cambridge: MIT Press, 2000. &amp;ndash; 782 p.</mixed-citation></ref><ref id="B16"><mixed-citation>Kondoz A.M. Digital Speech. Coding for Low Bit Rate Communication Systems. John Wiley &amp;amp; Sons, Ltd. 2004. &amp;ndash; 442 p.</mixed-citation></ref><ref id="B17"><mixed-citation>Prasad R. Comparison of Voice Activity Detection Algorithms for VoIP // In proc. 7th IEEE symp. on Computer science. 2005. &amp;ndash; p. 567-576.</mixed-citation></ref><ref id="B18"><mixed-citation>Sunil Kumar S.B., Sreenivasa Rao K. Voice/non-voice detection using phase of zero frequency filtered speech signal // Speech Communication. &amp;ndash; 2016. &amp;ndash; №81. &amp;ndash; P. 90-103.</mixed-citation></ref><ref id="B19"><mixed-citation>Vercoe B. Csound: A Manual for the Audio-Processing System. MIT Media Lab, 1995. &amp;ndash; 341p.</mixed-citation></ref></ref-list></back></article>