<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.2 20190208//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
<article article-type="research-article" dtd-version="1.2" xml:lang="ru" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink"><front><journal-meta><journal-id journal-id-type="issn">2518-1092</journal-id><journal-title-group><journal-title>Научный результат. Информационные технологии</journal-title></journal-title-group><issn pub-type="epub">2518-1092</issn></journal-meta><article-meta><article-id pub-id-type="doi">10.18413/2518-1092-2021-6-1-0-5</article-id><article-id pub-id-type="publisher-id">2374</article-id><article-categories><subj-group subj-group-type="heading"><subject>ИНФОРМАЦИОННЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ</subject></subj-group></article-categories><title-group><article-title>СРАВНИТЕЛЬНЫЙ АНАЛИЗ ФОРМАТОВ ХРАНЕНИЯ ТЕКСТОВЫХ ДАННЫХ ДЛЯ ДАЛЬНЕЙШЕЙ ОБРАБОТКИ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ</article-title><trans-title-group xml:lang="en"><trans-title>COMPARATIVE ANALYSIS OF TEXT DATA STORAGE FORMATS FOR FURTHER PROCESSING BY METHODS OF MACHINE LEARNING</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Наумов</surname><given-names>Руслан Кириллович</given-names></name><name xml:lang="en"><surname>Naumov</surname><given-names>Ruslan Kirillovich</given-names></name></name-alternatives><email>ruslan.naumow.dake@gmail.com</email></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Железков</surname><given-names>Никита Эдуардович</given-names></name><name xml:lang="en"><surname>Zhelezkov</surname><given-names>Nikita Eduardovich</given-names></name></name-alternatives><email>nikita.e.zhelezkov@gmail.com</email></contrib></contrib-group><pub-date pub-type="epub"><year>2021</year></pub-date><volume>6</volume><issue>1</issue><fpage>0</fpage><lpage>0</lpage><self-uri content-type="pdf" xlink:href="/media/information/2021/1/ИТ_5.pdf" /><abstract xml:lang="ru"><p>На сегодняшний день одним из перспективных направлений в области информационных технологий является машинное обучение. Оно используется во многих сферах деятельности, в том числе и в анализе текстовых данных. Между этапами сбора данных и их анализом располагается этап хранения данных. Одним из вопросов, требующих тщательного рассмотрения, является выбор формата хранения этих данных. Настоящая статья представляет собой обзор наиболее популярных форматов хранения текстовых данных, используемых в машинном обучении. Определены критерии, по которым произведено сравнение. Результатом работы является сравнительная таблица анализируемых форматов. Исходя из результатов, сделан вывод о наиболее эффективном способе хранения текстовых данных</p></abstract><trans-abstract xml:lang="en"><p>Today, one of the most promising areas in the field of information technology is machine learning. It is used in many areas of activity, including text data analysis. Between the data collection and analysis stages, there is a data storage stage. One of the issues that requires careful consideration is the choice of storage format for this data. This article provides an overview of the most popular text data storage formats used in machine learning. The criteria for the comparison are determined. The result of the work is a comparative table of the analyzed formats. Based on the results, a conclusion is made about the most efficient way to store text data</p></trans-abstract><kwd-group xml:lang="ru"><kwd>машинное обучение</kwd><kwd>текстовые данные</kwd><kwd>текстовые форматы</kwd><kwd>сериализация данных</kwd></kwd-group><kwd-group xml:lang="en"><kwd>machine learning</kwd><kwd>text data</kwd><kwd>text formats</kwd><kwd>data serialization</kwd></kwd-group></article-meta></front><back><ref-list><title>Список литературы</title><ref id="B1"><mixed-citation>Извлечение информации из разноструктурированных данных и её приведение к целевой схеме / Брюхов Д.О., Ступников С.А., Калиниченко Л.А., Вовченко А.Е. // Selected Papers of the XVII International Conference on Data Analytics and Management in Data Intensive Domains. 2015. С. 81&amp;ndash;90.</mixed-citation></ref><ref id="B2"><mixed-citation>Бедарев Н.В., Войнов А.А. Тексты на естественном языке и методы извлечения структурированных данных // Международная научно-технологическая конференция студентов и молодых ученых &amp;laquo;Молодёжь. Наука. Технологии&amp;raquo;. 2018. №2. С. 37-42.</mixed-citation></ref><ref id="B3"><mixed-citation>Борисов А.В. Современные решения и подходы к обработке массивов неструктурированной текстовой информации в области больших данных // Проблемы современной науки и образования. 2017. С.&amp;nbsp;49-52.</mixed-citation></ref><ref id="B4"><mixed-citation>Петрова И.Ю., Горянин С.В. Информационно-аналитическая система EcoHealth для хранения и анализа структурированных и неструктурированных больших данных // Инженерно-строительный вестник Прикаспия: научно-технический журнал 2017. № 3 (21). С. 66&amp;ndash;71.</mixed-citation></ref><ref id="B5"><mixed-citation>Погодин Г.В., Фиго Д.М., Васильев Э. Н. Сериализации структур данных для хранения и передачи в информационных системах. Методы и средства // &amp;laquo;Молодежь в науке&amp;raquo;.&amp;nbsp; Cборник докладов 16-й научно-технической конференции. 2017. №2. C. 231-236.</mixed-citation></ref><ref id="B6"><mixed-citation>CSV URL: https://ru.wikipedia.org/wiki/CSV (дата обращения: 11.12.2020).</mixed-citation></ref><ref id="B7"><mixed-citation>Самойленко Н. Python для сетевых инженеров Выпуск 3.0. URL: https://pyneng.readthedocs.io/_/downloads/ru/latest/pdf/ (дата обращения: 12.12.2020)</mixed-citation></ref><ref id="B8"><mixed-citation>Extensible Markup Language (XML) URL: https://www.w3.org/XML/ (дата обращения: 12.12.2020).</mixed-citation></ref><ref id="B9"><mixed-citation>Канаев К.А., Фалеева Е.В., Пономарчук Ю.В. Сравнительный анализ форматов обмена данными, используемых в приложениях с клиент-серверной архитектурой // Фундаментальные исследования. &amp;ndash; 2015. &amp;ndash; № 2-25. &amp;ndash; С. 5569-5572.</mixed-citation></ref><ref id="B10"><mixed-citation>Пилигрим М. Погружение в Python 3. 2010.</mixed-citation></ref><ref id="B11"><mixed-citation>Сучкова Е.А., Николаева Ю.В. Разработка оптимальной структуры хранения данных для систем поддержки принятия решений // Кибернетика и программирование. &amp;ndash; 2016. № 4. С. 58-64.</mixed-citation></ref><ref id="B12"><mixed-citation>Романов A.C. Модель базы данных для хранения текстов и их характеристик // Доклады Томского государственного университета систем управления и радиоэлектроники. 2008. №1. С. 70-73.</mixed-citation></ref><ref id="B13"><mixed-citation>Шевелев О.Г. Представление набора текстов в реляционной базе данных для целей лингвистического анализа. 2004.</mixed-citation></ref><ref id="B14"><mixed-citation>Довбенко А.В. Хранение данных в NoSQL системах на примере MongoDB. 2015.</mixed-citation></ref><ref id="B15"><mixed-citation>Коротеев М.В., Коротеев К.М. Обзор некоторых современных тенденций в технологии машинного обучения // E-Management. 2018. С. 26-35.</mixed-citation></ref><ref id="B16"><mixed-citation>Руйчeвa A.П. Развитие машинного обучения // Современные технологии в образовании: материалы международной научно-практической конференции. 2017. Ч. 1. С. 232-237.</mixed-citation></ref><ref id="B17"><mixed-citation>Mison: A Fast JSON Parser for Data Analytics / Li, Yinan, Katsipoulakis N., Chandramouli, B., Goldstein J., Kossman D. 2017.</mixed-citation></ref><ref id="B18"><mixed-citation>Савин И.В. Анализ систем хранения данных // Известия Тульского государственного университета Технические науки. 2019. С. 193-196.</mixed-citation></ref><ref id="B19"><mixed-citation>Басов О.О., Саитов И.А. Основные каналы межличностной коммуникации и их проекция на инфокоммуникационные системы // Труды СПИИРАН. (7), С. 122&amp;ndash;140.</mixed-citation></ref><ref id="B20"><mixed-citation>Растет популярность Python открытые системы. М.: Открытые системы, 2019. С. 5-11.</mixed-citation></ref><ref id="B21"><mixed-citation>Langdale G., Lemire D. Parsing gigabytes of JSON per second // The VLDB Journal: The International Journal on Very Large Data Bases. 2019. 28(6). pp. 941.</mixed-citation></ref></ref-list></back></article>