Список литературы

2518-1092

Научный результат. Информационные технологии

2518-1092

10.18413/2518-1092-2021-6-1-0-5

2374

ИНФОРМАЦИОННЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ

СРАВНИТЕЛЬНЫЙ АНАЛИЗ ФОРМАТОВ ХРАНЕНИЯ ТЕКСТОВЫХ ДАННЫХ ДЛЯ ДАЛЬНЕЙШЕЙ ОБРАБОТКИ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ

COMPARATIVE ANALYSIS OF TEXT DATA STORAGE FORMATS FOR FURTHER PROCESSING BY METHODS OF MACHINE LEARNING

Наумов

Руслан Кириллович

Naumov

Ruslan Kirillovich

ruslan.naumow.dake@gmail.com

Железков

Никита Эдуардович

Zhelezkov

Nikita Eduardovich

nikita.e.zhelezkov@gmail.com

2021

6100

На сегодняшний день одним из перспективных направлений в области информационных технологий является машинное обучение. Оно используется во многих сферах деятельности, в том числе и в анализе текстовых данных. Между этапами сбора данных и их анализом располагается этап хранения данных. Одним из вопросов, требующих тщательного рассмотрения, является выбор формата хранения этих данных. Настоящая статья представляет собой обзор наиболее популярных форматов хранения текстовых данных, используемых в машинном обучении. Определены критерии, по которым произведено сравнение. Результатом работы является сравнительная таблица анализируемых форматов. Исходя из результатов, сделан вывод о наиболее эффективном способе хранения текстовых данных

Today, one of the most promising areas in the field of information technology is machine learning. It is used in many areas of activity, including text data analysis. Between the data collection and analysis stages, there is a data storage stage. One of the issues that requires careful consideration is the choice of storage format for this data. This article provides an overview of the most popular text data storage formats used in machine learning. The criteria for the comparison are determined. The result of the work is a comparative table of the analyzed formats. Based on the results, a conclusion is made about the most efficient way to store text data

машинное обучениетекстовые данныетекстовые форматысериализация данных

machine learningtext datatext formatsdata serialization

Список литературы

Извлечение информации из разноструктурированных данных и её приведение к целевой схеме / Брюхов Д.О., Ступников С.А., Калиниченко Л.А., Вовченко А.Е. // Selected Papers of the XVII International Conference on Data Analytics and Management in Data Intensive Domains. 2015. С. 81–90.

Бедарев Н.В., Войнов А.А. Тексты на естественном языке и методы извлечения структурированных данных // Международная научно-технологическая конференция студентов и молодых ученых «Молодёжь. Наука. Технологии». 2018. №2. С. 37-42.

Борисов А.В. Современные решения и подходы к обработке массивов неструктурированной текстовой информации в области больших данных // Проблемы современной науки и образования. 2017. С. 49-52.

Петрова И.Ю., Горянин С.В. Информационно-аналитическая система EcoHealth для хранения и анализа структурированных и неструктурированных больших данных // Инженерно-строительный вестник Прикаспия: научно-технический журнал 2017. № 3 (21). С. 66–71.

Погодин Г.В., Фиго Д.М., Васильев Э. Н. Сериализации структур данных для хранения и передачи в информационных системах. Методы и средства // «Молодежь в науке».  Cборник докладов 16-й научно-технической конференции. 2017. №2. C. 231-236.

CSV URL: https://ru.wikipedia.org/wiki/CSV (дата обращения: 11.12.2020).

Самойленко Н. Python для сетевых инженеров Выпуск 3.0. URL: https://pyneng.readthedocs.io/_/downloads/ru/latest/pdf/ (дата обращения: 12.12.2020)

Extensible Markup Language (XML) URL: https://www.w3.org/XML/ (дата обращения: 12.12.2020).

Канаев К.А., Фалеева Е.В., Пономарчук Ю.В. Сравнительный анализ форматов обмена данными, используемых в приложениях с клиент-серверной архитектурой // Фундаментальные исследования. – 2015. – № 2-25. – С. 5569-5572.

Пилигрим М. Погружение в Python 3. 2010.

Сучкова Е.А., Николаева Ю.В. Разработка оптимальной структуры хранения данных для систем поддержки принятия решений // Кибернетика и программирование. – 2016. № 4. С. 58-64.

Романов A.C. Модель базы данных для хранения текстов и их характеристик // Доклады Томского государственного университета систем управления и радиоэлектроники. 2008. №1. С. 70-73.

Шевелев О.Г. Представление набора текстов в реляционной базе данных для целей лингвистического анализа. 2004.

Довбенко А.В. Хранение данных в NoSQL системах на примере MongoDB. 2015.

Коротеев М.В., Коротеев К.М. Обзор некоторых современных тенденций в технологии машинного обучения // E-Management. 2018. С. 26-35.

Руйчeвa A.П. Развитие машинного обучения // Современные технологии в образовании: материалы международной научно-практической конференции. 2017. Ч. 1. С. 232-237.

Mison: A Fast JSON Parser for Data Analytics / Li, Yinan, Katsipoulakis N., Chandramouli, B., Goldstein J., Kossman D. 2017.

Савин И.В. Анализ систем хранения данных // Известия Тульского государственного университета Технические науки. 2019. С. 193-196.

Басов О.О., Саитов И.А. Основные каналы межличностной коммуникации и их проекция на инфокоммуникационные системы // Труды СПИИРАН. (7), С. 122–140.

Растет популярность Python открытые системы. М.: Открытые системы, 2019. С. 5-11.

Langdale G., Lemire D. Parsing gigabytes of JSON per second // The VLDB Journal: The International Journal on Very Large Data Bases. 2019. 28(6). pp. 941.