<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.2 20190208//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
<article article-type="research-article" dtd-version="1.2" xml:lang="ru" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink"><front><journal-meta><journal-id journal-id-type="issn">2518-1092</journal-id><journal-title-group><journal-title>Научный результат. Информационные технологии</journal-title></journal-title-group><issn pub-type="epub">2518-1092</issn></journal-meta><article-meta><article-id pub-id-type="doi">10.18413/2518-1092-2026-11-2-0-10</article-id><article-id pub-id-type="publisher-id">4260</article-id><article-categories><subj-group subj-group-type="heading"><subject>КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ</subject></subj-group></article-categories><title-group><article-title>&lt;strong&gt;МЕТОД АДАПТИВНОГО ФОРМИРОВАНИЯ БЛОКОВ&amp;nbsp;И ИНДЕКСАЦИИ НЕСТРУКТУРИРОВАННЫХ ДАННЫХ&amp;nbsp;В ДЕЦЕНТРАЛИЗОВАННЫХ СИСТЕМАХ ХРАНЕНИЯ&lt;/strong&gt;</article-title><trans-title-group xml:lang="en"><trans-title>&lt;strong&gt;METHOD OF ADAPTIVE BLOCK FORMATION&amp;nbsp;AND INDEXING OF UNSTRUCTURED DATA&amp;nbsp;IN DECENTRALIZED STORAGE SYSTEMS&lt;/strong&gt;</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Воскобойников</surname><given-names>Илья Сергеевич</given-names></name><name xml:lang="en"><surname>Voskoboinikov</surname><given-names>Ilia Sergeevich</given-names></name></name-alternatives><email>ilia.voskoboinikov@mail.ru</email></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Гвоздевский</surname><given-names>Игорь Николаевич</given-names></name><name xml:lang="en"><surname>Gvozdevsky</surname><given-names>Igor Nikolaevich</given-names></name></name-alternatives></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Булгаков</surname><given-names>Владислав Дмитриевич</given-names></name><name xml:lang="en"><surname>Bulgakov</surname><given-names>Vladislav Dmitrievich</given-names></name></name-alternatives><email>BulgakovVlad@yandex.ru</email></contrib></contrib-group><pub-date pub-type="epub"><year>2026</year></pub-date><volume>11</volume><issue>2</issue><fpage>0</fpage><lpage>0</lpage><abstract xml:lang="ru"><p>В статье рассматривается задача обработки и индексирования неструктурированных текстовых данных в децентрализованных системах хранения. Проведён анализ существующих подходов, основанных на статических параметрах формирования блоков, выявлены их ограничения, связанные с отсутствием учёта динамических характеристик распределённой среды, что приводит к увеличению сетевой нагрузки и снижению эффективности поиска.

Предложен метод адаптивного формирования блоков и индексирования данных, учитывающий интенсивность входного потока, уровень загрузки сети и количество активных узлов. Описана архитектура системы, включающая модули предобработки, агрегации данных, индексирования и распределённого хранения на основе распределённых хеш-таблиц. Разработана математическая модель и алгоритм, обеспечивающие динамическое управление параметрами формирования блоков.

Проведён теоретический анализ работы алгоритма, показано влияние ключевых параметров системы на процессы формирования блоков. Выполнено сравнение с фиксированным методом, продемонстрированы преимущества адаптивного подхода с точки зрения снижения сетевых издержек, повышения масштабируемости и устойчивости к изменению нагрузки.

Работа может быть использована при разработке распределённых систем хранения, поисковых платформ и систем потоковой обработки данных. Полученные результаты создают основу для дальнейших исследований адаптивных и гибридных методов обработки неструктурированных данных в децентрализованных средах.</p></abstract><trans-abstract xml:lang="en"><p>The paper addresses the problem of processing and indexing unstructured textual data in decentralized storage systems. An analysis of existing approaches based on static block formation parameters is conducted, revealing their limitations related to the lack of consideration of dynamic characteristics of distributed environments, which leads to increased network overhead and reduced search efficiency.

An adaptive method for block formation and data indexing is proposed, taking into account input data rate, network load, and the number of active nodes. The system architecture is described, including modules for data preprocessing, aggregation, indexing, and distributed storage based on distributed hash tables. A mathematical model and an algorithm are developed to provide dynamic control of block formation parameters.

A theoretical analysis of the proposed algorithm is performed, demonstrating the influence of key system parameters on block formation. A comparison with a fixed block formation method is presented, showing the advantages of the adaptive approach in terms of reduced network costs, improved scalability, and robustness under varying load conditions.

The proposed method can be applied in the design of distributed storage systems, decentralized search platforms, and stream processing systems. The results provide a foundation for further research on adaptive and hybrid methods for processing unstructured data in decentralized environments.</p></trans-abstract><kwd-group xml:lang="ru"><kwd>неструктурированные данные</kwd><kwd>децентрализованные системы хранения</kwd><kwd>адаптивное формирование блоков</kwd><kwd>распределённая индексация</kwd><kwd>DHT</kwd><kwd>обработка текстовых данных</kwd><kwd>масштабируемость</kwd><kwd>оптимизация</kwd></kwd-group><kwd-group xml:lang="en"><kwd>unstructured data</kwd><kwd>decentralized storage systems</kwd><kwd>adaptive block formation</kwd><kwd>distributed indexing</kwd><kwd>DHT</kwd><kwd>text processing</kwd><kwd>scalability</kwd><kwd>optimization</kwd></kwd-group></article-meta></front><back><ref-list><title>Список литературы</title><ref id="B1"><mixed-citation>Gandomi A., Haider M. Beyond the hype: Big data concepts, methods, and analytics // International Journal of Information Management. &amp;ndash; 2015. &amp;ndash; Vol. 35, No. 2. &amp;ndash; P. 137&amp;ndash;144.</mixed-citation></ref><ref id="B2"><mixed-citation>Михнев И.П. Цифровые технологии Big Data в современном высшем образовании: технологии поиска и обработки неструктурированной информации // Материалы конференции. &amp;ndash; Новосибирск, 2019. &amp;ndash; С. 326&amp;ndash;329.</mixed-citation></ref><ref id="B3"><mixed-citation>Фирова Д.В., Барышникова М.Ю. Обзор методов извлечения данных из неструктурированных документов // Матрица научного познания. &amp;ndash; 2022. &amp;ndash; № 2-1. &amp;ndash; С. 56&amp;ndash;71.</mixed-citation></ref><ref id="B4"><mixed-citation>Benet J. IPFS &amp;ndash; Content Addressed, Versioned, P2P File System // arXiv preprint arXiv:1407.3561, 2014.</mixed-citation></ref><ref id="B5"><mixed-citation>Maymounkov P., Mazieres D. Kademlia: A Peer-to-Peer Information System Based on the XOR Metric // IPTPS. &amp;ndash; 2002. &amp;ndash; P. 53&amp;ndash;65.</mixed-citation></ref><ref id="B6"><mixed-citation>Tanenbaum A.S., van Steen M. Distributed Systems: Principles and Paradigms. &amp;ndash; Pearson, 2007.</mixed-citation></ref><ref id="B7"><mixed-citation>Manning C.D., Raghavan P., Sch&amp;uuml;tze H. Introduction to Information Retrieval. &amp;ndash; Cambridge University Press, 2008.</mixed-citation></ref><ref id="B8"><mixed-citation>Xu Y., Chen L. Efficient Indexing and Query Processing in Distributed Text Retrieval Systems // IEEE Access. &amp;ndash; 2020. &amp;ndash; Vol. 8. &amp;ndash; P. 112345&amp;ndash;112357.</mixed-citation></ref><ref id="B9"><mixed-citation>Li J., Chen X. Decentralized Storage Systems: Architecture and Challenges // IEEE Access. &amp;ndash; 2020. &amp;ndash; Vol.&amp;nbsp;8. &amp;ndash; P. 227093&amp;ndash;227105.</mixed-citation></ref><ref id="B10"><mixed-citation>Stoica I. et al. Chord: A Scalable Peer-to-Peer Lookup Protocol // IEEE/ACM Transactions on Networking.&amp;nbsp;&amp;ndash; 2003. &amp;ndash; Vol. 11. &amp;ndash; P. 17&amp;ndash;32.</mixed-citation></ref><ref id="B11"><mixed-citation>Wang S., Li X. Dynamic Resource Allocation in Distributed Networks // IEEE Transactions on Cloud Computing. &amp;ndash; 2022. &amp;ndash; Vol. 10. &amp;ndash; P. 45&amp;ndash;58.</mixed-citation></ref><ref id="B12"><mixed-citation>Carbone P. et al. Apache Flink: Stream and Batch Processing in a Single Engine // IEEE Data Engineering Bulletin. &amp;ndash; 2015.</mixed-citation></ref><ref id="B13"><mixed-citation>Akidau T. et al. The Dataflow Model: A Practical Approach to Balancing Correctness, Latency, and Cost in Massive-Scale Systems // VLDB. &amp;ndash; 2015.</mixed-citation></ref><ref id="B14"><mixed-citation>Kleinrock L. Queueing systems. Volume 1: Theory. &amp;ndash; New York: Wiley, 1975. &amp;ndash; 417 p.</mixed-citation></ref></ref-list></back></article>