Список литературы

2518-1092

Научный результат. Информационные технологии

2518-1092

10.18413/2518-1092-2026-11-2-0-10

4260

КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ

<strong>МЕТОД АДАПТИВНОГО ФОРМИРОВАНИЯ БЛОКОВ И ИНДЕКСАЦИИ НЕСТРУКТУРИРОВАННЫХ ДАННЫХ В ДЕЦЕНТРАЛИЗОВАННЫХ СИСТЕМАХ ХРАНЕНИЯ</strong>

<strong>METHOD OF ADAPTIVE BLOCK FORMATION AND INDEXING OF UNSTRUCTURED DATA IN DECENTRALIZED STORAGE SYSTEMS</strong>

Воскобойников

Илья Сергеевич

Voskoboinikov

Ilia Sergeevich

ilia.voskoboinikov@mail.ru

Гвоздевский

Игорь Николаевич

Gvozdevsky

Igor Nikolaevich

Булгаков

Владислав Дмитриевич

Bulgakov

Vladislav Dmitrievich

BulgakovVlad@yandex.ru

2026

11200

В статье рассматривается задача обработки и индексирования неструктурированных текстовых данных в децентрализованных системах хранения. Проведён анализ существующих подходов, основанных на статических параметрах формирования блоков, выявлены их ограничения, связанные с отсутствием учёта динамических характеристик распределённой среды, что приводит к увеличению сетевой нагрузки и снижению эффективности поиска. Предложен метод адаптивного формирования блоков и индексирования данных, учитывающий интенсивность входного потока, уровень загрузки сети и количество активных узлов. Описана архитектура системы, включающая модули предобработки, агрегации данных, индексирования и распределённого хранения на основе распределённых хеш-таблиц. Разработана математическая модель и алгоритм, обеспечивающие динамическое управление параметрами формирования блоков. Проведён теоретический анализ работы алгоритма, показано влияние ключевых параметров системы на процессы формирования блоков. Выполнено сравнение с фиксированным методом, продемонстрированы преимущества адаптивного подхода с точки зрения снижения сетевых издержек, повышения масштабируемости и устойчивости к изменению нагрузки. Работа может быть использована при разработке распределённых систем хранения, поисковых платформ и систем потоковой обработки данных. Полученные результаты создают основу для дальнейших исследований адаптивных и гибридных методов обработки неструктурированных данных в децентрализованных средах.

The paper addresses the problem of processing and indexing unstructured textual data in decentralized storage systems. An analysis of existing approaches based on static block formation parameters is conducted, revealing their limitations related to the lack of consideration of dynamic characteristics of distributed environments, which leads to increased network overhead and reduced search efficiency. An adaptive method for block formation and data indexing is proposed, taking into account input data rate, network load, and the number of active nodes. The system architecture is described, including modules for data preprocessing, aggregation, indexing, and distributed storage based on distributed hash tables. A mathematical model and an algorithm are developed to provide dynamic control of block formation parameters. A theoretical analysis of the proposed algorithm is performed, demonstrating the influence of key system parameters on block formation. A comparison with a fixed block formation method is presented, showing the advantages of the adaptive approach in terms of reduced network costs, improved scalability, and robustness under varying load conditions. The proposed method can be applied in the design of distributed storage systems, decentralized search platforms, and stream processing systems. The results provide a foundation for further research on adaptive and hybrid methods for processing unstructured data in decentralized environments.

неструктурированные данныедецентрализованные системы храненияадаптивное формирование блоковраспределённая индексацияDHTобработка текстовых данныхмасштабируемостьоптимизация

unstructured datadecentralized storage systemsadaptive block formationdistributed indexingDHTtext processingscalabilityoptimization

Список литературы

Gandomi A., Haider M. Beyond the hype: Big data concepts, methods, and analytics // International Journal of Information Management. – 2015. – Vol. 35, No. 2. – P. 137–144.

Михнев И.П. Цифровые технологии Big Data в современном высшем образовании: технологии поиска и обработки неструктурированной информации // Материалы конференции. – Новосибирск, 2019. – С. 326–329.

Фирова Д.В., Барышникова М.Ю. Обзор методов извлечения данных из неструктурированных документов // Матрица научного познания. – 2022. – № 2-1. – С. 56–71.

Benet J. IPFS – Content Addressed, Versioned, P2P File System // arXiv preprint arXiv:1407.3561, 2014.

Maymounkov P., Mazieres D. Kademlia: A Peer-to-Peer Information System Based on the XOR Metric // IPTPS. – 2002. – P. 53–65.

Tanenbaum A.S., van Steen M. Distributed Systems: Principles and Paradigms. – Pearson, 2007.

Manning C.D., Raghavan P., Schütze H. Introduction to Information Retrieval. – Cambridge University Press, 2008.

Xu Y., Chen L. Efficient Indexing and Query Processing in Distributed Text Retrieval Systems // IEEE Access. – 2020. – Vol. 8. – P. 112345–112357.

Li J., Chen X. Decentralized Storage Systems: Architecture and Challenges // IEEE Access. – 2020. – Vol. 8. – P. 227093–227105.

Stoica I. et al. Chord: A Scalable Peer-to-Peer Lookup Protocol // IEEE/ACM Transactions on Networking. – 2003. – Vol. 11. – P. 17–32.

Wang S., Li X. Dynamic Resource Allocation in Distributed Networks // IEEE Transactions on Cloud Computing. – 2022. – Vol. 10. – P. 45–58.

Carbone P. et al. Apache Flink: Stream and Batch Processing in a Single Engine // IEEE Data Engineering Bulletin. – 2015.

Akidau T. et al. The Dataflow Model: A Practical Approach to Balancing Correctness, Latency, and Cost in Massive-Scale Systems // VLDB. – 2015.

Kleinrock L. Queueing systems. Volume 1: Theory. – New York: Wiley, 1975. – 417 p.