Список литературы

2518-1092

Научный результат. Информационные технологии

2518-1092

10.18413/2518-1092-2025-10-4-0-8

4018

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И ПРИНЯТИЕ РЕШЕНИЙ

<strong>ИСПОЛЬЗОВАНИЕ ТЕМАТИЧЕСКОЙ КЛАСТЕРИЗАЦИИ В МУЛЬТИМОДАЛЬНЫХ ДАННЫХ ДЛЯ ПОИСКА НЕЯВНЫХ СВЯЗЕЙ И ТРЕНДОВ В РАЗВИТИИ ТЕЗАУРУСОВ</strong>

<strong>USING THEMATIC CLUSTERING IN MULTIMODAL DATA TO SEARCH FOR IMPLICIT CONNECTIONS AND TRENDS IN THESAURUS DEVELOPMENT</strong>

Юрчак

Владимир Александрович

Yurchak

Vladimir Alexandrovich

rabota_pres14@rambler.ru

2025

10400

С развитием искусственного интеллекта и машинного обучения [7] стало возможно использование иерархических вероятностных моделей в области обработки естественного языка. Вероятностные или «тематические модели» облегчили обнаружение базовых тем, которые формируют содержание корпусов текстов. В частности, тематические модели продемонстрировали полезность при анализе разнообразного контента, выходящего за рамки просто текстовой информации, включая изображения, биологические данные и ответы на опросы. Важным применением тематического моделирования стало выявление тенденций исследований. Цель. Целью данного исследования является разработка и экспериментальная валидация гибридного метода определения оптимального количества тематических кластеров для автоматического обновления специализированных тезаурусов на основе анализа мультимодальных научных текстов. Метод основывается на нормализованных оценках, таких как перплексия и согласованность, что позволяет оценить качество тем и выявить неявные связи между терминами внутри каждой темы.  В рамках исследования рассматривается проблема оптимизации количества тем на стыке предметных областей и фиксировании эволюции тем с выделением тренда по каждому термину внутри каждой темы. Методы. В исследовании предложен новый подход, интегрирующий алгоритмы LDA и BERTopic с адаптивной функцией оптимизации, учитывающей одновременно метрики перплексии (P) и семантической согласованности (C). Разработана оригинальная математическая модель для выявления неявных связей между терминами через комбинирование вероятностного и контекстного сходства. Научная новизна исследования. В рамках данного исследования представлена математическая модель выявления неявных семантических связей между терминами, сочетающая вероятность семантического и контекстуального сходства, что позволяет идентифицировать новые связи, отсутствующие в тезаурусах. Кроме того, приводится гибридный подход, сочетающий алгоритм скрытого распределения Дирихле (LDA) и BERTopic (Based on Bertopic python packaged) для определения оптимального количества тематических кластеров в мультимодальных текстах. Результаты. Результатами исследования, описанными в данной статье, служат создание тематической модели с оптимальным количеством тем на стыке предметных областей. Использование международной базы знаний медицинских публикаций PubMed и реферативно-аналитической базы данных Dimensions AI в качестве базового набора данных позволило проследить эволюцию тем с выделением тренда по каждому термину внутри каждой темы и помогло исследователям из различных отраслей понять взаимосвязи между темами и терминами в содержании мультимодальных текстов.

With the development of artificial intelligence and machine learning, it has become possible to use hierarchical probabilistic models in the field of natural language processing. Probabilistic or "thematic models" have made it easier to discover the underlying themes that form the content of text corpora. Thematic models have demonstrated their usefulness in analyzing a variety of content that goes beyond just textual information, including images, biological data, and survey responses. An important application of thematic modeling has been the identification of research trends). Goal. The purpose of this study is to develop and experimentally validate a hybrid method for determining the optimal number of thematic clusters for automatic updating of specialized thesauri based on the analysis of multimodal scientific texts. The method is based on normalized assessments such as perplexity and consistency, which makes it possible to assess the quality of topics and identify implicit connections between terms within each topic.  The study examines the problem of optimizing the number of topics at the junction of one or more subject areas and recording the evolution of topics with highlighting the trend for each term within each topic. Methods. The study proposes a new approach integrating the LDA and BERTopic algorithms with an adaptive optimization function that simultaneously considers the metrics of perplexity (P) and semantic consistency (C). An original mathematical model has been developed to identify implicit relationships between terms through a combination of probabilistic and contextual similarity. Scientific novelty of the research. This study presents a mathematical model for identifying implicit semantic links between terms, combining the likelihood of semantic and contextual similarities, which makes it possible to identify new links that are missing in thesauri. In addition, a hybrid approach is presented that combines the latent Dirichlet distribution algorithm (LDA) and BERTopic (Based on Bertopic python packaged) to determine the optimal number of thematic clusters in multimodal texts. Results. The results of the research described in this article are the creation of a thematic model with an optimal number of topics at the junction of one or more subject areas. Using the PubMed international knowledge base for medical publications and the Dimensions AI abstract and analytical database as a basic dataset, it allowed us to trace the evolution of topics with a trend for each term within each topic and helped researchers from various industries understand the interrelationships between topics and terms in the content of multimodal texts.

LDABERTopicпоиск неявных связейтрендсемантический графPubMedDimensions AIтематическое моделированиеперплексиясогласованность

LDABERTopicsearch for implicit connectionstrendsemantic graphPubMedDimensions AIthematic modelingperplexityconsistency

Список литературы

Юрчак В.А. Инструменты решения проблем распознавания и кластеризации данных из документов методами машинного обучения / Золотарев О.В., Юрчак В.А. // ИВД. – 2023. – № 2 (98). – С. 156-164.

Корней А.О. Семантико-статистический алгоритм определения категорий аспектов в задачах сентимент-анализа / Корней А.О., Крючкова Е.Н. // Известия ЮФУ. Технические науки. – 2020. – №6 (216). – С. 66-74.

Клименко С.В. Использование онтологического подхода для анализа текстов естественного языка / Клименко С.В., Золотарев О.В., Шарин М.М. // Вестник российского нового университета. Серия: сложные системы: модели, анализ и управление. – 2017. – С. 67-71.

Хакимова А.Х. Подходы к созданию многоязычного лексического ресурса для семантометрической оценки межъязыкового семантического подобия текстов / Хакимова А.Х., Золотарёв О.В., Шарнин М.М. // Нижегородский государственный архитектурно-строительный университет, Научно-исследовательский центр физико-технической информатики. – 2019. – С. 319-324.

Золотарев О.В., Хакимова А.Х., Шарнин М.М. Разработка методов интеллектуального анализа научных публикаций для мониторинга приоритетных направлений развития превентивной и персонализированной медицины / О.В. Золотарев, А.Х. Хакимова, М.М. Шарнин // Вестник Российского нового университета. Серия «Сложные системы». – 2019. – C. 110-117.

Методика построения ассоциативно-иерархического портрета предметной области: иерархия категорий / Клименко С.В. и др. // Автономная некоммерческая организация «Институт физико-технической информатики». – 2017. – С. 251-260.

Модель и технология извлечения новых терминов из медицинских текстов / Золотарев О.В. и др. // Информатика и ее Применения. – 2022. – С. 80-86.

Мера подобия текстов как инструмент оценки интертекстуальности при анализе больших коллекций документов / Золотарев О.В. и др. // Вестник российского нового университета. Серия: сложные системы: модели, анализ и управление. –2016. – С. 62-71.

Программа выделения терминов из корпуса текстов / Золотарев О.В. и др. // Автономная некоммерческая организация высшего образования «Российский новый университет». – 2023. – С. 1-2.

Программа построения структурированного корпуса текстов на основе электронных баз публикаций / Золотарев О.В. и др. // Автономная некоммерческая организация высшего образования «Российский новый университет». – 2023. – С. 1-2.

Farea A., Tripathi Sh., Glazko G., Emmert-Streib F. Investigating the optimal number of topics by advanced text-mining techniques: Sustainable energy research // Engineering Applications of Artificial Intelligence. V. 136, part A. – 2024. Available from: https://doi.org/10.1016/j.engappai.2024.108877.

Li Y., Wang W., Yan X., Gao M., Xiao M. Research on the Application of Semantic Network in Disease Diagnosis Prompts Based on Medical Corpus / International Journal of Innovative Research in Computer Science and Technology (IJIRCST). – 2024. – 1-9 p. Available from: https://doi.org/10.55524/ijircst.2024.12.2.1

Бручес Е.П. Методы и алгоритмы распознавания и связывания сущностей для построения систем автоматического извлечения информации из научных текстов: дис. на соискание учёной степени кандидата технических наук. – Новосибирск: Федеральное государственное бюджетное учреждение науки Институт систем информатики им. Ершова, 2021. – 112 с.

Дударин П.В. Исследование и разработка моделей и методов нечеткой кластеризации коротких текстов: дис. на соискание учёной степени кандидата технических наук. – Ульяновск: «Ульяновский государственный технический университет», 2021. – 141 с.

Тутубалина Е.В. Модели и методы автоматической обработки неструктурированных данных в биомедицинской области: дис. доктора компьютерных наук. – Казань: Казанский (Приволжский) федеральный университет, 2023. – 225 с.

Корней А.О. Методы и алгоритмы аспектного анализа тональности на основе гибридной семантико-статистической модели естественного языка: дис. на соискание ученой степени кандидата технических наук. – Барнаул: Федеральное государственное бюджетное образовательное учреждение высшего образования «Алтайский государственный технический университет им. И.И. Ползунова», 2021. – 134 с.