ИСПОЛЬЗОВАНИЕ ТЕМАТИЧЕСКОЙ КЛАСТЕРИЗАЦИИ В МУЛЬТИМОДАЛЬНЫХ ДАННЫХ ДЛЯ ПОИСКА НЕЯВНЫХ СВЯЗЕЙ И ТРЕНДОВ В РАЗВИТИИ ТЕЗАУРУСОВ
С развитием искусственного интеллекта и машинного обучения [7] стало возможно использование иерархических вероятностных моделей в области обработки естественного языка. Вероятностные или «тематические модели» облегчили обнаружение базовых тем, которые формируют содержание корпусов текстов. В частности, тематические модели продемонстрировали полезность при анализе разнообразного контента, выходящего за рамки просто текстовой информации, включая изображения, биологические данные и ответы на опросы. Важным применением тематического моделирования стало выявление тенденций исследований.
Цель. Целью данного исследования является разработка и экспериментальная валидация гибридного метода определения оптимального количества тематических кластеров для автоматического обновления специализированных тезаурусов на основе анализа мультимодальных научных текстов. Метод основывается на нормализованных оценках, таких как перплексия и согласованность, что позволяет оценить качество тем и выявить неявные связи между терминами внутри каждой темы. В рамках исследования рассматривается проблема оптимизации количества тем на стыке предметных областей и фиксировании эволюции тем с выделением тренда по каждому термину внутри каждой темы.
Методы. В исследовании предложен новый подход, интегрирующий алгоритмы LDA и BERTopic с адаптивной функцией оптимизации, учитывающей одновременно метрики перплексии (P) и семантической согласованности (C). Разработана оригинальная математическая модель для выявления неявных связей между терминами через комбинирование вероятностного и контекстного сходства.
Научная новизна исследования. В рамках данного исследования представлена математическая модель выявления неявных семантических связей между терминами, сочетающая вероятность семантического и контекстуального сходства, что позволяет идентифицировать новые связи, отсутствующие в тезаурусах. Кроме того, приводится гибридный подход, сочетающий алгоритм скрытого распределения Дирихле (LDA) и BERTopic (Based on Bertopic python packaged) для определения оптимального количества тематических кластеров в мультимодальных текстах.
Результаты. Результатами исследования, описанными в данной статье, служат создание тематической модели с оптимальным количеством тем на стыке предметных областей. Использование международной базы знаний медицинских публикаций PubMed и реферативно-аналитической базы данных Dimensions AI в качестве базового набора данных позволило проследить эволюцию тем с выделением тренда по каждому термину внутри каждой темы и помогло исследователям из различных отраслей понять взаимосвязи между темами и терминами в содержании мультимодальных текстов.
Юрчак В.А. Использование тематической кластеризации в мультимодальных данных для поиска неявных связей и трендов в развитии тезаурусов // Научный результат. Информационные технологии. – Т.10, №4, 2025. – С. 88-104. DOI: 10.18413/2518-1092-2025-10-4-0-8
















Пока никто не оставил комментариев к этой публикации.
Вы можете быть первым.