16+
DOI: 10.18413/2518-1092-2025-10-4-0-8

ИСПОЛЬЗОВАНИЕ ТЕМАТИЧЕСКОЙ КЛАСТЕРИЗАЦИИ В МУЛЬТИМОДАЛЬНЫХ ДАННЫХ ДЛЯ ПОИСКА НЕЯВНЫХ СВЯЗЕЙ И ТРЕНДОВ В РАЗВИТИИ ТЕЗАУРУСОВ

С развитием искусственного интеллекта и машинного обучения [7] стало возможно использование иерархических вероятностных моделей в области обработки естественного языка. Вероятностные или «тематические модели» облегчили обнаружение базовых тем, которые формируют содержание корпусов текстов. В частности, тематические модели продемонстрировали полезность при анализе разнообразного контента, выходящего за рамки просто текстовой информации, включая изображения, биологические данные и ответы на опросы. Важным применением тематического моделирования стало выявление тенденций исследований.

Цель. Целью данного исследования является разработка и экспериментальная валидация гибридного метода определения оптимального количества тематических кластеров для автоматического обновления специализированных тезаурусов на основе анализа мультимодальных научных текстов. Метод основывается на нормализованных оценках, таких как перплексия и согласованность, что позволяет оценить качество тем и выявить неявные связи между терминами внутри каждой темы.  В рамках исследования рассматривается проблема оптимизации количества тем на стыке предметных областей и фиксировании эволюции тем с выделением тренда по каждому термину внутри каждой темы.

Методы. В исследовании предложен новый подход, интегрирующий алгоритмы LDA и BERTopic с адаптивной функцией оптимизации, учитывающей одновременно метрики перплексии (P) и семантической согласованности (C). Разработана оригинальная математическая модель для выявления неявных связей между терминами через комбинирование вероятностного и контекстного сходства.

Научная новизна исследования. В рамках данного исследования представлена математическая модель выявления неявных семантических связей между терминами, сочетающая вероятность семантического и контекстуального сходства, что позволяет идентифицировать новые связи, отсутствующие в тезаурусах. Кроме того, приводится гибридный подход, сочетающий алгоритм скрытого распределения Дирихле (LDA) и BERTopic (Based on Bertopic python packaged) для определения оптимального количества тематических кластеров в мультимодальных текстах.

Результаты. Результатами исследования, описанными в данной статье, служат создание тематической модели с оптимальным количеством тем на стыке предметных областей. Использование международной базы знаний медицинских публикаций PubMed и реферативно-аналитической базы данных Dimensions AI в качестве базового набора данных позволило проследить эволюцию тем с выделением тренда по каждому термину внутри каждой темы и помогло исследователям из различных отраслей понять взаимосвязи между темами и терминами в содержании мультимодальных текстов.

Количество просмотров: 36 (смотреть статистику)
Количество скачиваний: 120
Полный текст (PDF)Скачать XMLК списку статей
  • Комментарии
  • Список литературы

Пока никто не оставил комментариев к этой публикации.
Вы можете быть первым.

Оставить комментарий: