DOI: 10.18413/2518-1092-2025-10-4-0-8

ИСПОЛЬЗОВАНИЕ ТЕМАТИЧЕСКОЙ КЛАСТЕРИЗАЦИИ В МУЛЬТИМОДАЛЬНЫХ ДАННЫХ ДЛЯ ПОИСКА НЕЯВНЫХ СВЯЗЕЙ И ТРЕНДОВ В РАЗВИТИИ ТЕЗАУРУСОВ

С развитием искусственного интеллекта и машинного обучения [7] стало возможно использование иерархических вероятностных моделей в области обработки естественного языка. Вероятностные или «тематические модели» облегчили обнаружение базовых тем, которые формируют содержание корпусов текстов. В частности, тематические модели продемонстрировали полезность при анализе разнообразного контента, выходящего за рамки просто текстовой информации, включая изображения, биологические данные и ответы на опросы. Важным применением тематического моделирования стало выявление тенденций исследований.

Цель. Целью данного исследования является разработка и экспериментальная валидация гибридного метода определения оптимального количества тематических кластеров для автоматического обновления специализированных тезаурусов на основе анализа мультимодальных научных текстов. Метод основывается на нормализованных оценках, таких как перплексия и согласованность, что позволяет оценить качество тем и выявить неявные связи между терминами внутри каждой темы. В рамках исследования рассматривается проблема оптимизации количества тем на стыке предметных областей и фиксировании эволюции тем с выделением тренда по каждому термину внутри каждой темы.

Методы. В исследовании предложен новый подход, интегрирующий алгоритмы LDA и BERTopic с адаптивной функцией оптимизации, учитывающей одновременно метрики перплексии (P) и семантической согласованности (C). Разработана оригинальная математическая модель для выявления неявных связей между терминами через комбинирование вероятностного и контекстного сходства.

Научная новизна исследования. В рамках данного исследования представлена математическая модель выявления неявных семантических связей между терминами, сочетающая вероятность семантического и контекстуального сходства, что позволяет идентифицировать новые связи, отсутствующие в тезаурусах. Кроме того, приводится гибридный подход, сочетающий алгоритм скрытого распределения Дирихле (LDA) и BERTopic (Based on Bertopic python packaged) для определения оптимального количества тематических кластеров в мультимодальных текстах.

Результаты. Результатами исследования, описанными в данной статье, служат создание тематической модели с оптимальным количеством тем на стыке предметных областей. Использование международной базы знаний медицинских публикаций PubMed и реферативно-аналитической базы данных Dimensions AI в качестве базового набора данных позволило проследить эволюцию тем с выделением тренда по каждому термину внутри каждой темы и помогло исследователям из различных отраслей понять взаимосвязи между темами и терминами в содержании мультимодальных текстов.

Ключевые слова: LDA, BERTopic, поиск неявных связей, тренд, семантический граф, PubMed, Dimensions AI, тематическое моделирование, перплексия, согласованность.

Количество просмотров: 170 (смотреть статистику)

Количество скачиваний: 570

Полный текст (PDF)Скачать XML К списку статей

Информация для цитирования:

Юрчак В.А. Использование тематической кластеризации в мультимодальных данных для поиска неявных связей и трендов в развитии тезаурусов // Научный результат. Информационные технологии. – Т.10, №4, 2025. – С. 88-104. DOI: 10.18413/2518-1092-2025-10-4-0-8

Комментарии
Список литературы

Пока никто не оставил комментариев к этой публикации.
Вы можете быть первым.

Юрчак В.А. Инструменты решения проблем распознавания и кластеризации данных из документов методами машинного обучения / Золотарев О.В., Юрчак В.А. // ИВД. – 2023. – № 2 (98). – С. 156-164.
Корней А.О. Семантико-статистический алгоритм определения категорий аспектов в задачах сентимент-анализа / Корней А.О., Крючкова Е.Н. // Известия ЮФУ. Технические науки. – 2020. – №6 (216). – С. 66-74.
Клименко С.В. Использование онтологического подхода для анализа текстов естественного языка / Клименко С.В., Золотарев О.В., Шарин М.М. // Вестник российского нового университета. Серия: сложные системы: модели, анализ и управление. – 2017. – С. 67-71.
Хакимова А.Х. Подходы к созданию многоязычного лексического ресурса для семантометрической оценки межъязыкового семантического подобия текстов / Хакимова А.Х., Золотарёв О.В., Шарнин М.М. // Нижегородский государственный архитектурно-строительный университет, Научно-исследовательский центр физико-технической информатики. – 2019. – С. 319-324.
Золотарев О.В., Хакимова А.Х., Шарнин М.М. Разработка методов интеллектуального анализа научных публикаций для мониторинга приоритетных направлений развития превентивной и персонализированной медицины / О.В. Золотарев, А.Х. Хакимова, М.М. Шарнин // Вестник Российского нового университета. Серия «Сложные системы». – 2019. – C. 110-117.
Методика построения ассоциативно-иерархического портрета предметной области: иерархия категорий / Клименко С.В. и др. // Автономная некоммерческая организация «Институт физико-технической информатики». – 2017. – С. 251-260.
Модель и технология извлечения новых терминов из медицинских текстов / Золотарев О.В. и др. // Информатика и ее Применения. – 2022. – С. 80-86.
Мера подобия текстов как инструмент оценки интертекстуальности при анализе больших коллекций документов / Золотарев О.В. и др. // Вестник российского нового университета. Серия: сложные системы: модели, анализ и управление. –2016. – С. 62-71.
Программа выделения терминов из корпуса текстов / Золотарев О.В. и др. // Автономная некоммерческая организация высшего образования «Российский новый университет». – 2023. – С. 1-2.
Программа построения структурированного корпуса текстов на основе электронных баз публикаций / Золотарев О.В. и др. // Автономная некоммерческая организация высшего образования «Российский новый университет». – 2023. – С. 1-2.
Farea A., Tripathi Sh., Glazko G., Emmert-Streib F. Investigating the optimal number of topics by advanced text-mining techniques: Sustainable energy research // Engineering Applications of Artificial Intelligence. V. 136, part A. – 2024. Available from: https://doi.org/10.1016/j.engappai.2024.108877.
Li Y., Wang W., Yan X., Gao M., Xiao M. Research on the Application of Semantic Network in Disease Diagnosis Prompts Based on Medical Corpus / International Journal of Innovative Research in Computer Science and Technology (IJIRCST). – 2024. – 1-9 p. Available from: https://doi.org/10.55524/ijircst.2024.12.2.1
Бручес Е.П. Методы и алгоритмы распознавания и связывания сущностей для построения систем автоматического извлечения информации из научных текстов: дис. на соискание учёной степени кандидата технических наук. – Новосибирск: Федеральное государственное бюджетное учреждение науки Институт систем информатики им. Ершова, 2021. – 112 с.
Дударин П.В. Исследование и разработка моделей и методов нечеткой кластеризации коротких текстов: дис. на соискание учёной степени кандидата технических наук. – Ульяновск: «Ульяновский государственный технический университет», 2021. – 141 с.
Тутубалина Е.В. Модели и методы автоматической обработки неструктурированных данных в биомедицинской области: дис. доктора компьютерных наук. – Казань: Казанский (Приволжский) федеральный университет, 2023. – 225 с.
Корней А.О. Методы и алгоритмы аспектного анализа тональности на основе гибридной семантико-статистической модели естественного языка: дис. на соискание ученой степени кандидата технических наук. – Барнаул: Федеральное государственное бюджетное образовательное учреждение высшего образования «Алтайский государственный технический университет им. И.И. Ползунова», 2021. – 134 с.

Все журналы

Отправить статью

Научный результат. Информационные технологии включен в научную базу РИНЦ (лицензионный договор № 765-12/2014 от 08.12.2014).

Журнал включен в перечень рецензируемых научных изданий, рекомендуемых ВАК

Журнал индексируется следующими научными базами и платформами

Научный результат. Научный результат. Информационные технологии (ISSN 2518-1092)

The journal materials and website are licensed under Creative Commons «Attribution» 4.0 International.

Учредитель: федеральное государственное автономное образовательное учреждение высшего образования «Белгородский государственный национальный исследовательский университет» (НИУ «БелГУ»). Адрес: 308015, Белгородская область, г. Белгород, ул. Победы, 85.

Издатель: федеральное государственное автономное образовательное учреждение высшего образования «Белгородский государственный национальный исследовательский университет» (НИУ «БелГУ»). Адрес: 308015, Белгородская область, г. Белгород, ул. Победы, 85.

Редакция: главный редактор Черноморец Андрей Алексеевич, e-mail: RR_IT@bsuedu.ru, тел.: +7 (4722) 30-13-92.

Зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор)

Свидетельство о регистрации СМИ

Информационное письмо (русс. яз)

Приказ № 1097-ОД от 15.11.2023 "Об утверждении Регламента издания научных журналов НИУ «БелГУ»"

Приказ № 144-ОД от 16.03.2026 "Об утверждении состава редакционной коллегии журнала «Научный результат. Информационные технологии»"

Приказ № 145-ОД от 16.03.2026 "Об утверждении Устава редакции средства массовой информации научного журнала «Научный результат. Информационные технологии»"

Устав редакции средства массовой информации «Научный результат. Информационные технологии»

Остались вопросы?
Можете написать нам:

✉ Ответственный cекретарь

✉ Администратор сайта

✉ Контент менеджер