16+
DOI: 10.18413/2518-1092-2025-10-3-0-1

МЕТОДЫ И ПРОГРАММНЫЕ ИНСТРУМЕНТЫ ДЛЯ ИЗВЛЕЧЕНИЯ ПУБЛИКАЦИОННЫХ ДАННЫХ НАУЧНОЙ ОРГАНИЗАЦИИ, РАЗМЕЩЕННЫХ НА ПОРТАЛЕ ELIBRARY.RU

Публикационные отчеты занимают важную долю среди всей отчетности научной организации. Они нужна не только для текущего мониторинга, но и для планирования будущей деятельности. Отчетность включает в себя в том числе информацию о количестве и списочном составе публикаций в различных разрезах и типах, например, РИНЦ, публикации из RSCI, журналов из списка ВАК, журналов из «Белого списки» и других. Сейчас основной источник данных для отчетов – это научная электронная библиотека eLIBRARY.RU. Списки публикаций из профиля организации в eLIBRARY.RU можно получить путем ручной выгрузки публикационных данных, используя API, используя возможности аналитической системы SCIENCE INDEX или парсинге веб-содержимого. В статье описывается разработка алгоритмов и инструментов выгрузки и парсинга содержимого страниц, которые позволяют получать сведения о названиях, списках авторов и источниках публикаций в табличном виде. Автоэкпорт веб-страниц и их анализ основан на использовании эмуляции работы пользователя в браузере и использовании серии опорных тегов для парсинга. Созданные скрипты можно скомпилировать в исполняемый файл и сократить время сохранения и преобразования веб-страниц eLIBRARY.RU на 5 минут для каждых 100 статей поисковой выдачи при ручной обработке.

Количество просмотров: 184 (смотреть статистику)
Количество скачиваний: 513
Полный текст (PDF)К списку статей
  • Комментарии
  • Список литературы

Пока никто не оставил комментариев к этой публикации.
Вы можете быть первым.

Оставить комментарий: