МЕТОДЫ И ПРОГРАММНЫЕ ИНСТРУМЕНТЫ ДЛЯ ИЗВЛЕЧЕНИЯ ПУБЛИКАЦИОННЫХ ДАННЫХ НАУЧНОЙ ОРГАНИЗАЦИИ, РАЗМЕЩЕННЫХ НА ПОРТАЛЕ ELIBRARY.RU
Публикационные отчеты занимают важную долю среди всей отчетности научной организации. Они нужна не только для текущего мониторинга, но и для планирования будущей деятельности. Отчетность включает в себя в том числе информацию о количестве и списочном составе публикаций в различных разрезах и типах, например, РИНЦ, публикации из RSCI, журналов из списка ВАК, журналов из «Белого списки» и других. Сейчас основной источник данных для отчетов – это научная электронная библиотека eLIBRARY.RU. Списки публикаций из профиля организации в eLIBRARY.RU можно получить путем ручной выгрузки публикационных данных, используя API, используя возможности аналитической системы SCIENCE INDEX или парсинге веб-содержимого. В статье описывается разработка алгоритмов и инструментов выгрузки и парсинга содержимого страниц, которые позволяют получать сведения о названиях, списках авторов и источниках публикаций в табличном виде. Автоэкпорт веб-страниц и их анализ основан на использовании эмуляции работы пользователя в браузере и использовании серии опорных тегов для парсинга. Созданные скрипты можно скомпилировать в исполняемый файл и сократить время сохранения и преобразования веб-страниц eLIBRARY.RU на 5 минут для каждых 100 статей поисковой выдачи при ручной обработке.
Резниченко О.С. Методы и программные инструменты для извлечения публикационных данных научной организации, размещенных на портале eLIBRARY.RU // Научный результат. Информационные технологии. – Т.10, №3, 2025. – С. 3-19. DOI: 10.18413/2518-1092-2025-10-3-0-1
















Пока никто не оставил комментариев к этой публикации.
Вы можете быть первым.
1. Бабынина Л.С., Грунина И.С. Программа "Приоритет-2030" как развитие концептуальных подходов в оценке деятельности вузов // KANT. 2024. №1 (50). С. 4-11. EDN: AAMGCY. DOI: 10.24923/2222-243X.2024-50.1 URL: https://www.elibrary.ru/download/elibrary_65310545_87336556.pdf (дата обращения: 03.04.2025)
2. Формирование инновационной образовательной системы в НИУ «БелГУ» как основы подготовки кадров мирового уровня на базе НОЦ «Инновационные решения в АПК» / О.Н. Полухин, А.В. Маматов, И.В. Спичак и др. // Достижения науки и техники АПК. 2020. Т. 34. № 9. С. 9–13. DOI: 10.24411/0235-2451-2020-10902. URL: https://www.elibrary.ru/download/elibrary_44095025_41119820.pdf (дата обращения: 03.04.2025)
3. Kochetkov D.M. Russian Journal Whitelist: Questions to be answered // Science Editor and Publisher. 2022. № 7(2). С. 185-190. URL: https://doi.org/10.24069/SEP-22-48 (дата обращения: 03.04.2025)
4. Moed H.F., Markusova V., Akoev M. Trends in Russian research output indexed in Scopus and Web of Science // Scientometrics. 2018. № 116. C. 1153-1180. URL: https://doi.org/10.1007/s11192-018-2769-8 (дата обращения: 03.04.2025)
5. О проекте eLIBRARY.RU. Научная электронная библиотека eLIBRARY.RU, 2025. URL: https://elibrary.ru/elibrary_about.asp (дата обращения: 03.04.2025)
6. Российский индекс научного цитирования. Научная электронная библиотека eLIBRARY.RU, 2025. URL: https://elibrary.ru/projects/citation/cit_index.asp (дата обращения: 03.04.2025)
7. О проекте Russian Science Citation Index. Научная электронная библиотека eLIBRARY.RU, 2025. URL: https://www.elibrary.ru/rsci_about.asp? (дата обращения: 03.04.2025)
8. Перечень рецензируемых научных изданий, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученой степени кандидата наук, на соискание ученой степени доктора наук (по состоянию на 10.06.2024 года), 2024. URL: https://vak.minobrnauki.gov.ru/uploader/loader?type=19&name=91107547002&f=23267 (дата обращения: 03.04.2025)
9. Интерфейс программирования приложений API. Научная электронная библиотека, 2025. URL: https://www.elibrary.ru/projects/api/api_info.asp (дата обращения: 03.04.2025)
10. Информационно-аналитическая система SCIENCE INDEX. Научная электронная библиотека, 2025. URL: https://www.elibrary.ru/projects/science_index/science_index_org_info.asp? (дата обращения: 03.04.2025)
11. Гинтофт А.С., Новгородов П.А., Коренев А.Н. Интеграционный модуль импорта наукометрических данных из научной электронной библиотеки. Свидетельство о государственной регистрации программы для ЭВМ № 2021663072 от 04.08.2021. URL: https://www.elibrary.ru/item.asp?id=46484977 (дата обращения: 03.04.2025)
12. Резниченко О.С. Алгоритмы и инструменты обработки данных о публикациях научных организаций, размещенных на портале eLIBRARY.RU // Экономика. Информатика. 2025. № 52(1). С. 181-193. DOI: 10.52575/2687-0932-2025-52-1-181-193.
13. Парсинг электронных ресурсов. Библиотека selenium или fake useragent? / А.Ю. Попов, М.В. Ремез, Е.В. Жилина, М.И. Ожиганова // Информатизация в цифровой экономике. 2022. Т. 3. № 4. С. 197-210. DOI: 10.18334/ide.3.4.115219
14. Запекин С., Шитов В., Заваруев И. Парсер научных журналов eLibrary // GitHub. 2021. URL: https://github.com/Lfdd/Parser (дата обращения: 03.04.2025)
15. Supported Browsers. Selenium, 2025. URL: https://www.selenium.dev/documentation/webdriver/browsers/ (дата обращения: 03.04.2025)
16. van Rossum Guido at al. Python, 2025. URL: https://www.python.org (дата обращения: 03.04.2025)
17. JetBrain. PyCharm: The Python IDE for data and web professionals, 2025. URL: https://www.jetbrains.com/pycharm/ (дата обращения: 03.04.2025)
18. Van den Bossche J. at al. pandas.DataFrame, 2024. URL: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html (дата обращения: 03.04.2025)
19. Richardson L. Beautiful Soup Documentation, 2015. URL: https://beautiful-soup.readthedocs.io/en/latest/ (дата обращения: 03.04.2025)
20. Cortesi D. PyInstaller Manual, 2025. URL: https://pyinstaller.org/en/stable/index.html (дата обращения: 03.04.2025)
21. van Rossum G. at al. 5.1.3. List Comprehensions. Python, 2025. URL: https://docs.python.org/3/tutorial/datastructures.html#list-comprehensions (дата обращения: 03.04.2025)
22. Reznichenko O. Appendix to article "Methods and Software Tools for Uploading Publication Data of a Scientific Organization Posted on eLIBRARY.RU" // GitHub. 2025. URL: https://github.com/leo-phoenix/elibrary_html_to_xls (дата обращения: 03.04.2025)