<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.2 20190208//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
<article article-type="research-article" dtd-version="1.2" xml:lang="ru" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink"><front><journal-meta><journal-id journal-id-type="issn">2518-1092</journal-id><journal-title-group><journal-title>Научный результат. Информационные технологии</journal-title></journal-title-group><issn pub-type="epub">2518-1092</issn></journal-meta><article-meta><article-id pub-id-type="doi">10.18413/2518-1092-2025-10-3-0-1</article-id><article-id pub-id-type="publisher-id">3900</article-id><article-categories><subj-group subj-group-type="heading"><subject>ИНФОРМАЦИОННЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ</subject></subj-group></article-categories><title-group><article-title>&lt;strong&gt;МЕТОДЫ И ПРОГРАММНЫЕ ИНСТРУМЕНТЫ&amp;nbsp;ДЛЯ ИЗВЛЕЧЕНИЯ ПУБЛИКАЦИОННЫХ ДАННЫХ НАУЧНОЙ ОРГАНИЗАЦИИ, РАЗМЕЩЕННЫХ&amp;nbsp;НА ПОРТАЛЕ ELIBRARY.RU&lt;/strong&gt;</article-title><trans-title-group xml:lang="en"><trans-title>&lt;strong&gt;METHODS AND SOFTWARE TOOLS&amp;nbsp;FOR UPLOADING PUBLICATION DATA OF A SCIENTIFIC ORGANIZATION POSTED ON THE ELIBRARY.RU&lt;/strong&gt;</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="ru"><surname>Резниченко</surname><given-names>Олег Сергеевич</given-names></name><name xml:lang="en"><surname>Reznichenko</surname><given-names>Oleg Sergeevich</given-names></name></name-alternatives><email>oreznichenko@bsu.edu.ru</email></contrib></contrib-group><pub-date pub-type="epub"><year>2025</year></pub-date><volume>10</volume><issue>3</issue><fpage>0</fpage><lpage>0</lpage><self-uri content-type="pdf" xlink:href="/media/information/2025/3/ИТ_НР_10_3_1.pdf" /><abstract xml:lang="ru"><p>Публикационные отчеты занимают важную долю среди всей отчетности научной организации. Они нужна не только для текущего мониторинга, но и для планирования будущей деятельности. Отчетность включает в себя в том числе информацию о количестве и списочном составе публикаций в различных разрезах и типах, например, РИНЦ, публикации из RSCI, журналов из списка ВАК, журналов из &amp;laquo;Белого списки&amp;raquo; и других. Сейчас основной источник данных для отчетов &amp;ndash; это научная электронная библиотека eLIBRARY.RU. Списки публикаций из профиля организации в eLIBRARY.RU можно получить путем ручной выгрузки публикационных данных, используя API, используя возможности аналитической системы SCIENCE INDEX или парсинге веб-содержимого. В статье описывается разработка алгоритмов и инструментов выгрузки и парсинга содержимого страниц, которые позволяют получать сведения о названиях, списках авторов и источниках публикаций в табличном виде. Автоэкпорт веб-страниц и их анализ основан на использовании эмуляции работы пользователя в браузере и использовании серии опорных тегов для парсинга. Созданные скрипты можно скомпилировать в исполняемый файл и сократить время сохранения и преобразования веб-страниц eLIBRARY.RU на 5 минут для каждых 100 статей поисковой выдачи при ручной обработке.</p></abstract><trans-abstract xml:lang="en"><p>Publication reports are an important part of the overall reporting process in a scientific organization. They are necessary not only for monitoring the organization&amp;#39;s status but also for planning future activities. Publication reports include information on the count and list of publications in various formats, such as articles from the Russian Science Citation Index, articles in journals from the HAC list, articles in journals from the &amp;quot;White List,&amp;quot; and many others. Currently, the main source of input data for publication reports is the scientific electronic library eLIBRARY.RU. Lists of publications from the organization&amp;#39;s profile on eLIBRARY.RU can be manually uploaded, through the API, using tools from the SCIENCE INDEX analytical system, or via web scraping techniques. This article describes the development of algorithms and software tools for extracting and scraping page content, which allow for the retrieval of data about titles, author lists, and journal information in spreadsheet form. The automatic saving of web pages and their scraping is based on emulation browser user actions and the use of specific HTML tags. The created Python scripts can be compiled into standalone executable files, reducing the time required to upload and transform the content of eLIBRARY.RU web pages into spreadsheets by 5 minutes for every 100 articles in search results during manual processing.</p></trans-abstract><kwd-group xml:lang="ru"><kwd>наукометрия</kwd><kwd>публикационная активность</kwd><kwd>публикационная отчетность</kwd><kwd>веб-скрейпинг</kwd><kwd>парсинг</kwd><kwd>eLIBRARY.RU</kwd><kwd>Microsoft Excel</kwd><kwd>SCIENCE INDEX</kwd><kwd>Selenium WebDriver</kwd><kwd>Python</kwd><kwd>Beautiful Soup</kwd><kwd>pandas.DataFrame</kwd></kwd-group><kwd-group xml:lang="en"><kwd>scientometrics</kwd><kwd>publication activity</kwd><kwd>publication reports</kwd><kwd>web scraping</kwd><kwd>eLIBRARY.RU</kwd><kwd>Microsoft Excel</kwd><kwd>SCIENCE INDEX</kwd><kwd>Selenium WebDriver</kwd><kwd>Python</kwd><kwd>Beautiful Soup</kwd><kwd>pandas.DataFrame</kwd></kwd-group></article-meta></front><back><ref-list><title>Список литературы</title><ref id="B1"><mixed-citation>1. Бабынина Л.С., Грунина И.С. Программа &amp;quot;Приоритет-2030&amp;quot; как развитие концептуальных под&amp;shy;ходов в оценке деятельности вузов // KANT. 2024. №1 (50). С. 4-11. EDN: AAMGCY. DOI: 10.24923/2222-243X.2024-50.1 URL: https://www.elibrary.ru/download/elibrary_65310545_87336556.pdf (дата обращения: 03.04.2025)</mixed-citation></ref><ref id="B2"><mixed-citation>2. Формирование инновационной образовательной системы в НИУ &amp;laquo;БелГУ&amp;raquo; как основы подготовки кадров мирового уровня на базе НОЦ &amp;laquo;Инновационные решения в АПК&amp;raquo; / О.Н. Полухин, А.В. Маматов, И.В.&amp;nbsp;Спичак и др. // Достижения науки и техники АПК. 2020. Т. 34. № 9. С. 9&amp;ndash;13. DOI: 10.24411/0235-2451-2020-10902. URL: https://www.elibrary.ru/download/elibrary_44095025_41119820.pdf (дата обращения: 03.04.2025)</mixed-citation></ref><ref id="B3"><mixed-citation>3. Kochetkov D.M. Russian Journal Whitelist: Questions to be answered // Science Editor and Publisher. 2022. № 7(2). С. 185-190. URL: https://doi.org/10.24069/SEP-22-48 (дата обращения: 03.04.2025)</mixed-citation></ref><ref id="B4"><mixed-citation>4. Moed H.F., Markusova V., Akoev M. Trends in Russian research output indexed in Scopus and Web of Science // Scientometrics. 2018. № 116. C. 1153-1180. URL: https://doi.org/10.1007/s11192-018-2769-8 (дата обращения: 03.04.2025)</mixed-citation></ref><ref id="B5"><mixed-citation>5. О проекте eLIBRARY.RU. Научная электронная библиотека eLIBRARY.RU, 2025. URL: https://elibrary.ru/elibrary_about.asp (дата обращения: 03.04.2025)</mixed-citation></ref><ref id="B6"><mixed-citation>6. Российский индекс научного цитирования. Научная электронная библиотека eLIBRARY.RU, 2025. URL: https://elibrary.ru/projects/citation/cit_index.asp (дата обращения: 03.04.2025)</mixed-citation></ref><ref id="B7"><mixed-citation>7. О проекте Russian Science Citation Index. Научная электронная библиотека eLIBRARY.RU, 2025. URL: https://www.elibrary.ru/rsci_about.asp? (дата обращения: 03.04.2025)</mixed-citation></ref><ref id="B8"><mixed-citation>8. Перечень рецензируемых научных изданий, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученой степени кандидата наук, на соискание ученой степени доктора наук (по состоянию на 10.06.2024 года), 2024. URL: https://vak.minobrnauki.gov.ru/uploader/loader?type=19&amp;amp;name=91107547002&amp;amp;f=23267 (дата обращения: 03.04.2025)</mixed-citation></ref><ref id="B9"><mixed-citation>9. Интерфейс программирования приложений API. Научная электронная библиотека, 2025. URL: https://www.elibrary.ru/projects/api/api_info.asp (дата обращения: 03.04.2025)</mixed-citation></ref><ref id="B10"><mixed-citation>10. Информационно-аналитическая система SCIENCE INDEX. Научная электронная библиотека, 2025. URL: https://www.elibrary.ru/projects/science_index/science_index_org_info.asp? (дата обращения: 03.04.2025)</mixed-citation></ref><ref id="B11"><mixed-citation>11. Гинтофт А.С., Новгородов П.А., Коренев А.Н. Интеграционный модуль импорта наукометрических данных из научной электронной библиотеки. Свидетельство о государственной регистрации программы для ЭВМ № 2021663072 от 04.08.2021. URL: https://www.elibrary.ru/item.asp?id=46484977 (дата обращения: 03.04.2025)</mixed-citation></ref><ref id="B12"><mixed-citation>12. Резниченко О.С. Алгоритмы и инструменты обработки данных о публикациях научных организаций, размещенных на портале eLIBRARY.RU // Экономика. Информатика. 2025. № 52(1). С. 181-193. DOI: 10.52575/2687-0932-2025-52-1-181-193.</mixed-citation></ref><ref id="B13"><mixed-citation>13. Парсинг электронных ресурсов. Библиотека selenium или fake useragent? / А.Ю. Попов, М.В. Ремез, Е.В. Жилина, М.И. Ожиганова // Информатизация в цифровой экономике. 2022. Т. 3. № 4. С. 197-210. DOI: 10.18334/ide.3.4.115219</mixed-citation></ref><ref id="B14"><mixed-citation>14. Запекин С., Шитов В., Заваруев И. Парсер научных журналов eLibrary // GitHub. 2021. URL: https://github.com/Lfdd/Parser (дата обращения: 03.04.2025)</mixed-citation></ref><ref id="B15"><mixed-citation>15. Supported Browsers. Selenium, 2025. URL: https://www.selenium.dev/documentation/webdriver/browsers/ (дата обращения: 03.04.2025)</mixed-citation></ref><ref id="B16"><mixed-citation>16. van Rossum Guido at al. Python, 2025. URL: https://www.python.org (дата обращения: 03.04.2025)</mixed-citation></ref><ref id="B17"><mixed-citation>17. JetBrain. PyCharm: The Python IDE for data and web professionals, 2025. URL: https://www.jetbrains.com/pycharm/ (дата обращения: 03.04.2025)</mixed-citation></ref><ref id="B18"><mixed-citation>18. Van den Bossche J. at al. pandas.DataFrame, 2024. URL: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html (дата обращения: 03.04.2025)</mixed-citation></ref><ref id="B19"><mixed-citation>19. Richardson L. Beautiful Soup Documentation, 2015. URL: https://beautiful-soup.readthedocs.io/en/latest/ (дата обращения: 03.04.2025)</mixed-citation></ref><ref id="B20"><mixed-citation>20. Cortesi D. PyInstaller Manual, 2025. URL: https://pyinstaller.org/en/stable/index.html (дата обращения: 03.04.2025)</mixed-citation></ref><ref id="B21"><mixed-citation>21. van Rossum G. at al. 5.1.3. List Comprehensions. Python, 2025. URL: https://docs.python.org/3/tutorial/datastructures.html#list-comprehensions (дата обращения: 03.04.2025)</mixed-citation></ref><ref id="B22"><mixed-citation>22. Reznichenko O. Appendix to article &amp;quot;Methods and Software Tools for Uploading Publication Data of a Scientific Organization Posted on eLIBRARY.RU&amp;quot; // GitHub. 2025. URL: https://github.com/leo-phoenix/elibrary_html_to_xls (дата обращения: 03.04.2025)</mixed-citation></ref></ref-list></back></article>