Е.В. Ткачёва Web of Science и eLibrary как инструменты повседневной работы библиотекаря

     Современная научная библиотека должна выполнять для своих пользователей функцию навигатора в информационном пространстве [1]. Это подразумевает владение навыками работы с широким перечнем первичных и вторичных источников библиографической информации, существующих в Интернете. Базы данных (библиографические, реферативные, полнотекстовые) требуют от информационного работника не столько владения предметной областью, сколько владения соответствующими поисковыми инструментами. Библиометрические исследования, перестав последние годы быть только исследованиями, во многом переродившись в «библиометрические инструменты» в руках эффективного управленца, стали полем деятельности широкого круга информационных работников, требуя от них овладения новыми компетенциями.

      Авторитетным примером политематической библиографической базы данных является база данных Web of Science Core Collection. Эта база данных является одновременно реферативной и фактографической (содержит информацию о цитированиях). Последнее обстоятельство подчеркивается и в названии её предшественника – Индекса научного цитирования (Science Citation Index). Крайне важно помнить, что информация о цитировании изначально рассматривалась как дополнительный инструмент тематического поиска [2]. С этой точки зрения, за прошедшие 50 лет существования Индекса научного цитирования научный мир не изменился [3]. Скорее, индексу цитирования была искусственно придана функция индекса эффективности [4].

    На примере базы данных Web of Science Core Collection рассмотрим основные ситуации работы с библиографическими базами данных и базами данных цитирования, с которыми мы чаще всего сталкиваемся при обслуживании реальных пользователей: тематический поиск и поиск публикаций по аффилиации. Поскольку Web of Science является не единственной базой данных, предоставляющей такую информацию, в качестве сравнения мы будем использовать базу данных («электронно-библиотечную систему») eLibrary, принадлежащую Обществу с ограниченной ответственностью «РУНЭБ».

    Под тематическим поиском, далее по тексту, мы будем подразумевать поиск документов, содержащих некоторые (нужные пользователю) ключевые слова (поиск по ключевым словам). При этом в качестве ключевых слов могут использоваться как отдельные термины, так и словосочетания. Наш опыт работы с тематическими поисковыми запросами в библиографических базах данных показал, что наиболее гибкой методикой поиска является разложение исходного тематического запроса на простые (первичные) поисковые запросы, содержащие отдельные ключевые слова или словосочетания [5]. Из первичных поисковых запросов проще отсеять информационный шум, и в дальнейшем можно создавать из результатов первичных запросов (уже релевантных общему запросу) общий список результатов поиска. Обратный подход – создание с помощью логических операторов сложного запроса, включающего все ключевые слова – оказался более трудоемким и требующим больших затрат времени. С одной стороны, в таком сложном запросе нелегко обнаружить и устранить (безопасно для релевантных результатов) информационный шум. С другой стороны, набор первичных запросов оказывается более удобным объектом для внесения каких-либо корректив (например, при изменении ключевых слов в ходе развития научной темы).

    База данных Web of Science предлагает пользователю широкий выбор поисковых операторов. Для конструирования первичных запросов мы используем оператор «AND» для комбинирования различных терминов и словосочетаний и оператор «OR» для комбинирования синонимов ключевых слов. При этом словоформы включаются в запрос с помощью знака астериска с учетом лексики и грамматики английского языка (основного для поиска в Web of Science). Поиск словосочетаний с учетом авторского порядка слов обеспечивается оператором «NEAR/x», где «х» – допустимое число иных слов между ключевыми словами запроса, при этом конкретные значения «x» этого оператора подбираются апостериорно исходя из получаемых каждый раз результатов поиска.

    После того, как первичные поисковые запросы выверены и дают релевантные результаты, появляется возможность объединения выверенных первичных поисковых запросов в итоговый запрос: Web of Science позволяет комбинировать запросы с помощью логических операторов (в данном случае – «OR»). Проблема дублирования среди результатов итогового запроса отсутствует: дублеты исключаются из результатов поиска средствами самой базы данных Web of Science.

    Кроме того, база данных Web of Science предлагает пользователю широкий выбор инструментов экспорта результатов поиска. Во-первых, имеется возможность экспорта списка библиографических описаний в собственный менеджер библиографии Thomson Reuters – EndNote, дальнейшая работа с экспортированными записями осуществляется уже средствами этой программы. Во-вторых, Web of Science позволяет экспортировать библиографические описания в формате BibTex, поддерживаемом любыми другими менеджерами библиографии. В-третьих, экспорт возможен в текстовом формате: в файл CSV, в котором знаком-разделителем выступает символ табуляции, и в текстовый файл с простой теговой разметкой. Формат файла с разделителями демонстрирует абсолютно полную сходимость результатов при импорте его в табличные редакторы.

   Итоговый запрос, сформированный в Web of Science, можно сохранить в аккаунте пользователя и, дополнительно, установить получение на электронную почту оповещений о новых публикациях, появляющихся в Web of Science и соответствующих этому запросу.

    Одной из ситуаций тематического поиска по биологическим наукам является поиск информации по конкретным таксонам, систематическим группам организмов. Пользователя могут интересовать статьи флористического или фаунистического содержания. В качестве примера приведем запрос, сформулированный пользователем: «Рейнутрия» (статьи по биологии, экологии, распространению растений этого рода).

    Отправной точкой при создании тематического запроса по конкретной систематической группе (в данном случае – рейнутрия) является латинское название этой группы. При этом следует иметь в виду, что указанная систематическая группа имеет несколько русскоязычных и латинских синонимичных названий. Поэтому поисковый запрос должен включать все эти варианты: «Reynoutria», «Fallopia», «рейнутрия», «сахалинская гречиха» и даже «рейноутрия».

     В нашем конкретном случае информация была необходима конечному пользователю для выполнения научно-исследовательской работы (НИР) и не оговаривалась глубина ретроспективы источников, вошедших в конечный список. Поэтому на первом этапе пользователю был предоставлен список статей, включавший 247 публикаций (с 1980 по 2016 гг.). Так как упомянутая НИР рассчитана на длительный промежуток времени, итоговый запрос был нами сохранен в аккаунте Web of Science, на запрос было установлено оповещение, и все новые документы, появляющиеся по этому запросу, оперативно предоставляются пользователю через систему избирательного распространения информации БЕН РАН.

     На первый взгляд, поисковые возможности eLibrary в плане тематического поиска не должны уступать Web of Science. База данных eLibrary так же предлагает конечному пользователю стандартный набор логических операторов («И», «ИЛИ», «НЕ»). Словоформы включаются в запрос с помощью знака астериска с учетом лексики и грамматики русского языка (основного для поиска в базе данных eLibrary). Однако, кроме усечения с помощью оператора астериска, база данных eLibrary предлагает подключаемую опцию запроса «Искать с учётом морфологии». Во-первых, эта опция и оператор астериск «конкурируют» между собой. Одновременное использование в одном поисковом запросе оператора астериска и опции «Искать с учетом морфологии» может привести к нулевой выдаче. Во-вторых, опция поиска «с учетом морфологии» учитывает морфологию по неизвестному пользователю алгоритму, в результате чего БД выдает, как будет показано ниже, недостоверные результаты. Оператор «NEAR», имеющийся в базе данных eLibrary, не является оператором уточнения поиска: он лишь влияет на сортировку результатов по релевантности, которая осуществляется так же по неизвестным пользователю алгоритмам.

     База данных eLibrary не дает возможности комбинировать первичные поисковые запросы в более сложные запросы. Перечень найденных в базе данных eLibrary библиографических описаний представляет собой отсортированный (по числу цитирований, году публикации и пр.) список, отображаемый на экране компьютера, и труден для дальнейшего использования. Дополнительно следует отметить, что если выбрать сортировку «по названию журнала», то из отображаемого списка исчезают статьи, опубликованные в других видах изданий (сборники статей, труды конференций).

     Рассмотрим некоторые проблемы, связанные с тематическим запросом по рейнутрии при работе с eLibrary. Для составления запроса используем форму расширенного поиска. В строку «Что искать» вводим русское название рода с использованием астериска «Рейнутр*», чтобы учесть формы этого слова. Последнее условие является «интуитивно подразумеваемым» при работе с большинством баз данных и полнотекстовых платформ, включая Web of Science. Однако полученный при этом ответ eLibrary окажется неожиданным: не найдено ни одной публикации, соответствующей запросу. Отрицательный результат был получен вследствие того, что мы не сняли стоящую по умолчанию «галочку» в поле «искать с учетом морфологии» и столкнулись с упомянутой нами выше странной конкуренцией этой опции с общепринятым оператором усечения. Повторив попытку, предварительно убрав «галочку» в данном поле, получим 7 релевантных запросу статей (по состоянию на октябрь 2016 г.). Парадоксально, что воспользовавшись опцией «Искать с учетом морфологии», для ключевого слова «рейнутрия» мы получим только 6 результатов. Седьмая публикация, хотя и содержит ключевое слово (в форме «рейнутрии»), в результаты поиска не попадает.

    Подобная ненадежность поискового механизма eLibrary ставит под сомнение результаты, получаемые из этой базы данных.

    Вторая ситуация обращения к базам данных цитирования связана с созданием запроса для выявления публикаций конкретной организации и расчетом на их основе показателей публикационной активности. Рассмотрим на примере Федерального государственного бюджетного учреждения науки Главного ботанического сада им. Н.В. Цицина Российской академии наук (ГБС РАН) используемый нами алгоритм выявления публикаций организации.

     Поиск осуществляется по полю аффилиации («Address» в терминологии Web of Science). Публикация считается принадлежащей (аффилированной) нашей организации (ГБС РАН), если в адресе хотя бы одного автора наша организация указана. Упрощенно, задача сводится к тому, чтобы перечислить в поисковом запросе все возможные варианты именования организации на английском языке, которые могли использовать авторы или переводчики публикаций. Логичной отправной точкой при этом является сайт организации, однако на сайте ГБС РАН англоязычная версия официального названия отсутствовала. Поэтому мы обратились к официальным документам (уставу ГБС РАН), где было дано следующее название: Main Botanical Garden RAS. Этот вариант, с учётом возможных сокращений, и стал отправной точкой: «main bot* gar* ras».

     Найденное по этому запросу число публикаций (всего 5) заставило искать другие варианты интерпретации названия организации на английском языке. В ходе подбора синонимов, экспериментов с порядком слов, а также поиска вариантов именования организации в публикациях самых активных сотрудников Главного ботанического сада были обнаружены следующие варианты, встречающиеся в публикациях сотрудников ГБС РАН: Main Moscow Botanical Garden; Tsitsin Botanical Garden; Tsitsin Moscow Botanical Garden; Central Botanical Garden. Эти варианты и легли в основу поискового запроса с использованием оператора усечения, как было показано выше.

    Подход eLibrary к определению публикационной активности организации принципиально отличен от используемого в Web of Science. На первом этапе eLibrary предлагает поиск в индексе организаций. На запрос «Главный ботанический сад» выводится одна искомая организация, причем сразу с указанием числа статей (2 078 на момент написания этого текста) и числа ссылок на эти статьи (8 397, так же). При этом приводимое число результатов является активными ссылками, по которым предлагается посмотреть: 1) список из 2 078 статей и 2) список из 8 397 цитирующих статей. По ссылкам в первом случае загружается список с подзаголовком «Всего найдено 1 684 публикации с общим количеством цитирований: 6 232». А во втором случае загружается список из 5864 цитирующих статей. Так сколько же на самом деле результатов? Для числа публикаций мы получили два разных ответа: 2 078 и 1 684. Для числа цитирований результатов и вовсе три: 8 397, 6 232 и 5 864. Подобная несогласованность в числе результатов свидетельствует об ошибках в проектировании базы данных eLibrary, на что уже обращалось внимание в профессиональной печати [6,7].

    В противовес базе данных eLibrary, Web of Science является авторитетным источником научной информации. Это актуально и для случая тематического поиска, и для случая библиометрической информации. Широкий набор поисковых инструментов, гибкие возможности экспорта информации делают Web of Science удобным инструментом при решении различных задач информационного сопровождения научных исследований. Достоверность предоставляемой информации подтверждается опытом пользователей, прозрачностью методик расчёта библиометрических показателей, доступностью первичных данных для перепроверки выдаваемых Web of Science результатов. База данных eLibrary обладает прямо противоположными характеристиками, из-за чего её можно интерпретировать как поисковую систему, выдающую заведомо недостоверную информацию.

Работа выполнена при поддержке гранта РФФИ № 16–07–00450.

Список литературы 

1. Ивановский А.А., Ткачева Е.В. Присутствие научных изданий в Интернете и значение научной библиотеки // Теория и практика общественно-научной информации: Сборник научных трудов. - М., 2014.- С. 157–161.

  1. 2. Garfield E., Sher I.H. ISI’s Experiences with ASCA – A Selective Dissemination System // Journal of Chemical Documentation. - 1967. V. 7. Iss. 3. - P. 147–153.
  2. 3. Garfield E. A Century of Citation Indexing // COLLNET Journal of Scientometrics and Information Management. 2012. V. 6. Iss. 1. P. 1–6.
  3. 4. Цветкова В.А. Системы цитирования: где благо, где зло // Научные и технические библиотеки. - 2015. - № 1. - С. 18–22.
  4. 5. Ткачева Е.В. Создание и использование тематических запросов в базах данных Web of Science и eLibrary: сравнительный анализ // Петербургская библиотечная школа. - 2016.- № 4 (56) (в печати).
  5. 6. Каленов Н.Е., Селюцкая О.В. О российском индексе цитирования // Новые технологии в информационно-библиотечном обеспечении научных исследований: сборник научных трудов / отв. ред. П.П. Трескова; сост. О.А. Оганова. - Екатеринбург, 2010.- С. 200–217.
  6. 7. Каленов Н.Е., Селюцкая О.В. Некоторые оценки качества Российского индекса научного цитирования на примере журнала "Информационные ресурсы России" // Информационные ресурсы России. - 2010. - №6. - С. 2–13.

 

К оглавлению выпуска

анализ цитирования, citation analysis

08.12.2016, 3273 просмотра.