Ю.В.Смирнов НАУЧНЫЙ ПОИСК В ИНТЕРНЕТЕ
При написании научных работ, от небольших статей до монографий для научных работников, очень важно иметь не только доступ к информации, но и удобные поисковые средства, которых в настоящее время достаточно много.
Одним из основных типов поиска на сегодняшний день является поиск в Интернете, в котором практически монопольное положение занимает поисковая система Google. Ее популярность может продемонстрировать не только статистика, но и большинство языков мира, в которых уже появилось слово «загуглить», означающее «поиск в Интернете с помощью Google».
Причина такой популярности кроется в таких достоинствах как:
-
- простота и удобство использования;
-
- сортировка результатов поиска от наиболее релевантных к менее;
-
- отображение не только адреса страницы (сайта), но и заголовка страницы с небольшим экстрактом, содержащим поисковый запрос, который позволяет составить первое впечатление о релевантности страницы;
-
- возможность уточнения запроса, к которой можно отнести:
-
- уточнение запроса по типу информации (Все, Новости, Картинки, Карты, Видео, Книги, Авиабилеты, Приложения);
-
- уточнение языка отображаемых результатов поиска;
-
- уточнение временных рамок запроса (выбрать из списка период создания страниц, либо задать собственный временной интервал);
-
- возможность использования расширенного поиска;
-
- уточнение запроса с помощью специальных операторов и пунктуации (например: символ «*» (звездочка) служит для замены любого слова в запросе);
-
-
- возможность включить/отключить безопасный поиск, который исключает неприемлемый контент и изображения сексуального характера из результатов.
Другие поисковые системы также обладают одним или несколькими вышеперечисленными достоинствами, однако каждая поисковая система обладает и собственным алгоритмом поиска, что и делает ее уникальной.
Алгоритм поиска Google учитывает такие особенности естественных языков как синонимичность, избыточность и многозначность. Логика сортировки результатов по релевантности в поисковой системе Google кратко и емко описана в книге «Электронные библиотеки. Информационно-коммуникационная среда обитания»: «Логика ранжирования результатов основана на предположении, что все люди имеют схожие проблемы и вопросы, и вам, вероятнее всего, нужно то же, что и другим таким же. Комбинирование этих двух методов – формулирования запросов на естественном языке и выдачи результатов в соответствии с популярностью – оказалось чрезвычайно эффективным.» [1, с. 155]
Кроме поиска по просторам Интернета, компания Google предлагает и систему научного поиска – Google Scholar [2], которая предоставляет доступ к полным текстам статей из многих рецензируемых журналов. В этой системе реализованы очень полезные для научных работников функции:
-
- формирование библиографического описания;
-
- импорт цитат в программы для управления библиографической информацией (например: EndNote, BibTeX и др.)
-
- индексы цитирования.
Однако у Академии Google также есть ряд недостатков:
-
- отсутствие данных об охвате индексируемых научных журналов;
-
- отсутствие информации о частоте обновления базы данных;
-
- отсутствие тематического поиска;
-
- недостаточное развитие системы уточнения запросов.
В отличие от Академии Google, для поисковой системы сайта Web of Science [3], представляющего собой реферативную базу данных публикаций в научных журналах и разрабатываемую компанией Thomson Reuters, была создана удобная система уточнения запросов. Все доступные типы уточнения поиска располагаются в боковой панели слева (например: базы данных, направления исследования, авторы, годы публикаций, языки, страны/территории и т.д.)
В каждом из этих типов предлагается небольшой список наиболее часто встречающихся вариантов во всех документах основного запроса.
Кроме вышеуказанной системы уточнения запросов, в этой поисковой системе предоставлена возможность воспользоваться операторами поиска (например: «AND» для поиска записей содержащих все условия) и символами усечения (например: «*» (звездочка) для замены любого количества символов в том числе и нулевого).
По многим параметрам Академия Google и Web of Science схожи, однако стоит учитывать, что только первая предоставляет полнотекстовый поиск, в то время как вторая предоставляет поиск только по библиографическим данным и не содержит полных текстов индексируемых публикаций.
Обе описанные нами поисковые системы, также как и большинство других подобных им являются системами вербального поиска, т. е. базирующиеся на естественном языке. Некоторые системы в своих поисковых алгоритмах (например: Google) стараются учесть особенности естественных языков такие как синонимичность, избыточность и многозначность, что несомненно улучшает релевантность результата поиска, однако отсутствие систематического поиска усложняет поиск информации.
В качестве подтверждения этих слов приведем один из тезисов учебника «Аналитико-синтетическая переработка информации»: «Отечественные библиотековеды считают, что именно систематический поиск естественен для читателей, так как вся система образования построена по систематическому принципу и обучение ведется не по "ключевым словам", а по "дисциплинам", отраслям знания, областям науки и практической деятельности.» [4, с. 178]
Некоторые поисковые системы Интернета пытаются создавать каталоги интернет-сайтов (например: Каталог Яндекса [5], который представляет собой аннотированные ссылки на сайты, собранные вручную редакторами компании Яндекс) или делать собственные тематические указатели (например: направления исследований в Web of Science). Однако этот исключительно интеллектуальный труд требует затрат на содержание штата сотрудников, к чему большинство поисковых систем Интернета пока не готовы.
Одним из выходов может служить обязательное указание автором публикации индекса кодированного информационно-поискового языка (ИПЯ) (например: Универсальной десятичной классификации (УДК)), позволяющего не только отнести документ к соответствующей отрасли знания, но и улучшить релевантность поиска, включая независимость от языка составления документа. Уже сейчас авторы самостоятельно проставляют ключевые слова в своих публикациях. Это уже стало, можно сказать, стандартом оформления научных публикаций.
Использование кодированных ИПЯ несет для авторов некоторые трудности, поскольку индексированию документов обучают только учащихся и студентов библиотечных специальностей, а практику индексирования многие проходят по месту работы. Также стоит отметить, что многие выпускники этих специальностей не всегда могут сами проставить классификационный индекс.
Но и эти трудности решаемы. Необходимо либо ввести факультативный курс по месту учебы по использованию кодированных ИПЯ, включающий как теорию, так и практику индексирования, либо создать недорогие и несложные учебные пособия.
Говоря о введении подобного курса необходимо отметить, что многие пользователи поисковых систем Интернета, в частности Google, не знакомы с такими функциями как уточнение запроса с помощью специальных операторов и пунктуации, которые могут значительно улучшить релевантность поиска. Поэтому нам кажется целесообразным вводить комплексный курс по информационному поиску.
С этим предложением согласятся не все, но не стоит забывать, что с появлением Интернета количество произведенной человечеством информации постоянно увеличивается, а без умения быстро получать релевантную информацию человек в ней просто «утонет».
Список литературы
-
1. Земсков, А. И. Электронные библиотеки. Информационно-коммуникационная среда обитания : учебн. пособие / А. И. Земсков, Я. Л. Шрайберг. – М. : ГПНТБ России, 2012. – 402 с.
-
2. Академия Google. URL: https://scholar.google.ru/ (Дата обращения: 02.02.2016)
-
Web of Science. URL: http://apps.webofknowledge.com/ (Дата обращения: 02.02.2016)
-
3. Аналитико-синтетическая переработка информации : учебник / Н. И. Гендина и др. ; науч. Ред. А. В. Соколов ; координатор проекта Л. В. Трапезникова. – Санкт-Петербург : Профессия, 2013. – 336 с.
-
4. Яндекс каталог. URL: https://yaca.yandex.ru/ (Дата обращения: 02.02.2016)
-
Сведения об авторе
-
СМИРНОВ Юрий Викторович, научный сотрудник, Государственная публичная научно-техническая библиотека России
23.04.2016, 2679 просмотров.