Специальные библиотеки. Соколова Ж.В. Роль информационно-поискового тезауруса в тематическом поиске

Введение. Современная информационно-поисковая система (ИПС) – это автоматизированная поисковая система, реализованная на средствах электронно-вычислительной техники, представляющая собой совокупность технических, программных и лингвистических средств, а также информационных массивов и их носителей. ИПС предназначена для реализации информационных потребностей пользователей, то есть для выявления в некотором множестве документов всех тех, которые посвящены указанной теме и удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые факты, сведения, данные. Поиск будет эффективным, если каждый документ имеет формализованное описание на том же информационно-поисковом языке (ИПЯ), на котором составлен запрос. Как бы ни была совершенна ИПС, между ней и пользователем необходим посредник, хорошо знающий предмет, область знания, которую изучает пользователь и возможности поисковой системы. Успех поиска во много зависит от квалификации специалистов, занятых аналитико-синтетической обработкой информации, от того, насколько полно будут раскрыты ими проблемы, отраженные в первичном документе, и насколько правильно они будут переведены с естественного языка на формализованный язык ИПС. Результаты семантического поиска зависят также от того, какие ИПЯ используются в поисковой системе, насколько полно они отражают современное состояние области знаний, а также от уровня знаний самого пользователя в специальной области и грамотности в вопросах информационного поиска. (2, с. 9-13).

В Федеральном государственном бюджетном научном учреждении «Центральная научная сельскохозяйственная библиотека» (ЦНСХБ) используются предкоординатные и посткоординатные ИПЯ. К предкоординатным (классификационным) языкам относятся: Универсальная десятичная классификация (УДК) и Отраслевой рубрикатор по сельскому хозяйству и продовольствию (ОР). К посткоординатным ИПЯ относятся дескрипторный язык и язык ключевых слов.

С помощью данных ИПЯ в процессе аналитико-синтетической обработки создается поисковый образ документа, выражающий основное смысловое содержание документа в свернутом виде для реализации информационного поиска в базе данных (БД).

Использование методик индексирования на различных ИПЯ способствует унификации обработки документов, гарантирует отнесение документов одной тематики в одно место, способствует преодолению субъективизма в определении места документа в ИПЯ, способствует точности, полноте и однозначности отображения информации в БД. Именно от точности и единообразия описания исходной информации языковыми средствами зависит релевантность (степень соответствия содержания документа, найденного при поиске, содержанию информационного запроса) и полнота поиска. (1, с. 15-19).

Повысить эффективность поиска можно, преодолевая такие особенности естественного языка как синонимия, омонимия, нечеткость представления отдельными понятиями предметного множества. В наибольшей степени семантическому контролю подвергается дескрипторный язык, основным инструментом которого является тезаурус.

Целью исследования является изучение роли информационно-поискового тезауруса (ИПТ) в тематическом поиске.

Методика исследования. Работа выполнена на материалах политематической базы данных «АГРОС», генерируемой ЦНСХБ, содержащей более 1 900 млн. документов. Тематический охват БД – сельское хозяйство, пищевая промышленность, лесное хозяйство, рыбное хозяйство, охрана окружающей среды, а также смежные науки и отрасли. При составлении тематических запросов использовались возможности ИПС «Артефакт». Работа проводилась в соответствии с различными методическими материалами и инструкциями, разработанными в ЦНСХБ.

Содержание работы.

При поиске информации в БД пользователь сталкивается с проблемой, каким именно образом можно найти нужные ему документы. Как правило, использование естественного языка при поиске дает большую полноту (количество найденных документов) в ущерб релевантности. Специальные ИПЯ разработаны и используются с целью краткого, точного и единообразного отражения содержания документов. Формулирование запросов на ИПЯ повышает релевантность и оперативность поиска. (3, с. 172-173). Одним из них является дескрипторный язык, отображаемый дескрипторами ИПТ.

ИПТ как лексический инструмент ИПС представляет собой постоянно обновляемый контролируемый машинный словарь научных терминов, отобранных с учетом их значимости и частоты встречаемости в документах БД и прошедших специальную лингвистическую экспертизу и обработку. Термины ИПТ (дескрипторы и аскрипторы) упорядочены по систематическому и алфавитному принципам с указанием на существующие между ними смысловые связи иерархического и неиерархического типа (парадигматические отношения).

Основные функции тезауруса следующие: сбор, нормализация и систематизация используемой в научной литературе лексики; индексирование документов и запросов; обеспечение согласованного, единообразного и формализованного представления информации в БД и ее продуктах; обеспечение полноты и точности информационного поиска путем программной реализации иерархических отношений и отношений синонимии; формально-логический контроль терминов индексирования БД; функция терминологического справочного пособия.

В ЦНСХБ разработан Информационно-поисковый тезаурус по сельскому хозяйству и продовольствию. На данный момент ИПТ объемом более 49 тыс. терминов охватывает все отрасли АПК и достаточно полно отражает современное состояние сельскохозяйственной науки и практики.

Лексические единицы тезауруса – это термины, используемые в научной литературе, и общезначимая лексика. Основу структуры тезауруса составляют иерархические отношения, термины сгруппированы по принципу подчинения узких конкретных понятий понятиям широкого характера. Например, широкий термин зерновые культуры является вышестоящим по отношению к узким, подчиненным ему, терминам пшеница, рожь, овес, ячмень, кукуруза и другие зерновые культуры. За счет иерархических связей ИПТ осуществляется автоматическое расширение терминов тезауруса. Благодаря этому, например, документ о пшенице войдет в результат поиска как по запросу пшеница, так и по запросу зерновые культуры, что отвечает требованиям релевантности и полноты поиска.

Многие понятия в ИПТ отражены не одним, а несколькими терминами, являющимися синонимами. В запросе может быть использован любой из них: крс или крупный рогатый скот; колорадский жук или Leptinotarsa decemlineata; вентиляция или вентилирование. При этом поиск будет проводиться по основному термину.

Рассмотрим особенности тематического поиска на конкретных примерах в ИПС «Артефакт» БД «АГРОС».

Воспользуемся возможностями простого поиска на естественном языке. Предположим, нас интересуют проблемы фитомелиорации нарушенных земель. Формулируем поисковое предписание (рисунок 1).

Рисунок 1 – Формулировка простого поискового предписания

Проводим поиск и получаем результаты (рисунок 2).

Рисунок 2 – Результаты простого поиска

Найдено всего 6 документов. Воспользуемся возможностями сложного поиска на языке ИПТ. Для этого в тезаурусе находим нужные термины и вставляем их в соответствующее поле (рисунок 3).

Рисунок 3 – Формулировка сложного поискового предписания

Проводим поиск и получаем результаты (рисунок 4).

Рисунок 4 – Результаты сложного поиска

Найден 231 документ. Это значительно больше, чем в предыдущем запросе. Чем это может быть вызвано? При первом запросе поисковое предписание составлено на естественном языке, во втором – на языке тезауруса. Внешне запросы похожи, но во втором случае запрос сделан более корректными терминами (рисунки 5 и 6).

Рисунок 5 – Документы, найденные при сложном поиске

Рисунок 6 – Образец найденного документа

Попытаемся сделать более сложный запрос. Например, нас интересует информация о беспривязном содержании коров черно-пестрой породы.

Составляем поисковое предписание в шаблоне простого поиска по ключевым словам (рисунок 7).

Рисунок 7 – Поисковое предписание в шаблоне простого поиска

Получаем следующие результаты (рисунок 8).

Рисунок 8 – Результаты простого поиска

Теперь составляем поисковое предписание в шаблоне сложного поиска в поле тезауруса (рисунок 9).

Рисунок 9 – Поисковое предписание в шаблоне сложного поиска

Получаем следующие результаты (рисунок 10).

Рисунок 10 – Результаты сложного поиска

Анализируем результаты поиска. Видим, что при втором запросе найдено гораздо больше документов. Очевидны преимущества составления запроса по тезаурусу.

Еще один пример. Пользователь ищет информацию по фитофторе, не зная, что это не совсем корректная формулировка понятия «фитофтороз», и получает следующие результаты (рисунки 11 и 12).

Рисунок 11 – Некорректная формулировка искомого понятия

Рисунок 12 – Результаты некорректного запроса

Если бы поисковое предписание было составлено с использованием ИПТ, то было бы найдено значительно большее количество документов (рисунки 13 и 14).

Рисунок 13 – Корректная формулировка искомого понятия

Рисунок 14 – Результаты корректного запроса

При использовании для поиска информации нормализованной лексики ИПТ можно достичь максимально эффективных результатов, так как унифицированная терминология позволяет преодолеть такую особенность естественного языка, как неоднозначность (одно и то же понятие может быть сформулировано по-разному).

Роль ИПТ в тематическом поиске сложно переоценить. Обширный запас научной лексики тезауруса помогает составлять поисковые предписания максимально конкретными и корректными, сократить время поиска и получить релевантную информацию.

Выводы. Использование ИПТ как основного инструмента дескрипторного языка обеспечивает эффективный и качественный поиск информации по различным отраслям знаний в БД «АГРОС».

Список источников

  1. 1. Индексирование документов базы данных ЦНСХБ. Методические указания // состав. Пирумова Л.Н., Харченко Л.Т. – Москва, 1995. – 35 с.
  2. 2. Пирумова Л.Н., Харченко Л.Т. Тезаурус по сельскому хозяйству и продовольствию: индексирование документов и поиск информации в БД АГРОС. (Методические материалы) – Москва, 2001. – 70 с.
  3. 3. Харченко Л.Т., Климова Е.В. Оптимизация стратегии поиска в базе данных «Агрос» // Библиотечное дело – 2005: деятельность библиотек и развитие информационной культуры общества / Моск. гос. ун-т культуры и искусств. – Москва, 2005. – С. 172-173.

Сведения об авторе

Соколова Жанна Владимировна - старший научный сотрудник отдела аналитико-синтетической обработки документов и лингвистического обеспечения, Федеральное государственное бюджетное научное учреждение «Центральная научная сельскохозяйственная библиотека»

К оглавлению выпуска

14.03.2018, 1320 просмотров.