Андреева Е.В. Микротезаурус по техническому обеспечению АПК как инструмент точного тематического поиска в информационных потоках ЦНСХБ
Лавинообразный рост объема информации по инновационным технологиям и техническим средствам в АПК определили актуальность создания новой системы классификации накопленных знаний для обеспечения их оперативного использования. Одной из важнейших задач научной обработки информационного потока бумажных и электронных документов в научной сельскохозяйственной библиотеке является отбор наиболее ценной и актуальной научно-технической информации по проблемам АПК, которая должна обеспечить удовлетворение информационных потребностей пользователей путем получения ими релевантной информации, необходимой для выполнения научных исследований и научно-технических разработок. Получение пользователем релевантной информации на его запрос зависит от качества индексирования, его полноты и точности раскрытия содержания документа, а также представления этих документов в информационных массивах. Эти процессы обеспечиваются лингвистическими средствами, при использовании которых ведется индексирование документов и формирование, структурирование информационных потоков, тематический поиск в них. Объем и лексическое наполнение лингвистических средств, влияют также на эффективность тематического поиска. В структуру лингвистического обеспечения информационно-поисковой системы ЦНСХБ входят 5 информационно-поисковых языков (ИПЯ): язык библиографического описания, УДК, отраслевой рубрикатор, отраслевой тезаурус, язык ключевых слов. Поиск ведется по 4 ИПЯ (кроме УДК). Кроме информационно-поискового тезауруса по сельскому хозяйству и продовольствию (включающего терминологию по всем отраслям АПК) создают тезаурусы по отдельным отраслям АПК (ветеринария, пищевая промышленность, животноводство и т.д.), так называемые микротезаурусы (МТ), которые позволяют проанализировать терминологическую наполненность отдельной отрасли, выявить лакуны и т.п.. Микротезаурусы имеют такую же структуру, как и информационно-поисковый тезаурус, формируются по той же методике в соответствии с ГОСТом, но имеют существенное отличие. В отличие от информационно-поискового тезауруса по сельскому хозяйству и продовольствию, МТ является также таблицей соответствия терминологии по отдельной отрасли, представленной в нескольких ИПЯ (тезаурус, отраслевой рубрикатор и УДК). Таким образом, микротезаурус является средством индексирования документов, структурирования, формирования информационных массивов и поиска в них. Для этих целей разрабатывался и пополняется новой лексикой микротезаурус по техническому обеспечению АПК, который позволяет максимально точно отобразить содержание документа, создает поисковый образ документа и точно представляет информацию о нем в автоматизированной информационно-поисковой системе, благодаря чему обеспечивается эффективность и качество тематического поиска в базе данных «АГРОС».
По мнению многих специалистов, тезаурус обеспечивает наиболее эффективный и точный тематический поиск, при условии достаточно полного представления в нем отраслевой лексики. Микротезаурус по техническому обеспечению АПК отражает актуальную лексику, обогащенную связями, пояснениями, синонимами, антонимами и приведенную в структуру, не противоречащую системам научных классификаций. Благодаря своему лексическому составу, МТ позволяет индексировать, то есть адекватно и точно раскрыть содержание документа, а структура словарных статей: иерархические деревья, парадигматические связи обеспечивают релевантный поиск. Преимущество тезауруса как поискового средства заложено в его структурных особенностях. В соответствии с методикой, формирование МТ начинается с отбора терминологии тематической области «Техническое обеспечение АПК» из научных отечественных и зарубежных публикаций, который проводился в процессе семантического анализа тексов при индексировании документов из входного тематического потока, поступающего в ЦНСХБ и выделения актуальной терминологии. Для выделения терминов использовали массив базы данных «АГРОС», сформированный тематическими рубриками отраслевого рубрикатора: 55.03 Машиноведение и детали (сельскохозяйственных) машин; 55.57 Тракторное и сельскохозяйственное машиностроение; 67 Строительство (в сельском хозяйстве); 68.01.84 Энергоснабжение, водоснабжение в сельском хозяйстве; 68.85 Механизация и электрификация сельского хозяйства. Затем над термином устанавливается мониторинг в целях определения частотности использования терминов. Затем проводится нормализация термина: выявление синонимичных рядов отобранных понятий, установление между ними внеконтекстных отношений, лингвистическая обработка лексических единиц, редактирование ранее введенных терминов и их отношений в связи с очередным обновлением лексики, формирование словарных статей и формирование словаря нормализованной лексики. В процессе нормализации лексики устраняются элементы неоднозначности, с целью обеспечения однозначности толкования термина. Отношения, которые устанавливаются между терминами, не только определяют его структуру, но влияют на релевантность и полноту поиска. Например, иерархические отношения используются при автоматическом расширении поисковых предписаний тематического запроса. Отношение предпочтения, устанавливаемые между термином со статусом дескриптора (разрешенного к использованию при индексировании термина) и статусом аскриптора (запрещенного к использованию при индексировании термина), делают возможным поиск по любому термину, известному пользователю, независимо от его статуса в словарной статье. Т.е. в поисковом предписании можно использовать любой синоним, и благодаря тому, что все выявленные синонимы находятся (связаны связями) в одной словарной статье микротезауруса, поиск по этому термину будет проведен - обеспечена полнота поиска. Поэтому в ходе создания МТ стояла задача выявления максимального числа известных синонимов. После установления парадигматических связей термина, формирования словаря нормализованной лексики, подбирают соответствующий англоязычный эквивалент каждому дескриптору (термину) и эквивалента из международных тезаурусов; составляют список соответствующих рубрик отраслевого рубрикатора и индексов УДК. (1). Следующий этап заключается в создании таблиц соответствия между дескрипторами МТ и рубриками отраслевого рубрикатора, т.е. дескриптору МТ подыскивали эквивалент в отраслевом рубрикаторе, выраженный рубриками отраслевого рубрикатора, затем дескриптору подыскивали соответствующий эквивалент в УДК и приписывается его индекс. Другими словами понятию, отображенному дескриптором тезауруса, подыскивается соответствующее место в классификационных информационно-поисковых языках и приписывается соответствующий индекс, т.е. происходит установление смыслового соответствия.
Работа над микротезаурусом ведется постоянно: добавления новых терминов, редакция словарных статей и парадигматических (смысловых) связей терминов и т.д. Благодаря этому микротезаурус адекватно отражает отраслевую терминологию, что повышает его качество как терминологического справочника и поискового средства.
Таким образом, микротезаурус по техническому обеспечению АПК охватывает терминологию по строительству в сельском хозяйстве, энергетике, сельскохозяйственной технике, сельскохозяйственному машиностроению и машиноведению. При индексировании документов для полного и адекватного раскрытия содержания документа могут использоваться как дескрипторы (термины, разрешенные к использованию при индексировании) так и ключевые слова (новые термины, не включенные в микротезаурус). Дескрипторы это лексические единицы, выраженные информативными словами или кодами, являющимися именем класса синонимичных или близких по смыслу ключевых слов, которые часто встречаются в технической литературе, и включены в микротезаурус, то есть оснащены связями, выше- и нижестоящими терминами, пояснениями, примечаниями, синонимами, ассоциативными связями и т.п., имеющими кроме того английский эквивалент, рубрику отраслевого рубрикатора и индекс УДК. Ключевые слова это новые термины, не включенные в микротезаурус, но имеющие возможность быть включенными в него после соответствующей обработки. Индексирование ключевыми словами направлено на обеспечение полноты поиска. Таким образом, в микротезаурусе в электронном формате термины представлены в алфавитном порядке вместе со всеми элементами лингвистического окружения, которые составляют словарную статью термина. В словарной статье термина может быть примечание, имеются эквивалент(ы) термина на английском языке; эквивалент термина в международных тезаурусах (AGROVOC или CABI); вышестоящие термины (метка «В»с указанием уровня иерархии); нижестоящие термины (метка «Н» с указанием уровня иерархии); синонимы (метка «С»); ассоциированные термины (метка «А»).
Примеры словарной статьи:
Рубрика: 68.47.85.23; 68.85.35.15
УДК: 630*232.216;630*232.322; 630*237.1; 631.31
Иноязычный эквивалент: cultivating machines ; tillage machines
Входит в микротезаурус: Лесное хозяйство; Техника в сельском хозяйстве
· B1 С-Х МАШИНЫ
· H1 БОРОНЫ
· H1 ГРЕБНЕОБРАЗОВАТЕЛИ
· H1 ГРЯДОДЕЛАТЕЛИ
· H1 КАТКИ
· H1 КУЛЬТИВАТОРЫ
· H1 ЛУЩИЛЬНИКИ
· H1 ОКУЧНИКИ
· H1 ПЛОСКОРЕЗЫ
· H1 ПЛУГИ
· H1 ПОЧВОУГЛУБИТЕЛИ
· H1 ПОЧВОФРЕЗЫ
· H1 РОТАЦИОННЫЕ МОТЫГИ
· H1 РЫХЛИТЕЛИ
· H1 ЧИЗЕЛИ
· А БОРОЗДОДЕЛАТЕЛИ
· А ОБРАБОТКА ПОЧВЫ
Рубрика: 68.85.37.15
УДК: 631.348:632.934.1
Иноязычный эквивалент: sprayers
Входит в микротезаурус: Защита растений; Пищевая промышленность; Техника в сельском хозяйстве
· B1 С-Х МАШИНЫ
· H1 ВЕНТИЛЯТОРНЫЕ ОПРЫСКИВАТЕЛИ
· H1 МЕЛКОКАПЕЛЬНЫЕ ОПРЫСКИВАТЕЛИ
· А МАШИНЫ ДЛЯ ЗАЩИТЫ РАСТЕНИЙ
· А НАСАДКИ
· А ОПРЫСКИВАНИЕ
· А ФОРСУНКИ
Поскольку понятие предметной области может иметь несколько возможных вариантов лексического представления, то для обеспечения однозначности в тезаурусе, из них выбирали один термин, называемый дескриптором, который рассматривается как основной способ отображения понятия и используется при индексировании. Дескриптор должен отвечать требованиям общеупотребительности, частоты использования, краткости, терминологической точности. Для уточнения значения термина, придания ему однозначности использовали краткие пометы (реляторы), например: клетки (помещения), мойка (процесс), гусеницы технические, семяпроводы технические и т.д. Кроме того, значение термина уточнятлись дефинициями, пояснениями, указанием области применения, которые даются в примечании к термину. (1). Например:
АЛЬТЕРНАТИВНЫЕ ИСТОЧНИКИ ЭНЕРГИИ
Рубрика: 65.01.84; 68.01.84.55
УДК: 620.9; 664.08
Примечание: Возобновляемые источники энергии + мускульная сила человека, грозовая энергетика, управляемый термоядерный синтез
Иноязычный эквивалент: alternative energy sources
Входит в микротезаурус: Пищевая промышленность; Техника в сельском хозяйстве
· B1 ЭНЕРГОРЕСУРСЫ
· H1 ВОЗОБНОВЛЯЕМЫЕ ИСТОЧНИКИ ЭНЕРГИИ
· А ЭНЕРГИЯ
БИОЭТАНОЛ
Рубрика: 68.85.15.43
УДК: 62-631.42; 662.767.2
Примечание: Этиловый спирт, получаемый в процессе переработки растительного сырья для использования в качестве моторного биотоплива
Иноязычный эквивалент: bioethanol
Входит в микротезаурус: Техника в сельском хозяйстве
· B1 БИОТОПЛИВО
· А МОТОРНОЕ ТОПЛИВО
· А ЭТИЛОВЫЙ СПИРТ
Кроме того, некоторые термины могут быть заменены на синонимичные
ПРИСПОСОБЛЕНИЯ ТЕХНИЧЕСКИЕ
Иноязычный эквивалент: mechanical facilities
· см. УСТРОЙСТВА
Иерархические и ассоциативные связи установлены в микротезаурусе только между дескрипторами. Иерархические отношения (отношения подчинения) установлены между понятиями (терминами), объем одного их которых представляет собой часть объема другого. На различных уровнях между основанием и вершиной иерархического дерева находятся термины, каждый из которых имеет только один вышестоящий термин и нижестоящие термины разного уровня иерархии. (2, 3). Наглядно это видно на примере словарных статей «Копатели» и «Машины для обрезки растений»:
КОПАТЕЛИ
Рубрика: 67.29.55; 68.85
УДК: 631.311.3
Иноязычный эквивалент: diggers
Входит в микротезаурус: Техника в сельском хозяйстве
· B1 С-Х МАШИНЫ
· H1 ГИДРОБУРЫ
· H1 ЯМОКОПАТЕЛИ
· А ЭКСКАВАТОРЫ
Рубрика: 68.85.35.21
УДК: 631.342
Примечание: А также устройства для обрезки растений
Иноязычный эквивалент: pruning machines
Входит в микротезаурус: Техника в сельском хозяйстве
· B1 С-Х МАШИНЫ
· H1 СУЧКОРЕЗНЫЕ МАШИНЫ
· А ИНСТРУМЕНТЫ
· А ОБРЕЗКА РАСТЕНИЙ
Ассоциативная связь установлены между двумя дескрипторами вне зависимости от их тематической принадлежности или уровня иерархии, но никогда – между терминами, связанными синонимическими или иерархическим отношениями. Основное назначение ассоциативно связанных терминов – помочь пользователю при поиске точнее выбрать нужный дескриптор для включения его в поисковое предписание. (4). Например:
С-Х ТЕХНИКА
Рубрика: 68.75.41; 68.85
УДК: 631.3
Иноязычный эквивалент: farm machinery, agricultural engineering
Входит в микротезаурус: Пищевая промышленность; Техника в сельском хозяйстве; Экономика сельского хозяйства
· B1 МТП
· B1 ТЕХНИКА
· H1 ЗАРУБЕЖНАЯ ТЕХНИКА
· H1 СПИСАННАЯ ТЕХНИКА
· С СЕЛЬХОЗТЕХНИКА
· А ГОСТЕХНАДЗОР
· А МЕХАНИЗАЦИЯ ЖИВОТНОВОДСТВА
· А ПРОКАТ ТЕХНИКИ
· А РОБОТОТЕХНИКА
· А С-Х МАШИНЫ
· А ТЕХНИЧЕСКИЕ ХАРАКТЕРИСТИКИ
Таким образом, микротезаурус по техническому обеспечению АПК, включающий термины, обогащенные связями синонимии, обеспечивает возможность построения гибких стратегий информационного поиска. Он способствует более полному, точному и детальному отображению содержания документа в базе данных ЦНСХБ и помогает пользователям в быстром и точном поиске публикаций по конкретным техническим вопросам и проблемам.
Список источников
1. Тимофеевская С. А. Микротезаурус по животноводству как лингвистическое средство в информационно-поисковой системе ЦНСХБ / С. А. Тимофеевская // Молочное и мясное скотоводство. – 2017. ‑ № 7. – С. 36-39.
2. Пирумова Л. Н., Харченко Л. Т. Тезаурус по сельскому хозяйству и продовольствию: индексирование документов и поиск информации в БД «АГРОС»: методические материалы. - М., 2001. ‑ 69.с.
3. Пирумова Л.Н., Милевская И.А. Научная терминология в публикациях и информационно-поисковых системах по вопросам сельского хозяйства и пищевой промышленности // Библиотечное дело – 2013: библиотечно-информационная деятельность в современной система информации, документальных коммуникаций и культуры: Скворцовские чтения / Моск. гос. ун-т культуры и искусств. – М. 2014, ч. 1. – С. 182-184.
4. Пирумова Л.Н., Милевская И.А. К вопросу о семантической обработке документов в научной библиотеке. Библиотечное дело ‑ 2016: библиотечно-информационные коммуникации в поликультурном пространстве: Скворцовские чтения; Материалы двадцать первой международной научной конференции (Москва, 27–28 апреля 2016 года) / Мос. гос. ун-т культуры и искусств. – М., 2016. - С. 540-544.
Сведения об авторе
Андреева Елена Владимировна - старший научный сотрудник отдела аналитико-синтетической обработки документов и лингвистического обеспечения, Федеральное государственное бюджетное научное учреждение «Центральная научная сельскохозяйственная библиотека»
sis
17.02.2018, 1399 просмотров.