Тимофеевская С.А. Некоторые особенности тезаурусов зарубежных и международных баз данных по сельскому хозяйству
Введение. В настоящее время в условиях возрастающего потока информации, подключения к ресурсам Интернета возникает с одной стороны проблема создания единого информационного пространства и доступности информации, а с другой стороны – поиска необходимой информации по отдельной предметной области. Для того, чтобы освободить пользователя от необходимости при поиске прочитывать или просматривать полные тексты документов и ускорить поиск нужной информации, необходимо ее свернуть, перевести на формализованный информационно-поисковый язык (ИПЯ), позволяющий ввести (представить) информацию в информационно-поисковую систему, базу данных (БД), а затем вести в ней поиск. Поскольку выбор ИПЯ является свободным и каждая библиотека использует свои ИПЯ, то обмен информацией между ними может быть затруднен из-за несовместимости этих ИПЯ. Проблема совместимости лингвистических средств существует как для отдельных БД и информационно-поисковых систем (ИПС), так и для отраслевых информационных сетей. Очевидно, что добиться совместимости отдельной ИПС легче, чем в отраслевой сети, в состав которой входит множество различных ИПС с разнообразными средствами лингвистического обеспечения. Актуальна проблема совместимости лингвистических средств и для ИПС библиотек сельскохозяйственной отрасли (2). С целью повышения качества обработки информации и решения проблемы доступности для отечественного пользователя международных БД по сельскому хозяйству и продовольствию изучали особенности тезаурусов международных и зарубежных баз данных в терминологической области животноводства.
Наиболее авторитетными БД, охватывающими весь спектр вопросов сельского хозяйства (в том числе животноводство), пищевой промышленности и проблем, смежных с ними, являются 3 БД: «AGRICOLA» (БД National agricultural library (NAL), Национальной сельскохозяйственной библиотеки США), «AGRIS» (БД Food Agricultural Organization (FAO) ‑ Продовольственной и сельскохозяйственной организации Объединенных Наций) и «CAB ABSTRACTS» (БД Commonwelth Agricultural Bureaux International (CABI): Международное сельскохозяйственное бюро стран Британского содружества). Из отечественных БД по объему и тематическому охвату с ними может сравниться только БД ЦНСХБ «АГРОС». Для индексирования документов и поиска в БД «АГРОС» используется разработанный Информационно-поисковый тезаурус по сельскому хозяйству и продовольствию (ТЦ). Зарубежные БД используют в качестве лингвистического обеспечения рубрикаторы ‑ коды тематических рубрик и тезаурусы. Наиболее интересны усилия по совместимости основных средств индексирования и тематического поиска в БД «AGRICOLA», «AGRIS», «CAB ABSTRACTS» ‑ тезаурусов этих БД. Идея создания единого тезауруса, объединяющего два уже существующих тезауруса (CABI и AGRIS (AGROVOC)), появилась еще в 1990-х годах, но до сих пор не реализована, как раз из-за проблем их совместимости. У этих тезаурусов, несмотря на то, что они англоязычные, разные концепции построения словарных статей, присвоения статуса терминам и т.д. Но даже и в английском языке обнаруживаются разные терминологические предпочтения, которые выяснились, например, в период, когда NAL использовала для индексирования своей базы данных тезаурус CABI. Оказалось, что и между ними были различия и NAL вводила в тезаурус CABI свои национальные термины с соответствующей пометкой. БД «AGRIS» создается усилиями более чем 150 стран, которые поставляют в нее информацию о национальных документах своих стран, поэтому ее тезаурус «AGROVOC» многоязычный, существуют версии на 29 языках, что для стран-участников решает проблему совместимости их баз данных с БД «AGRIS». В
Цель работы – пополнить, обобщить и сравнить сведения о тезаурусах для более эффективной работы с ТЦ и русскоязычной версией тезауруса «AGROVOC».
В работе использовались теоретические методы исследования: метод анализа и селекции информационных источников и метод обобщения и систематизации информационных данных.
Содержание и результаты. Тезаурус БД «CABABSTRACTS»(ТСА) служит для формирования запроса и поиска в БД, а также формирования самой БД. По ТСА формируются поисковые предписания, индексируются документы для БД и изданий РЖ (реферативных журналов). Новые термины появляются в процессе индексирования документов и существуют некоторое время на правах ключевых слов. В ТСА каждый дескриптор имеет вышестоящие и нижестоящие понятия. Вышестоящее понятие приписывается автоматически к выбранному дескриптору. Используется принцип инверсии в сложных дескрипторах.
Словарная статья имеет: BT ‑ вышестоящий термин, NT ‑ нижестоящий термин, rt ‑ ассоциации, HN ‑ исторические заметки, AF ‑ американская форма, BF ‑ английская форма.
В CABI существует группа контроля качества индексирования. Проверки осуществляются, как только документ поступил в БД. Контроль осуществляется на разных этапах технологического процесса создания поискового образа документа. В БД существует формально-логический контроль написания терминов тезауруса.
На данном этапе наибольший интерес как инструмент поиска в базе данных для нас представляет тезаурус «AGROVOC» (ТА). Он используется для классификации, индексирования, описания содержания и маркировки (включая текст-майнинг) документов, а также для поиска библиографических данных в электронных библиотеках и хранилищах данных по широкому тематическому диапазону: сельское хозяйство, лесное хозяйство, аквакультура и рыбное хозяйство, водное хозяйство, вопросы механизации и строительства, природные ресурсы, загрязнение окружающей среды, питание и здоровье человека, образование и др. На сегодняшний день ТА доступен на 29 языках в виде концептуальной схемы (RDF/SKOS-XL), где концепты, их этикетки (лейблы/метки/пометки) и связи/отношения являются основными структурными элементами. (3). RDF (Resource Description Framework) – модель представления данных в виде, пригодном для машинной обработки. SKOS (Simple Knowledge Organisation System) – модель организации знаний для семантической паутины, призванная обеспечить взаимодействие различных информационных систем за счет стандартизации тезаурусов.
Концепты – это всё то, что обозначает понятия нашей предметной области (заменяет реальные предметы), набор необходимых терминов. Из-за многоязычности ТА концепты идентифицированы универсальными цифровыми идентификаторами ресурсов (URI), например: http://aims/fao/org/aos/agrovoc/c_8163; «молочная телятина» ‑ это этикетка для данного URI (или URL) на русском языке.
Термины (этикетки) ‑ это реальные лексические единицы (слова или словосочетания) со строгой и точной дефиницией, четкими семантическими границами для выражения концептов. Они выражают один и тот же концепт на разных языках (выражены через расширение SKOL-XL). Используются предпочтительные этикетки (дескрипторы – в обычном тезаурусе), альтернативные этикетки (для выражения синонимов или устранения неоднозначности – UF – use for). Для выражения иерархических связей используются предикаты (утверждения), соответствующие классическим связям в тезаурусе: вышестоящие/нижестоящие – broader/narrower (BT/NT). Неиерархические отношения выражают понятия «родства» между концептами через skos:related (в классическом тезаурусе – ассоциация RT) и специфический словарь связей «Agrontology». Пример термина из ТА:
TERM: (c_8163) RU: молочная телятина
|
Около 80% концептов ТА – растения и животные. Они могут быть найдены под главным концептом «Организмы».
Каждый концепт ТА может быть подкреплён следующими типами информации:
• терминологическая информация: все термины/этикетки на языках, представляющих концепт;
• структурная информация: отношения/связи между концептами и терминами;
• семантическая информация: определения и/или графические изображения концепта;
• редакционная информация: редакционные примечания и ограничительные пометки.
Концептуальная схема ТА обеспечивает структуру организационных единиц для каждого домена, связанного с сельским хозяйством.
Ранее сотрудниками отдела АСОД ЦНСХБ были проведены исследования, которые выявили, что:
• англоязычные тезаурусы 2 международных БД по сельскому хозяйству имеют большое сходство по тематическому охвату, лексическому составу, построению и элементам словарных блоков, отношениями между терминами, но имеющиеся расхождения в этих областях не позволяют считать их совместимыми в существующем виде;
• ни один из англоязычных тезаурусов не совместим полностью с отечественным тезаурусом;
• англоязычные тезаурусы представляют большую ценность в практической работе с терминами, подготавливаемыми для ввода в ТЦ, в совершенствовании структуры его словарных блоков и словарных «деревьев»;
• невозможна их адаптация к отечественной терминологии и научным традициям (1).
В процессе отбора лексики для ТЦ происходит сближение терминологического состава ТЦ, ТСА и ТА, так как одним из оснований для включения термина в состав ТЦ является наличие его английского эквивалента в ТСА и ТА. Примеры терминов из ТЦ:
Примечание: растений и животных
Иноязычный эквивалент: CELLS
Эквивалентный термин в другом тезаурусе: Cells
Иноязычный эквивалент: VEAL
Эквивалентный термин в другом тезаурусе: Babybeef
Входит в микротезаурус: Ветеринария; Животноводство; Пищевая промышленность
- B1 МЯСО
При разработке словарных статей ТЦ используются лексические примечания, как в зарубежных тезаурусах, вводится предпочтительная связь “use and” (используй в комбинации =+), а также инверсная форма в ТА многословных терминов. Например:
РЕМОНТНЫЕ ТЕЛКИ
Иноязычный эквивалент: replacementheifers
Входит в микротезаурус: Ветеринария; Животноводство
- =+ РЕМОНТНЫЙ МОЛОДНЯК
- =+ ТЕЛКИ
Выводы. С целью облегчения доступа пользователя в зарубежные БД по сельскому хозяйству решаются вопросы сопряжения терминологии с помощью ТЦ. Использование некоторых элементов ТСА и ТА позволяет сделать отечественный тезаурус более совершенным, соответствующим международным стандартам, способствуют его совместимости с зарубежными тезаурусами.
Список источников:
-
1. Пирумова Л.Н. К вопросу о совместимости средств лингвистического обеспечения баз данных по сельскому хозяйству // Библиотеки в меняющемся мире: новые технологии и новые формы сотрудничества: междунар. науч. конф. Судак, 3–11 июня 2000 г.: материалы конф. — Судак, 2000. — С. 397–401.
- 2. Пирумова Л.Н. Лингвистическое обеспечение по вопросам АПК: проблемы разработки и совместимости // Матер.1V научно-практич. Семинара «Электрон. ресурсы биб-к», 30-31 окт.2008, С.-П., 2008. ‑ С. 126-135.
- 3. АГРОВОК: Многоязычный тезаурус сельскохозяйственной терминологии / http://aim.fao.org/ru/about
Сведения об авторе
Тимофеевская Светлана Алексеевна - старший научный сотрудник отдела аналитико-синтетической обработки документов и лингвистического обеспечения, Федеральное государственное бюджетное научное учреждение «Центральная научная сельскохозяйственная библиотека»
17.02.2018, 1421 просмотр.