Тимофеевская С.А. Некоторые особенности тезаурусов зарубежных и международных баз данных по сельскому хозяйству

Введение. В настоящее время в условиях возрастающего потока информации, подключения к ресурсам Интернета возникает с одной стороны проблема создания единого информационного пространства и доступности информации, а с другой стороны – поиска необходимой информации по отдельной предметной области. Для того, чтобы освободить пользователя от необходимости при поиске прочитывать или просматривать полные тексты документов и ускорить поиск нужной информации, необходимо ее свернуть, перевести на формализованный информационно-поисковый язык (ИПЯ), позволяющий ввести (представить) информацию в информационно-поисковую систему, базу данных (БД), а затем вести в ней поиск. Поскольку выбор ИПЯ является свободным и каждая библиотека использует свои ИПЯ, то обмен информацией между ними может быть затруднен из-за несовместимости этих ИПЯ. Проблема совместимости лингвистических средств существует как для отдельных БД и информационно-поисковых систем (ИПС), так и для отраслевых информационных сетей. Очевидно, что добиться совместимости отдельной ИПС легче, чем в отраслевой сети, в состав которой входит множество различных ИПС с разнообразными средствами лингвистического обеспечения. Актуальна проблема совместимости лингвистических средств и для ИПС библиотек сельскохозяйственной отрасли (2). С целью повышения качества обработки информации и решения проблемы доступности для отечественного пользователя международных БД по сельскому хозяйству и продовольствию изучали особенности тезаурусов международных и зарубежных баз данных в терминологической области животноводства.

Наиболее авторитетными БД, охватывающими весь спектр вопросов сельского хозяйства (в том числе животноводство), пищевой промышленности и проблем, смежных с ними, являются 3 БД: «AGRICOLA» (БД National agricultural library (NAL), Национальной сельскохозяйственной библиотеки США), «AGRIS» (БД Food Agricultural Organization (FAO) ‑ Продовольственной и сельскохозяйственной организации Объединенных Наций) и «CAB ABSTRACTS» (БД Commonwelth Agricultural Bureaux International (CABI): Международное сельскохозяйственное бюро стран Британского содружества). Из отечественных БД по объему и тематическому охвату с ними может сравниться только БД ЦНСХБ «АГРОС». Для индексирования документов и поиска в БД «АГРОС» используется разработанный Информационно-поисковый тезаурус по сельскому хозяйству и продовольствию (ТЦ). Зарубежные БД используют в качестве лингвистического обеспечения рубрикаторы ‑ коды тематических рубрик и тезаурусы. Наиболее интересны усилия по совместимости основных средств индексирования и тематического поиска в БД «AGRICOLA», «AGRIS», «CAB ABSTRACTS» ‑ тезаурусов этих БД. Идея создания единого тезауруса, объединяющего два уже существующих тезауруса (CABI и AGRIS (AGROVOC)), появилась еще в 1990-х годах, но до сих пор не реализована, как раз из-за проблем их совместимости. У этих тезаурусов, несмотря на то, что они англоязычные, разные концепции построения словарных статей, присвоения статуса терминам и т.д. Но даже и в английском языке обнаруживаются разные терминологические предпочтения, которые выяснились, например, в период, когда NAL использовала для индексирования своей базы данных тезаурус CABI. Оказалось, что и между ними были различия и NAL вводила в тезаурус CABI свои национальные термины с соответствующей пометкой. БД «AGRIS» создается усилиями более чем 150 стран, которые поставляют в нее информацию о национальных документах своих стран, поэтому ее тезаурус «AGROVOC» многоязычный, существуют версии на 29 языках, что для стран-участников решает проблему совместимости их баз данных с БД «AGRIS». В 2010 г. ЦНСХБ разработала русскоязычную версию этого тезауруса объемом более 32,9 тыс. терминов, эквивалентных терминам тезауруса «AGROVOC».

Цель работы – пополнить, обобщить и сравнить сведения о тезаурусах для более эффективной работы с ТЦ и русскоязычной версией тезауруса «AGROVOC».

В работе использовались теоретические методы исследования: метод анализа и селекции информационных источников и метод обобщения и систематизации информационных данных.

Содержание и результаты. Тезаурус БД «CABABSTRACTS»(ТСА) служит для формирования запроса и поиска в БД, а также формирования самой БД. По ТСА формируются поисковые предписания, индексируются документы для БД и изданий РЖ (реферативных журналов). Новые термины появляются в процессе индексирования документов и существуют некоторое время на правах ключевых слов. В ТСА каждый дескриптор имеет вышестоящие и нижестоящие понятия. Вышестоящее понятие приписывается автоматически к выбранному дескриптору. Используется принцип инверсии в сложных дескрипторах.

Словарная статья имеет: BT ‑ вышестоящий термин, NT ‑ нижестоящий термин, rt ‑ ассоциации, HN ‑ исторические заметки, AF ‑ американская форма, BF ‑ английская форма.

В CABI существует группа контроля качества индексирования. Проверки осуществляются, как только документ поступил в БД. Контроль осуществляется на разных этапах технологического процесса создания поискового образа документа. В БД существует формально-логический контроль написания терминов тезауруса.

На данном этапе наибольший интерес как инструмент поиска в базе данных для нас представляет тезаурус «AGROVOC» (ТА). Он используется для классификации, индексирования, описания содержания и маркировки (включая текст-майнинг) документов, а также для поиска библиографических данных в электронных библиотеках и хранилищах данных по широкому тематическому диапазону: сельское хозяйство, лесное хозяйство, аквакультура и рыбное хозяйство, водное хозяйство, вопросы механизации и строительства, природные ресурсы, загрязнение окружающей среды, питание и здоровье человека, образование и др. На сегодняшний день ТА доступен на 29 языках в виде концептуальной схемы (RDF/SKOS-XL), где концепты, их этикетки (лейблы/метки/пометки) и связи/отношения являются основными структурными элементами. (3). RDF (Resource Description Framework) – модель представления данных в виде, пригодном для машинной обработки. SKOS (Simple Knowledge Organisation System) – модель организации знаний для семантической паутины, призванная обеспечить взаимодействие различных информационных систем за счет стандартизации тезаурусов.

Концепты – это всё то, что обозначает понятия нашей предметной области (заменяет реальные предметы), набор необходимых терминов. Из-за многоязычности ТА концепты идентифицированы универсальными цифровыми идентификаторами ресурсов (URI), например: http://aims/fao/org/aos/agrovoc/c_8163; «молочная телятина» ‑ это этикетка для данного URI (или URL) на русском языке.

Термины (этикетки) ‑ это реальные лексические единицы (слова или словосочетания) со строгой и точной дефиницией, четкими семантическими границами для выражения концептов. Они выражают один и тот же концепт на разных языках (выражены через расширение SKOL-XL). Используются предпочтительные этикетки (дескрипторы – в обычном тезаурусе), альтернативные этикетки (для выражения синонимов или устранения неоднозначности – UF – use for). Для выражения иерархических связей используются предикаты (утверждения), соответствующие классическим связям в тезаурусе: вышестоящие/нижестоящие – broader/narrower (BT/NT). Неиерархические отношения выражают понятия «родства» между концептами через skos:related (в классическом тезаурусе – ассоциация RT) и специфический словарь связей «Agrontology». Пример термина из ТА:

TERM: (c_8163) RU: молочная телятина 

LANGUAGE

  1. AR: لحمالعجلالرضيع
  2. CS: telecímaso
  3. DE: KALBFLEISCH
  4. EN: Veal
  5. ES: Carnedeternera
  6. FA: گوشتگوساله
  7. FR: Viandedeveau
  8. HI: वील (बछङेकामाँस)
  9. HU: borjúhús
  10. IT: Carnedivitello
  11. JA: 子牛肉
  12. KO: 송아지고기
  13. LO: ຊີ້ນງົວອ່ອນ
  14. PL: Cielęcina
  15. PT: Carnedevitela
  16. RU: молочная телятина
  17. SK: teľaciemaso
  18. TH: เนื้อลูกวัว
  19. ZH: 犊牛肉

 

HIERARCHY

 

 

BT

  1. (c_4669) мясо

 

RT

  1. (c_1219) телята
  2. (c_861) говядина

 

UF

  1. (c_32400) мясо телят

Около 80% концептов ТА – растения и животные. Они могут быть найдены под главным концептом «Организмы».

Каждый концепт ТА может быть подкреплён следующими типами информации:

• терминологическая информация: все термины/этикетки на языках, представляющих концепт;

• структурная информация: отношения/связи между концептами и терминами;

• семантическая информация: определения и/или графические изображения концепта;

• редакционная информация: редакционные примечания и ограничительные пометки.

Концептуальная схема ТА обеспечивает структуру организационных единиц для каждого домена, связанного с сельским хозяйством.

Ранее сотрудниками отдела АСОД ЦНСХБ были проведены исследования, которые выявили, что:

• англоязычные тезаурусы 2 международных БД по сельскому хозяйству имеют большое сходство по тематическому охвату, лексическому составу, построению и элементам словарных блоков, отношениями между терминами, но имеющиеся расхождения в этих областях не позволяют считать их совместимыми в существующем виде;

• ни один из англоязычных тезаурусов не совместим полностью с отечественным тезаурусом;

• англоязычные тезаурусы представляют большую ценность в практической работе с терминами, подготавливаемыми для ввода в ТЦ, в совершенствовании структуры его словарных блоков и словарных «деревьев»;

• невозможна их адаптация к отечественной терминологии и научным традициям (1).

В процессе отбора лексики для ТЦ происходит сближение терминологического состава ТЦ, ТСА и ТА, так как одним из оснований для включения термина в состав ТЦ является наличие его английского эквивалента в ТСА и ТА. Примеры терминов из ТЦ:

КЛЕТКИ 

Примечание: растений и животных 

Иноязычный эквивалент: CELLS 

Эквивалентный термин в другом тезаурусе: Cells 

ТЕЛЯТИНА 

Иноязычный эквивалент: VEAL 

Эквивалентный термин в другом тезаурусе: Babybeef 

Входит в микротезаурус: Ветеринария; Животноводство; Пищевая промышленность

При разработке словарных статей ТЦ используются лексические примечания, как в зарубежных тезаурусах, вводится предпочтительная связь “use and” (используй в комбинации =+), а также инверсная форма в ТА многословных терминов. Например:

РЕМОНТНЫЕ ТЕЛКИ 
Иноязычный эквивалент: replacementheifers 

Входит в микротезаурус: Ветеринария; Животноводство

Выводы. С целью облегчения доступа пользователя в зарубежные БД по сельскому хозяйству решаются вопросы сопряжения терминологии с помощью ТЦ. Использование некоторых элементов ТСА и ТА позволяет сделать отечественный тезаурус более совершенным, соответствующим международным стандартам, способствуют его совместимости с зарубежными тезаурусами.

Список источников:

  1. 1. Пирумова Л.Н. К вопросу о совместимости средств лингвистического обеспечения баз данных по сельскому хозяйству // Библиотеки в меняющемся мире: новые технологии и новые формы сотрудничества: междунар. науч. конф. Судак, 3–11 июня 2000 г.: материалы конф. — Судак, 2000. — С. 397–401.

  2. 2. Пирумова Л.Н. Лингвистическое обеспечение по вопросам АПК: проблемы разработки и совместимости // Матер.1V научно-практич. Семинара «Электрон. ресурсы биб-к», 30-31 окт.2008, С.-П., 2008. ‑ С. 126-135.
  3. 3. АГРОВОК: Многоязычный тезаурус сельскохозяйственной терминологии / http://aim.fao.org/ru/about

Сведения об авторе

Тимофеевская Светлана Алексеевна - старший научный сотрудник отдела аналитико-синтетической обработки документов и лингвистического обеспечения, Федеральное государственное бюджетное научное учреждение «Центральная научная сельскохозяйственная библиотека»

К оглавлению выпуска

17.02.2018, 1265 просмотров.