Специальные библиотеки. Орлова С.А. AGROVOC: Многоязычный тезаурус сельскохозяйственной терминологии в новом формате представления

Введение

AGROVOC ‑ это контролируемый словарь нормализованной лексики, охватывающий все области деятельности и знаний по сельскому хозяйству и продовольствию, включая продовольственную безопасность и питание, сельское, лесное и рыбное хозяйство, охрану окружающей среды и т.д., созданный Продовольственной и сельскохозяйственной организацией Объединенных Наций (ФАО). (1)

Тезаурус был издан в 1982 г. на английском языке под эгидой ФАО и отредактирован сообществом экспертов из разных стран мира. Затем были разработаны версии на испанском и французском языках. В дальнейшем осуществлен его перевод на многие другие языки, также признанные официальными языками ФАО. Страны-члены ФАО, принимающие участие в создании международной корпоративной базы данных AGRIS, переводили на свой национальный язык англоязычную версию тезауруса.

AGROVOC включает в себя примерно 34000 концептов (дескрипторов, имеющих словарные статьи) на 29 языках: арабский, бирманский, китайский, чешский, английский, французский, немецкий, хинди, венгерский, итальянский, японский, кхмерский, корейский, лаосский, малайский, персидский, польский, португальский, русский, словацкий, испанский, телугу, тайский, турецкий, украинский, вьетнамский, грузинский, румынский, шведский. (2)

В тезаурусе можно найти, например, название определенного растения на интересующем языке, а также семантические связи (отношения), существующие между сырьевым товаром и сельскохозяйственной культурой, из которой он произведен.

С помощью AGROVOC можно индексировать документы и информационные (библиографические) ресурсы. Более того, программа, поддерживающая электронную версию тезауруса, может быть легко встроена в системы управления содержанием (например, в Drupal), с целью автоматической обработки и индексации содержимого документов, веб-сайтов и их структуры.

В частности, тезаурус может использоваться для:

1) автоматического концептуального индексирования контента информационных ресурсов;

2) автоматической генерации связей между терминами, отражающих основную форму (формы), в которых выражено содержание ресурса;

3) классификации ресурсов с целью повышения эффективности информационного поиска;

4) фильтрации результатов поиска по тематике;

5) получения доступа ко многим другим словарям, связанным с AGROVOC в веб-пространстве.

На сегодняшний день, AGROVOC используется научными работниками, библиотекарями и информационными менеджерами для индексирования, поиска и организации данных в сельскохозяйственных информационных системах и на веб-страницах.

Тезаурус опубликован согласно правилам концептуальной схемы SKOS-XL, а также как набор Связанных Открытых Данных (Linked Open Data, LOD). Более того, AGROVOC согласован (связан) с другими 16 многоязычными системами организации знаний (Knowledge Organization Systems, KOS) в области сельского хозяйства и смежных с ним областях. Преимущество использования тезауруса AGROVOC в формате LOD состоит в том, что ресурсы, проиндексированные с его помощью, автоматически становятся связанными со всеми другими LOD словарями, связанными с AGROVOC, а значит, и со всеми документами, проиндексированными с помощью этих словарей. (3)

Тезаурус AGROVOC также является основным информационно-поисковым языком (ИПЯ) Международной информационной системы по сельскохозяйственной науке и технологиям AGRIS, и используется для содержательной обработки и поиска документальной информации в базе данных. Как и любой другой ИПЯ, AGROVOC создан и ведется с целью обеспечения однозначного представления понятий, содержащихся в документах, при распределенной обработке (индексировании) их национальными центрами ввода информации. Тезаурус позволяет решить проблему информационного поиска, связанную с неоднозначностью выражения смысла средствами естественного языка.

Благодаря существованию версий тезауруса на 29 языках мира и его коммуникативным свойствам он обеспечивает релевантный тематический поиск в международной базе данных AGRIS на любом из этих языков. Механизмом, обеспечивающим поиск в AGRIS по национальным тезаурусам, является смысловая эквивалентность и сопряженность лексических единиц национальных версий тезауруса AGROVOC.

С 2000  г. AGROVOC представлен только в электронной версии на сайте ФАО (http://aims.fao.org/website/AGROVOC/sub); обработанные данные тезауруса хранятся в реляционной базе данных. В 2004 г. было протестировано преобразование данных AGROVOC в OWL. Ведутся разработки версий тезауруса на индийских языках. Предполагается создание версий на амхарском и каталонском языках. Объем англоязычной версии AGROVOC, являющейся базовой для разработки языковых версий, составляет около 45 тысяч лексических единиц (44308).

Русскоязычная версия тезауруса была представлена на сайте ФАО в 2010 г.

Она создана с целью:

- гармонизации и сближения сельскохозяйственной научной терминологии, используемой в Российской Федерации и ФАО;

- адаптации лингвистических средств, используемых ФАО, для российского пользователя;

- интенсификации формирования русскоязычного массива международной базы данных AGRIS;

- стандартизации использования научной терминологии в информационных документах и изданиях по проблематике АПК в научных, учебных учреждениях и производственных предприятиях АПК;

- унификации процесса индексирования национальных документов по проблемам АПК для базы данных AGRIS в национальных центрах AGRIS в Российской Федерации.

Объем русскоязычной версии AGROVOC составляет более 32 тысяч лексических единиц (32912).

Устройство AGROVOC

Концептуальная схема

Концепт – это содержательная сторона словесного знака или значение (связанные значения), за которым стоит понятие, фиксирующее/представляющее свойства реалий и явлений. Концепты представлены терминами, т.е. словами в данном языке. Концепты - это все то, что мы хотим представить или «высказать» в области нашей компетенции или все то, что обозначает понятия нашей предметной области (замещает реальные предметы).

Концепт может быть представлен как набор всех необходимых терминов для выражения того или иного явления или объекта на разных языках.

В 2009 г. тезаурус был опубликован в формате SKOS. В модели SKOS концепты сформулированы/представлены как «skos:Concept» и идентифицированы универсальными идентификаторами ресурсов URI, URL. Например, URI http://aims.fao.org/aos/agrovoc/c_12332 представляет концепт AGROVOC maize. (6)

При индексировании документов для базы данных AGRIS из тезауруса выбираются термины AGROVOC, которые отражают основные темы документа. Они вводятся на английском языке, и чаще всего совпадают с ключевыми словами статьи. Для проверки соответствия ключевого слова термину AGROVOC необходимо ввести его в поисковую строку сайта. Если термин найден, его можно добавить в соответствующее поле формы отправки статьи в базу данных, если же ключевое слово отсутствует в AGROVOC, то следует подобрать максимально близкий по смыслу синоним. При отправке документа используется минимум 2 и максимум 15 терминов. (7)

Сервис поиска терминов AGROVOC:

http://aims.fao.org/skosmos/agrovoc/en/search?clang=en

На жаргоне RDF, термины называются этикетками (лейблами, текстовыми метками). Существуют предпочтительные этикетки («preferred labels», дексприпторы – термины, разрешенные к индексированию) и непредпочтительные этикетки («non preferred labels», аскрипторы – термины, запрещенные к индексированию).

Термины ‑ это лексические единицы (слова или словосочетания) со строгой и точной дефиницией, а также с четкими семантическими границами для выражения концептов. Например, maize, maïs, 玉米, ข้าวโพด являются разными этикетками, которые выражают один и тот же концепт на английском, французском и хинди соответственно.

Этикетки AGROVOC выражены через расширения SKOS-XL. Используемые предикаты: «skosxl:prefLabel» – это предпочтительные этикетки (дескрипторы в терминологии тезаурусов), считающиеся авторитетными метками для ресурса, в то время как «skosxl:altLabel» – это альтернативные этикетки, которые используют для выражения непредпочтительных терминов (синонимов) и/или для устранения неоднозначности этикеток.

Концепты, их этикетки (пометки/метки/лейблы) и связи/отношения являются основными понятиями/структурными элементами тезауруса AGROVOC, представленного с помощью концептуальной схемы RDF/SKOS-XL.

Связи /отношения (иерархические и неиерархические)

В модели SKOS, иерархические отношения между понятиями выражаются предикатами «skos:broader» и «skos:narrower». Они соответствуют классическим связям тезауруса «broader/narrower» (вышестоящие/нижестоящие).

Неиерархические отношения выражают понятие «родства» между концептами.

AGROVOC использует связь SKOS «skos:related» (в классическом тезаурусе эта связь соответствует ассоциации RT) и специфический словарь связей «Agrontology».

Связи между терминами AGROVOC могут быть выражены через расширение SKOS - SKOS-XL. (6)

VocBench

AGROVOC редактируется с помощью платформы VocBench, являющейся онлайн-редактором с открытым исходным кодом для совместного редактирования многоязычных тезаурусов и ресурсов в формате RDF-SKOS.

VocBench был разработан Продовольственной и сельскохозяйственной организацией Объединенных Наций (ФАО) совместно с партнерами, с целью удовлетворения заявленных потребностей пользователей Семантического Веба и Связанных Данных. (5)

Основные характеристики и функции VocBench:

- поиск концептов (понятий) и связей

- обеспечивается возможность добавить, обновить, удалить концепты и связи;

- обеспечивается возможность просмотреть, открыть, закрыть иерархии;

- просмотр с помощью вкладки атрибутов концептов;

- поддержка одновременного, распределенного использования;

- отображение крупных схем и управление ими;

- гибкий рабочий процесс управления концептами с вкладками: «предложено», «подтверждено», «опубликовано», «устарело» и т.д.;

- рабочий процесс редактирования, поддерживающий настройку (на разных языках) ролей и прав доступа пользователей;

- поиск, фильтрация и просмотр всех изменений, сделанных пользователями. Сохранение настроек для будущих сессий;

- отслеживание редакционных изменений и их авторства;

- полная поддержка UTF-8;

- хранение нескольких концептуальных схем;

- создание статистических отчетов относительно загруженных концептуальных схем.

Версия VocBench 2 была выпущена в ноябре 2013 г., в нее были внесены существенные изменения, в частности, были внесены изменения в программно-административной части (бэкэнде) RDF системы Semantic Turkey (разработанной командой ART Римского университета Тор Вергата), представляющей собой фреймворк RDF для создания и приобретения знаний, а также для управления ими. Также было проведено множество улучшений и добавлены новые функции, такие как: поддержка SKOS; поддержка RDF-хранилищ троек; соответствие OSGi.

В настоящее время VocBench используется для поддержки AGROVOC, EUROVOC, GEMET, тезауруса Итальянского Сената, «Unified Astronomy Thesaurus» Гарвардского университета, а также других тезаурусов. VocBench делает сильный акцент на необходимости сотрудничества (кооперации), предоставляя все необходимые функции для совместного управления процессами создания терминов системы, которые предусматривают создание, валидацию (утверждение) и публикацию контента.

Определение ролей и зон ответственности обеспечивает логическую группировку пользователей в контексте разделения компетенций, фокусируя внимание на особенностях управления контентом и вертикальных компетенциях в редактировании контента (например, концептуализация по отношению к редактированию терминологии).

Начиная с версии 2, VocBench представляет собой программное обеспечение с открытым исходным кодом. Платформа имеет довольно большое и быстрорастущее сообщество пользователей, которые вносят свой вклад в расширение функций редактирования и управления контентом.

Осенью 2017 г. вышла новая версия платформы – VocBench 3, в которой также были улучшены возможности редактирования. Пользовательский интерфейс был создан с нуля, а механизм ролей/прав был полностью переработан. В VocBench 2 были жесткие роли с предопределенными и ограниченными возможностями редактирования, в то время как в версии 3 определен простой язык для установления прав с точки зрения области, предмета и раздела. Например, можно дать права на чтение таксономической информации о свойствах типа данных.

В VocBench 3 отказались от отдельной реляционной базы данных, содержащей данные пользователя и историю - теперь используется механизм отслеживания изменений, работающий на уровне троек RDF и дополняющий их метаданными о совершенном действии и его контексте. Удаленные/добавленные каждым действием тройки сгруппированы вокруг общего ресурса, представляющего действие, которое вызвало изменение, и хранятся в отдельном (но связанным с проектом) хранилище RDF вместе с метаданными действий.

Благодаря новой системе отслеживания изменений, была упрощена система публикации: больше нет «статусов», поскольку операции теперь выражены механизмом проверки допустимости, перекодированным в графическую форму. Кроме того, было упрощено различие между статусами “проверенный” и “опубликованный”, поскольку большинство пользователей считали такую двойную проверку бесполезной.

Улучшили управление, позволив пользователям выбирать из большего количества схем SKOS для просмотра дерева концептов и использовав комбинацию условных обозначений и возможностей редактирования для быстрой связи подходящих схем с недавно созданными концептами и коллекциями.

Помимо импортирования словарей онтологий для моделирования тезаурусов платформа теперь также поддерживает развитие онтологий с возможностью редактирования аксиом OWL и практически полным охватом выражений OWL2.

Раздел «показатели» был заменен страницей для редактирования и экспорта метаданных, смоделированной по образу нескольких существующих словарей метаданных: Словарь каталога данных (DCAT), Описание основного средства схемы метаданных (ADMS), Словарь связанных наборов данных (VoID) и Лингвистический словарь метаданных (LIME) (лексическое расширение VoID). В то время как DCAT и ADMS работают в основном со статическими метаданными, VoID и LIME предлагают статистическую информацию о наборе данных и лексическую информацию о нем.

Также возможно установить платформу в качестве простого и легкого в использовании инструмента рабочего стола – достаточно просто разархивировать файлы программы, запустить ее и работать. Доступны и более углубленные настройки для установки отдельных элементов (отделение серверов данных, серверов пользовательского интерфейса), улучшения производительности и т.д. (4)

Заключение

В настоящее время команда AGROVOC развивает свою международную сеть редакторов, а также процесс самого редактирования тезауруса и публикации контента. Постоянно проводятся изменения и добавляются новые термины ‑ с апреля 2017 г. обновления тезауруса проводятся в начале каждого месяца.

Список источников

1.      AGROVOC [Электронный ресурс]. – Режим доступа: – (https://en.wikipedia.org/wiki/AGROVOC)

2.      AGROVOC Multilingual agricultural thesaurus [Электронный ресурс]. – Режим доступа: – (http://aims.fao.org/vest-registry/vocabularies/agrovoc-multilingual-agricultural-thesaurus)

3.      AGROVOC: Многоязычный тезаурус сельскохозяйственной терминологии [Электронный ресурс]. – Режим доступа: – (http://aims.fao.org/ru/agrovoc)

4.      Towards VocBench 3: Pushing Collaborative Development of Thesauri and Ontologies Further Beyond [Электронный ресурс]. – Режим доступа: – (http://ceur-ws.org/Vol-1937/paper4.pdf)

5.      VocBench [Электронный ресурс]. – Режим доступа: – (http://aims.fao.org/ru/vest-registry/tools/vocbench)

6.      Описание AGROVOC [Электронный ресурс]. – Режим доступа: – (http://aims.fao.org/ru/about)

7.      Что такое термины AGROVOC [Электронный ресурс]. – Режим доступа: – (https://research-journal.org/agrovoc)

Сведения об авторе

Орлова Светлана Анатольевна - научный сотрудник, Федеральное государственное бюджетное научное учреждение «Центральная научная сельскохозяйственная библиотека»

sis

К оглавлению выпуска

чтение

14.02.2018, 1653 просмотра.