ИНФОРМАЦИОННЫЕ РЕСУРСЫ. КЛИМОВА Е.В. AGROVOC – МНОГОЯЗЫЧНЫЙ ТЕЗАУРУС ПО СЕЛЬСКОМУ ХОЗЯЙСТВУ И ПРОДОВОЛЬСТВИЮ: НОВЫЙ ЭТАП РАЗВИТИЯ
Тезаурус AGROVOC - многоязычный контролируемый словарь нормализованной лексики, охватывающий все области деятельности и знаний, попадающие в сферу интересов ФАО - Продовольственной и сельскохозяйственной организации Объединенных Наций (5). Был разработан для содержательной обработки и поиска документов в AGRIS (Agricultural Research Information System) – международной информационной системе по сельскому хозяйству и смежным с ним отраслям. Имеет статус международного терминологического стандарта, обеспечивает возможность унифицированного индексирования документов. Описанию его особенностей посвящен ряд работ на русском языке (2; 3).
Сначала (в 1982 г.) AGROVOC был представлен в печатном виде на английском языке, затем появились версии на испанском и французском. С 2000 г. AGROVOC существует в виде многоязычной базы данных, которая в 2010 г. была конвертирована в соответствии со стандартом W3C Semantic Web. Версии AGROVOC на 6 официальных языках ФАО (английский, французский, испанский, арабский, китайский и русский) распространяются свободно в соответствии с лицензией Creative Commons Attribution License (CC-BY IGO 3.0).
Основными элементами AGROVOC являются лексические единицы (ЛЕ), среди которых различают концепты (рекомендуемые для использования термины) и альтернативные термины (имеют отсылки на концепты). Например, завязывание плодов и формирование плодов являются альтернативными терминами по отношению к концепту плодоношение. Искать в тезаурусе можно по любым ЛЕ, но использовать при индексировании следует концепт.
ЛЕ могут иметь выше- или нижестоящие термины. Глубина иерархии обычно не превышает 3-4 уровней. Для ряда ЛЕ указаны и неиерархические ("горизонтальные") семантические связи ("влияет на", "продукт того-то", "используется как" и т.п.). Часто используются 22 типа таких связей. Часть ЛЕ сопровождается развернутым определением, в основном на английском и турецком языках. Встречаются примечания, уточняющие область использования ЛЕ. Все это позволяет считать AGROVOC самостоятельным источником систематизированных знаний.
По состоянию на дату последнего релиза (3.02.2020) AGROVOC содержит 36,942 концепта, 742,449 ЛЕ (на всех языках суммарно). Словари, содержащие не менее 200 ЛЕ, доступны на 35 языках.
Основной и наиболее детально проработанной является англоязычная версия - почти 37 тыс. концептов и около 10 тыс. альтернативных терминов. Турецкая версия превосходит английскую по числу ЛЕ (> 50 тыс.), но уступает по числу концептов (около 36,5 тыс.). Тщательно проработаны (содержат > 30 тыс. концептов) еще 7 версий: на испанском, французском, немецком, чешском, португальском, китайском, японском языках. В средней степени проработки (10-30 тыс. ЛЕ) находятся версии на 15 языках: арабском, фарси, хинди, венгерском, итальянском, грузинском, корейском, латинском, лаосском, польском, румынском, русском, словацком, тайском и украинском языках. Разрабатываются словари еще на 11 языках: датском, финском, кхмерском, малайском, бирманском, норвежском (стандарт Букмол), голландском, шведском, суахили, телугу, вьетнамском.
Русскоязычная версия AGROVOC, созданная в 2007-2010 гг. силами специалистов ФГБНУ ЦНСХБ (1), с 2017 г. регулярно пополняется и подвергается ревизии. Сейчас она насчитывает > 21,6 тыс. концептов и > 8 тыс. альтернативных терминов.
Стандартный доступ к поиску и навигации по AGROVOC обеспечен через сайт проекта http://agrovoc.uniroma2.it/agrovoc/agrovoc/en/ (рис.). Есть возможность поиска на одном языке или по всему массиву данных (в т.ч. с усечением терминов); результаты выводятся в алфавитном порядке; при работе с ЛЕ показывается ее место в иерархии, определение (если есть) и все существующие переводы на другие языки. Найденную ЛЕ можно одним кликом скопировать в буфер обмена. Возможно несколько альтернативных способов доступа; по запросу предоставляются файлы Excel для загрузки 2-язычных локальных версий.
В 2017 г. начался новый этап развития и обновления AGROVOC. Тезаурус стали актуализировать около 10 раз в год, пополняя в среднем на несколько тысяч ЛЕ за прием. Состоялось 2 рабочих встречи сообщества редакторов AGROVOC (в 2018 г. в г. Утрехт, Нидерланды, в 2019 г. в г. Дармштадт, ФРГ). Их цель – сплотить сообщество, установить личные контакты, обменяться информацией об организации и состоянии работ в разных странах, унифицировать подходы к разработке и поддержке национальных версий.
При разработке национальных версий выяснилось, что не все английские термины AGROVOC могут быть адекватно переведены на любой другой язык. Особенно это коснулось 25 наиболее общих понятий, так называемых концептов высшего уровня. Предложено сократить число таких концептов до 3 (объекты, события, действия).
Другая проблема - наличие региональных вариантов языков (английский в США, Великобритании, Австралии и т.д.; португальский в Португалии и Бразилии). Если возникают разночтения, предложено с помощью дополнительного кода указывать, к какому региональному варианту относится ЛЕ (4).
Группа по исследованию искусственного интеллекта (университет Тор Вергата в Риме) разработала многопользовательскую многоязычную платформу VocBench, позволяющую работать с AGROVOC как с ресурсом связанных открытых данных (7). В 2018 г. запущен принципиально новый продукт для редактирования и пополнения AGROVOC - VocBehch3. На встроенной тестовой версии можно научиться находить ЛЕ, анализировать семантические связи, изменять сами ЛЕ и их свойства/связи. Доступ к полному функционалу программы (проекту AGROVOC core) получают редакторы, освоившие тестовую версию. Права обычного редактора ограничены работой с его родным языком. Редактор-куратор имеет доступ ко всем языкам и может принять, отклонить или исправить работу других редакторов.
В VocBehch3 предусмотрена работа с каждой ЛЕ отдельно. Для обработки крупных наборов однородных данных без иерархии можно использовать обычные файлы Excel, с английскими ЛЕ и вариантами их перевода.
На случай, когда в разных предметных областях используют разное значение (или разную иерархию) одних и тех же понятий, внутри VocBench есть возможность создать собственные схемы тезауруса и работать с ними.
Планируется более тесная интеграция AGROVOC с тезаурусами ASFA (Aquatic Sciences and Fisheries Abstracts – база данных по водным наукам и рыболовству) и LandVoc (тезаурус, разработанный LandPortal - европейской некоммерческой организацией, распространяющей сельскохозяйственную информацию) (6).
AGROVOC может пополняться за счет национальных тезаурусов, переведенных на английский язык. Сопоставление терминов реализуется с помощью технологии связанных открытых данных. Метод был применен для 18 локальных многоязычных систем знаний, особенно успешно - для китайской версии AGROVOC. Развитие национальных версий, отражающих особенности страны, важно для информационного обогащения системы сельскохозяйственных знаний.
В каждой стране разработкой и поддержкой национальной версии AGROVOC занимается крупная организация, распространяющая информацию по сельскому хозяйству. Во Франции это CIRAD (Французский сельскохозяйственный исследовательский центр для международного развития), в Бразилии - Embrapa (Бразильская сельскохозяйственная исследовательская корпорация). Те же функции выполняют крупные сельскохозяйственные библиотеки (Россия, Молдавия, Польша, Италия), подразделения вузов (Таиланд, Венгрия), институты научно-технической информации (Чехия, Словакия, Грузия), отделы при Академии наук (Китай) или Министерстве сельского хозяйства (Турция). Часто те же организации являются и AGRIS-центрами (Китай, Таиланд, Молдавия, Чехия, Словакия и др.).
Применяются единые базовые подходы к разработке национальных версий. Это постоянная или временная работа группы экспертов с привлечением узких специалистов в предметных областях, обсуждением возможных вариантов перевода ЛЕ. Как правило, в стране уже есть национальный сельскохозяйственный тезаурус - источник терминологии для перевода AGROVOC.
AGROVOC обычно используют для индексации/поиска записей в AGRIS, для индексации записей в собственных библиотеках/репозиториях, для поиска соответствий при переводе на другие языки.
В целом, AGROVOC сегодня переживает бурное развитие. Для его пополнения и уточнения используются современные продвинутые технологии. Команда кураторов ФАО наладила коммуникацию с редакторами AGROVOC и предоставила им эффективные инструменты для работы. Всё это позволит лучше удовлетворять информационные потребности пользователей и будет способствовать распространению знаний по сельскому хозяйству и продовольствию.
Список источников
- 1. Андреева Е.В.; Пирумова Л.Н.; Тимофеевская С.А. Проблемы создания терминологической базы русскоязычной версии международного тезауруса. - С. 15-18 Библиотечное дело - 2012: библиотечно-информационная деятельность в пространстве науки, культуры и образования : Скворцовские чтения / Моск. гос. ун-т культуры и искусств. -Москва, 2012; Ч. 2
- 2. Климова Е. В. Информационная система AGRIS и тезаурус AGROVOC как примеры успешного международного сотрудничества в области распространения знаний по сельскому хозяйству // Культура: теория и практика. 2019. Вып. 1(28). [Электронный ресурс]. – Режим доступа: http://theoryofculture.ru/issues/102/1200/
- 3. Орлова С.А. AGROVOC: Многоязычный тезаурус сельскохозяйственной терминологии в новом формате представления // Культура: теория и практика. 2018. Вып. 1 (22). [Электронный ресурс]. – Режим доступа: http://theoryofculture.ru/issues/80/1030/
- 4. Achievements, impact and strategy for AGROVOC’s future [Электронный ресурс]. – Режим доступа: http://aims.fao.org/activity/blog/achievements-impact-and-strategy-agrovoc%E2%80%99s-future
- 5. AGROVOC [Электронный ресурс]. – Режим доступа: http://aims.fao.org/vest-registry/vocabularies/agrovoc
- 6. AGROVOC Editorial Meeting 2019 - Report [Электронный ресурс]. – Режим доступа: http://assets.aims.fao.org.s3-eu-west-1.amazonaws.com/public/posts/attachments/AGROVOC_inpdf
- 7. VocBench: A Collaborative Management System for SKOS-XL Thesauri [Электронный ресурс]. – Режим доступа: http://vocbench.uniroma2.it/
Сведения об авторе
Климова Елена Владимировна, кандидат биологических наук, ведущий научный сотрудник отдела аналитико-синтетической обработки документов, Федеральное государственное бюджетное научное учреждение «Центральная научная сельскохозяйственная библиотека» (ФГБНУ ЦНСХБ)
Email: ;
научно-исследовательская работа, информационная культура
13.04.2020, 1043 просмотра.