Язык. Знание. Аналитика. КЛИМОВА Е. В. МНОГОЯЗЫЧНЫЙ ТЕЗАУРУС AGROVOC: ВЧЕРА, СЕГОДНЯ, ЗАВТРА

  Тезаурус – это контрольный структурированный словарь, в котором понятия представлены терминами, организованными таким образом, что отношения между понятиями представлены эксплицитно, и дескрипторы снабжены указателями перехода от синонимов и квазисинонимов. Информационно-поисковый тезаурус (ИПТ) оптимизирован так, чтобы стать средством навигации и терминологического покрытия предметной области как для индексатора, так и для пользователя [3, с. 9].

 Правила разработки, структура, состав и форма представления одноязычного ИПТ регламентируются межгосударственным стандартом [2]. Многоязычные ИПТ составляют согласно межгосударственному стандарту [4], разработанному с учетом основных нормативных положений международного стандарта ИСО 5964:1985 «Документация. Руководство по построению и разработке многоязычных тезаурусов» (ISO 5964:1985«Guidelinesforthe establishment and development of multilingual thesauri», IDT) [4, с. 3].

  Общепризнанным мировым инструментом для обработки и поиска информации, а также основным ИПТ в области сельского хозяйства является тезаурус AGROVOC [1] ‑ многоязычный контролируемый словарь нормализованной лексики, охватывающий все области деятельности и знаний, попадающие в сферу интересов Продовольственной и сельскохозяйственной организацией Объединенных Наций (ФАО).

  Необходимость создания особого ИПТ для описания документов, индексации и поиска информации в AGRIS (Agricultural Research Information System) – международной информационной системе по сельскому хозяйству и смежным с ним отраслям – была очевидна уже на момент начала работы системы в 1974 г., но только к 1979 г. были подписаны соглашения о его разработке. [7] В 1982 г. вышло первое печатное издание AGROVOC, подготовленное группой экспертов. Хотя базовой по сей день является англоязычная версия тезауруса, разработка велась параллельно на английском, французском, испанском (все они – официальные языки ФАО), немецком и итальянском языках. Каждая из языковых версий была опубликована как отдельный том, в которой было включено по 8 660 дескрипторов (представляющих собой как можно более полные эквиваленты друг друга) и (в зависимости от языка) примерно от 3 тыс. до 9 тыс. аскрипторов, отражающих специфику конкретного языка.

  Следующие печатные версии AGROVOC выходили в свет в 1992, 1995, 1999 гг. Сравнивая их между собой, мы видим количественный рост тезауруса (в 4-е издание было включено уже 16 607 дескрипторов и около 10 000 аскрипторов) и увеличение числа охватываемых языков (в 4-м издании вышла версия на китайском языке). Обе эти тенденции впоследствии получили развитие.

  С 2000 г. AGROVOC стал существовать в электронном виде, как база данных. Это значительно упростило его поддержку. Распространение тезауруса было возможно путем загрузки полной базы или через веб-сервисы. Чтобы преодолеть эти ограничения, в 2010 г. AGROVOC в соответствии со стандартами W3C Semantic Web был преобразован в так называемую SKOS (Simple Knowledge Organization System – простая система организации знаний), которая сама по себе является набором связанных открытых данных. Здесь используются модель SKOS-XL, язык программирования OWL, язык поисковых запросов SPARQL.

  Параллельно со стабилизацией технической составляющей постоянно велись работы и над содержанием AGROVOC. Основу его иерархии составляют 25 так называемых концептов высшего уровня (strategies; site; events; time; factors; processes; technology; stages; state; measures; groups; locations; systems; subjects; resources; objects; features; properties; methods; products; activities; phenomena; entities; substances). Все остальные термины (понятия) находятся ниже них в иерархии. Наиболее полно разработано понятие «организмы» (“organisms”). Под ним находится свыше 20 тыс. терминов. Следующие по полноте представления понятия – «субстанции» (“substances”), «субъекты» (“entities”), «продукция» (“products”) и «местонахождение» (“location”) [8].

  Работы по совершенствованию AGROVOC велись по следующим направлениям: уточнялись семантические связи между терминами, улучшалось раскрытие отдельных тематических областей, вводились дополнительные предметные области, увеличивалось количество языков.

  Семантические связи могут быть иерархическими (вертикальными), между более широкими и более узкими терминами, и неиерархическими (горизонтальными), тогда с их помощью устанавливаются различные взаимосвязи между понятиями. Например, связь между вредителем и поражаемым им растением или между организмом и производимым из него продуктом. Всего было предусмотрено около 80 неиерархических связей, сгруппированных в 6 основных разделов (Процессы, Причины, Количества или Измерения, Пространственные связи, Таксономические связи, Партитивные связи).

  Более детальная проработка тематических областей достигается за счет введения новых терминов либо за счет углубления и дробления иерархии (например, под более широкий термин «породы животных» поставили нижестоящие термины «породы коз», «породы овец» и т. п., а еще ниже ‑ названия отдельных пород). Иногда термин, ранее рассматривавшийся как альтернативный, становился самостоятельным и приобретал статус предпочтительного.

  Предметные области, отраженные в AGROVOC, в основном совпадают с областями интересов ФАО. Постепенно туда были включены области, касающиеся некоторых фундаментальных и прикладных наук (физика, химия, геология, библиотечное дело и т. п.). Отдельные крупные разделы тезауруса – это географические названия, а также латинские названия растений и животных.

  Количество языков, представленных в многоязычном тезаурусе, постоянно увеличивается. По состоянию на март 2025 г. оно достигло 42. Как самостоятельные языки рассматриваются бразильский вариант португальского языка и формы норвежского языка букмол и нюнорск. Полные версии AGROVOC (насчитывающие более 41 тыс. понятий) доступны на 6 официальных языках ФАО (английский, французский, испанский, китайский, арабский, русский). Также достаточно полно проработаны версии на суахили, турецком, немецком, итальянском, чешском языках.

  Поскольку русский – один из официальных языков ФАО, авторские права на русскоязычную версию AGROVOC принадлежат именно этой организации. Однако специалисты Федерального государственного бюджетного научного учреждения «Центральная научная сельскохозяйственная библиотека» (ЦНСХБ) принимали активнейшее участие в её разработке. Перевод английских терминов на русский язык был выполнен непосредственно специалистами в области сельского хозяйства с учетом терминологии, принятой в российской сельскохозяйственной науке, в том числе включенной в ранее разработанный ЦНСХБ Информационно-поисковый тезаурус по сельскому хозяйству и продовольствию [6]. Разработка первой русскоязычной версии AGROVOC, насчитывающей около 33 тыс. лексических единиц, началась в 2007 г. В 2010 г. она была впервые опубликована на сайте ФАО, а в дальнейшем неоднократно подвергалась ревизиям и дополнениям. В 2024 г. совместными усилиями ФАО и ЦНСХБ был завершен перевод всех включенных в AGROVOC понятий на русский язык. По состоянию на март 2025 г. русскоязычная версия содержит 41 340 концептов (разрешенных для использования понятий), 9 297 альтернативных терминов и 22 скрытых термина. В дальнейшем предполагается оперативный перевод всех вновь добавляемых понятий на русский язык.

  С 2018 г. работы по совершенствованию AGROVOC ведутся активно и регулярно. Привлечение редакторов со всего мира – носителей разных языков – и раньше имело место, но теперь мы наблюдаем формирование единого международного сообщества редакторов AGROVOC. ФАО предоставило редакторам возможность познакомиться лично, завязать деловые контакты, регулярно обмениваться опытом. Почти ежегодно проводятся рабочие встречи в очном, онлайн или гибридном формате, на которых показывается текущее состояние тезауруса и выделяются приоритетные направления его развития. Между рабочими встречами организуются вебинары и дискуссии, на которых обсуждаются отдельные направления работ и вырабатываются согласованные подходы к их осуществлению.

  Для обеспечения единообразного подхода к созданию и поддержке языковых версий AGROVOC ФАО разрабатывает и издаёт методические рекомендации. Подобные руководства выходили в свет в 2008 г. и в 2015 г., однако они относились в основном к построению тезауруса на английском языке [5]. Аспекты, учитывающие многоязычность и специфику отдельных языков, были подробно рассмотрены в руководствах 2020 г. и 2022 г. [9, 10]. Была создана открытая рабочая группа, занимающаяся составлением руководств. Разрабатываемые проекты доступны всем членам редакторского сообщества в виде Google-документов, любые суждения и предложения приветствуются и обсуждаются. В каждом следующем руководстве общие и частные вопросы рассматривались всё более подробно. Например, в руководстве 2020 г. добавили рекомендации по использованию диакритических знаков и специальных символов, аббревиатур и акронимов, прописных и строчных букв; выбору единственного или множественного числа в зависимости от специфики термина. Прописали особенности работы с названиями химических соединений и элементов, а также с географическими названиями. Привели список авторитетных файлов (стандартов), которые рекомендуется учитывать при редактировании AGROVOC. В руководстве 2022 г. больше внимания уделили переводу определений (включая особенности выбора и указания источника информации), примечаний, исторических справок и т. п.

   К марту 2025 г. была подготовлена следующая версия руководства. В ней освещен новый подход к поддержке меток, обязательный при работе на всех официальных языках ФАО. Никакие ранее введенные термины нельзя будет бесследно удалить, но им можно (и нужно) будет присвоить статус скрытых. Разработаны рекомендации по устранению неоднозначности (различению омонимов) с помощью уточнения, приводимого в скобках. Составляется контролируемый список допустимых уточнений. Даны дополнительные советы по анализу, подбору источников, переводу и цитированию определений. При работе с названиями вирусов следует руководствоваться введенными в 2021 г. правилами, которые разработал Международный комитет по таксономии вирусов. Внутри AGROVOC появились так называемые коллекции (списки специализированных терминов). Пока их три («Коренные народы», «Просо и сорго», «Управление земельными ресурсами»), но далее их число будет увеличиваться.

  ФАО отвечает также за разработку и предоставление технических инструментов для редактирования AGROVOC. Группой по исследованию искусственного интеллекта при университете Тор Вергата в Риме была разработала многопользовательская многоязычная платформа VocBench, которая позволяет эффективно редактировать AGROVOC и делает этот процесс прозрачным. С 2018 г. вышло уже несколько обновлений платформы, каждое из которых делает рабочий процесс всё более удобным для пользователя.

  С 2020 г. отслеживается количество обращений к AGROVOC, т. е. ведется мониторинг востребованности ресурса. Согласно неопубликованным статистическим данным, любезно предоставленным ФАО, за период с января 2020 г. по декабрь 2024 г. включительно, суммарное количество обращений к AGROVOC составило порядка 793 млн. Из них ~330 млн было зафиксировано из Китая, ~215 млн – из США, ~137 млн – из Сингапура. Перечисленные страны являются лидерами по числу обращений. Количество обращений из России на этом фоне выглядит относительно небольшим и составляет 11 млн. По отдельным месяцам изучаемого периода количество обращений из разных стран сильно варьирует. Например, пиковые значения востребованности для Китая (~48 млн) были отмечены в декабре 2024 г., для США (~14 и ~17 млн) ‑ в апреле и марте 2024 г., для Сингапура (~18 млн) – в августе 2023, для России (~2 млн) – в феврале 2023 г. За тот же период количество запросов, использующих английский в качестве языка понятий и/или языка интерфейса, составило ~35 млн, а русский ~24 млн. Количество запросов в отдельные месяцы изучаемого периода варьировало для английского языка от ~154 тыс. до ~2 млн 110 тыс., а для русского от ~24 тыс. до ~1 млн 802 тыс. Количество обращений, определенное по IP-адресу ЦНСХБ, за изучаемый период составило ~23 тыс., т. е. AGROVOC широко востребован российскими и/или русскоязычными специалистами из различных организаций.

  Объёмы и результаты работ, проделанных по совершенствованию AGROVOC с 2018 г., впечатляют как в техническом, так и в содержательном аспектах. Заявленная перспектива развития AGROVOC – обеспечение не столько количественного роста, сколько качества тезауруса. Предполагается тщательней проработать иерархии и семантические связи в отдельных предметных областях, больше терминов снабдить определениями, совершенствовать и соблюдать четкие правила по работе с терминами. Выстроенная под эгидой ФАО система сотрудничества редакторов из разных стран показала высокую эффективность, а сам AGROVOC стал ценнейшим отраслевым информационным ресурсом, весьма востребованным в профессиональных кругах.

 Список источников

  1. 1. АГРОВОК [Электронный ресурс]. ‑ Режим доступа: https://www.fao.org/agrovoc/ru.
  2. 2. ГОСТ 7.25-2001. Система стандартов по информации, библиотечному и издательскому делу. Тезаурус информационно-поисковый одноязычный. – Минск : ИПК Издательство стандартов, 2001. – 16 с.
  3. 3. ГОСТ Р 7.0.91-2015. Система стандартов по информации, библиотечному и издательскому делу. Тезаурусы для информационного поиска. – М.: Стандартинформ, 2016. – 97 с.
  4. 4. ГОСТ Р 7.24-2007. Система стандартов по информации, библиотечному и издательскому делу. Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению. – М. : Стандартинформ, 2010. – 11 с.
  5. 5. Петровская А. В. Многоязычный тезаурус по сельскому хозяйству и продовольствию AGROVOC: методические особенности создания национальных версий / А. В. Петровская // Библиотеки в информационном обществе: сохранение традиций и развитие новых технологий. Тема 2022 года – «Библиотеки в системе информационных и социальных коммуникаций» : докл. V Междунар. науч. конф., Минск, 1–2 дек. 2022 г. / Белорус. с.-х. б-ка им. И. С. Лупиновича Нац. акад. наук Беларуси ; редкол.: Ю. О. Каракулько (отв. ред.) [и др.]. – Минск, 2022. – С. 82–99.
  6. 6. Пирумова Л. Н. Методические подходы к созданию русскоязычной версии тезауруса AGROVOC / Л.Н. Пирумова // Библ.-информ. дискурс. – 2022. – Т. 2, № 1. – С. 41–48. https://doi.org/10.47612/2791-2841-2022-2-1-41-48.
  7. 7. Сивурова О. А. Создание языковых версий многоязычного тезауруса AGROVOC в период печатных каталогов / О. А. Сивурова // Библиотеки в информационном обществе: сохранение традиций и развитие новых технологий. Тема 2022 года – «Библиотеки в системе информационных и социальных коммуникаций» : докл. V Междунар. науч. конф., Минск, 1–2 дек. 2022 г. / Белорус. с.-х. б-ка им. И. С. Лупиновича Нац. акад. наук Беларуси ; редкол.: Ю. О. Каракулько (отв. ред.) [и др.]. – Минск, 2022. – С. 110–120.
  8. 8. Caracciolo C., Stellato A. et al. The AGROVOC Linked Dataset. [Электронный ресурс] / C. Caracciolo, A. Stellato et al. // Semantic Web, 2013, vol. 4, n. 3, pp. 341‑348. Режим доступа: https://www.semantic-web-journal.net/content/agrovoc-linked-dataset.
  9. 9. FAO. 2020. The AGROVOC Editorial Guidelines 2020. Rome. – 44p.
  10. 10. FAO. 2022. The AGROVOC Editorial Guidelines – Second edition. Rome. – 54 p. https://doi.org/10.4060/cb8640en.

Сведения об авторе

Климова Елена Владимировна - кандидат биол. наук, ведущий научный сотрудник отдела аналитико-синтетической обработки документов и лингвистического обеспечения, Федеральное государственное бюджетное научное учреждение «Центральная научная сельскохозяйственная библиотека»

К оглавлению выпуска

Аналитика

25.11.2025, 16 просмотров.