Научные коммуникации и информационно-аналитическое обеспечение науки. СОКОЛОВА Ж.В. СЕМАНТИЧЕСКАЯ ОБРАБОТКА ДОКУМЕНТОВ ПО ПОЧВОВЕДЕНИЮ

Введение. Почвоведение – наука о почвах, их образовании, строении, составе и свойствах, закономерностях географического распространения, роли в биосфере, методах их рационального использования и охраны. Формирование научных знаний о почве началось в глубокой древности и связано с зарождением и постепенным развитием одной из основных отраслей человеческой деятельности – земледелия [6, с. 5]. Как естественнонаучная дисциплина почвоведение тесно связано другими естественными науками, такими как геология, минералогия, гидрогеология, геоботаника, климатология, метеорология, биогеоценология, петрография, кристаллография, физическая география, геоморфология. Данная область знаний широко использует достижения фундаментальных наук (физики, химии, математики), наук агробиологического цикла (биологии, микробиологии, биохимии, агрохимии, физиологии растений, лесоводства), аграрно-экономических наук (землеустройства, экономики и др.) [3, с. 34]. Данная научная область требует от информационных работников высокой квалификации и постоянного совершенствования знаний при семантической обработке информации.

Для обеспечения быстрого и эффективного тематического поиска информации по почвоведению в автоматизированных информационно-поисковых системах (ИПС) и базах данных (БД) в Федеральном государственном бюджетном научном учреждении «Центральная научная сельскохозяйственная библиотека» (ЦНСХБ) осуществляется индексирование входного документального потока, т. е. процесс выражения и описания содержания документа с помощью информационно-поисковых языков (ИПЯ), специально разработанных для поиска в автоматизированных системах. В ЦНСХБ для выражения смыслового содержания документов используются предкоординатные и посткоординатные ИПЯ. К предкоординатным (классификационным) языкам относятся: Универсальная десятичная классификация и Отраслевой рубрикатор по сельскому хозяйству и продовольствию (ОР). К посткоординатным ИПЯ относятся дескрипторный язык, основным инструментом которого является Информационно-поисковый тезаурус по сельскому хозяйству и продовольствию (ИПТ), а также язык ключевых слов. Понятия, отражающие основное содержание документа, должны быть выражены нормализованной научной лексикой. Для унификации процесса индексирования используется ИПТ, представляющий собой структурированный словарь для контроля лексики, в котором явно и системно определяются основные семантические отношения (эквивалентности, иерархические и ассоциативные) между терминами естественного языка [1]. В тезаурусе ЦНСХБ термины, или лексические единицы, упорядочены по алфавитному принципу с указанием на существующие между ними смысловые связи иерархического и неиерархического типа. На данный момент ИПТ ЦНСХБ объемом более 69 тыс. терминов охватывает все отрасли АПК и достаточно полно отражает современное состояние сельскохозяйственной науки и практики.

Целью исследования является анализ и выявление особенностей индексирования документов по почвоведению в ЦНСХБ на ИПЯ, специально разработанных для автоматизированного поиска: ОР, ИПТ и языка ключевых слов.

Методической основой индексирования материалов по почвоведению являются различного рода нормативные документы: ГОСТы, ОР, ИПТ, методические рекомендации и инструкции по индексированию. Необходимым условием качественного индексирования является знание индексатором структуры и тематического диапазона БД «АГРОС» (основного информационного продукта ЦНСХБ), логики поиска в ней, а также реальных запросов пользователей. При этом соблюдаются общие требования, предъявляемые к индексированию документов: полнота и точность рассмотрения документа, объективность рассмотрения, единообразие отображения сходных документов.

Процесс индексирования документов включает несколько основных этапов, которые осуществляются последовательно: анализ содержания документа; выбор понятий, отражающих его основное содержание; выбор терминов индексирования (дескрипторов, ключевых слов, рубрик) для обозначения понятий; формирование поискового образа документа (ПОД) из терминов индексирования [2, с. 4–5].

Содержание работы. Задача индексатора – как можно полнее и тщательнее изучить документ во всех его аспектах, чтобы быть уверенным, что не упущена никакая полезная информация [4]. Этого можно достичь, тщательно анализируя: титульный лист (для определения места издания и вида документа); заглавие; реферат или аннотацию; оглавление; предисловие, введение, пристатейные ключевые слова и т. п.; схемы, таблицы и подписи под ними; слова или группы слов, подчеркнутые или выделенные при печати; выводы; список литературы.

Рекомендуется придерживаться следующей схемы выделения понятий, подлежащих индексированию:

  1. Объект исследования: тип почвы (дерново-подзолистые почвы, серые лесные почвы, каштановые почвы, обыкновенный чернозем и т. д.), плодородие и бонитировка почв, генезис почв (факторы почвообразования), классификация почв, география почв (общая и региональная география), морфология, минералогия, физика (водный режим, воздушный режим, тепловой режим, структура и т. п.) почв, химия (органические вещества, неорганические вещества, физико-химические свойства, агрохимическая характеристика) и биология (биохимические процессы, почвенные микроорганизмы, почвенная фауна) почв и т. д. Термины, отражающие объект исследований, рекомендуется записывать в ПОД первыми.
  2. Действие и/или его агент: системы обработки почвы (основная, предпосевная, противоэрозионная, почвозащитная и т. п.), системы применения удобрений (сроки, нормы и способы применения), технологии возделывания сельскохозяйственных культур (интенсивные, экстенсивные, адаптивные, точные, энергосберегающие, почвозащитные и т. д), загрязнение почвы и др.
  3. Условия действия или условия исследования (полевые опыты, лабораторные опыты, лизиметрические исследования, вегетационные опыты, производственные опыты и т. п.).
  4. Цель действия или исследования (повышение плодородия почв, определение потребности почв в удобрениях, охрана почвенных ресурсов и т. п.).
  5. Область применения объекта (земледелие, землепользование и т. д.).
  6. Время воздействия на объект, время его действия или время исследования (сезон, время года, год).
  7. География объектов, процессов, исследований (страны, области и зоны России, климатические зоны и т. п.).

Индексируются все понятия, исчерпывающе описывающие документ и релевантные для БД. Для индексирования документов по почвоведению по ИПТ требуется в среднем 5-7 понятий, но в зависимости от содержания документа их может быть 3-5 или более 10. Отобранные термины индексирования следует записывать в логической последовательности, для того чтобы смысловое содержание документа было понятно даже без прочтения его заглавия.

Из ИПТ для выбранных из документа понятий подбираются дескрипторы (разрешенные для индексирования термины), наиболее конкретно выражающие эти понятия. Если нужное понятие совпадает с запрещенным к использованию при индексировании аскриптором (синонимы, омонимы), то следует воспользоваться ссылкой на нужный дескриптор. Например, «гранулометрический состав почвы» (аскриптор) – см. «механический состав почвы» (дескриптор), «мерзлотные почвы» – см «криогенные почвы», «картография почв» – см. «картирование», «почвенный поглощающий комплекс» – см. «ППК», «емкость катионного обмена» – см. «ЕКО». Использование при индексировании только дескрипторов придает единообразие и точность отражения тематики документов по почвоведению. Наличие ассоциативных отношений между терминами тезауруса облегчает работу индексатора, так как позволяет находить близкие по смыслу понятия и тем самым помогает полнее передать содержание документа. Например, дескриптор «гумус» имеет следующие ассоциации «гуматы», «гуминовые вещества», «лесная подстилка», «органический углерод», «растительные остатки», «фульвокислоты», «экогумус». Специфические термины, новые понятия, не представленные в ИПТ, но имеющие высокую частотность и важное значение при составлении ПОДа, используются в качестве ключевых слов [5, с. 62–65].

Отраслевой рубрикатор по сельскому хозяйству и продовольствию специально разработан для автоматизированной информационной системы ЦНСХБ на базе Государственного рубрикатора научно-технической информации (ГРНТИ) с максимальной глубиной классификации до 5 уровней. Рубрикатор по сельскому хозяйству и продовольствию представляет собой классификацию научных знаний в структурированном и формализованном виде. Рубрики состоят из кодов и наименований. Код представляет собой цепочку пар арабских цифр (в зависимости от уровня иерархии), разделенных знаком «.» (точка). При рубрике может быть примечание, уточняющее вопросы, которые она отражает в связи с другими рубриками, а также система ссылок (См. и См. также) к другим разделам ОР и ГРНТИ и обратных ссылок от них (Отс. от и См. также). Такие ссылки облегчают понимание тематического охвата рубрик и поиск рубрики, необходимой для индексирования конкретного документа. [3, с. 16–20].

Проиллюстрируем это на фрагментах рубрикатора:

68.05 Почвоведение

Определение потребности почв в удобрениях

  • см. 68.33.15 Агрохимическая служба
    Лесное почвоведение
  • см. 68.47.03 Лесоведение

·                68.05.01 Общие вопросы

·                68.05.29 Плодородие почв. Бонитировка

·                68.05.31 Генезис почв

·                68.05.33 География почв

·                68.05.35 Классификация почв

·                68.05.37 Морфология почв

·                68.05.39 Минералогия почв

·                68.05.41 Физика почв

·                68.05.43 Химия почв

·                68.05.45 Биология почв

68.05.41.03 Водный режим и водные свойства почв

  • Примечание: В рубрике собирается материал о формах воды в почве, влажности, влагоемкости, влагопроницаемости, инфильтрации, испарении воды почвой и др.
  • отс. от 29.05Агрометеорология и агроклиматология
  • отс. от 29.05.03Метеорологические факторы в сельском хозяйстве

Для отражения основных аспектов содержания документу приписывается цифровой код одной или нескольких рубрик (но не более трех). Код рубрики определяет место данного документа в информационном массиве БД, релевантность поиска по запросу пользователей. Поиск документов по кодам ОР позволяет найти в БД большой объем документов по крупным блокам тематической информации, в частности по почвоведению, не прибегая к помощи терминов ИПТ или в дополнение к нему.

Рассмотрим особенности индексирования документов по почвоведению на нескольких примерах.

Пример 1. Документ «Распределение органического углерода между структурными и процессными пулами в серой лесной почве разного землепользования».

Анализируя статью, выделяем понятия для индексирования: серая лесная почва, органический углерод, почвенный профиль, распределение в пространстве, землепользование, Московская обл. Затем присваиваем документу рубрику, используя ОР. В данном случае: 68.05.43.03 Органические вещества почв. И, наконец, подбираем по тезаурусу соответствующие дескрипторы.

ПОД документа будет выглядеть следующим образом:

Рубрики ОР: 68.05.43.03

Термины тезауруса: серые лесные почвы, органический углерод, почвенный профиль, пространственное распределение, землепользование, Московская обл.

Пример 2. Документ «Биологическая активность и химические свойства тундровых почв Чукотского автономного округа в условиях промышленного загрязнения».

Особенностью индексирования данного документа является присвоение ему нескольких рубрик ОР 68.05.45.01 Общие вопросы биологии почв, 68.05.41.01 Общие вопросы химии почв, 87.21.09 Загрязнение почв для наиболее полного отражения смыслового содержания документа.

ПОД документа будет выглядеть следующим образом:

Рубрики ОР: 68.05.45.01, 68.05.43.01, 87.21.09

Термины тезауруса: тип почвы, биологическая активность почвы, химические свойства, загрязнение почвы, техногенные загрязнители, тундра, Чукотский АО.

Пример 3. Документ «Диагностика вулканических почв в различных классификационных системах (Обзор)».

При раскрытии смыслового содержания данного документа в ПОД добавляется информация о его характере. В данном случае это обзорная статья. К тому же, в документе рассматриваются подходы к выделению вулканических почв в классификациях России, США и Новой Зеландии, поэтому эти страны должны быть отражены при индексировании.

ПОД документа будет выглядеть следующим образом:

Рубрики ОР: 68.05.35.07 Типы почв

Термины тезауруса: вулканические почвы, диагностика, классификация почв, обзоры, РФ, США, Новая Зеландия.

Пример 4. Документ «Влияние системы удобрения в зернопропашном севообороте на показатели плодородия дерново-подзолистых почв».

При раскрытии содержания данного документа помимо рубрики, относящейся к разделу Почвоведение 68.05.29.03 Плодородие почв, необходимо отразить рубрики, относящиеся к разделам Земледелие и Агрохимия, а именно 68.29.07.15.15 Полевой севооборот и 68.33.29.05 Система применения удобрений. В данном случае вопросы плодородия почвы хотя и первостепенны, но важны также агротехнические приемы, влияющие на него.

ПОД документа будет выглядеть следующим образом:

Рубрики ОР: 68.05.29.03, 68.29.07.15.15, 68.33.29.05

Термины тезауруса: дерново-подзолистые почвы, плодородие, гумус, содержание веществ, система удобрения, солома, сидераты, пожнивные остатки, зернопропашной севооборот, продуктивность севооборота, Ивановская обл.

Пример 5. Документ «Особенности накопления редкоземельных элементов, в частности церия, в почвах и породах Южного Урала».

В данном случае понятие «церий» отсутствует в тезаурусе, но в силу его важности для раскрытия содержания документа и поиска информации может быть использовано в качестве ключевого слова. В качестве термина ИПТ используется более широкое понятие «редкоземельные элементы». Несмотря на то что в заглавии статьи указывается географическое наименование «Южный Урал», в ПОДе записывается термин «Башкортостан», так как при анализе содержание источника установлено, что исследования были проведены в условиях Башкортостана, а не Южного Урала в целом.

ПОД документа будет выглядеть следующим образом:

Рубрики ОР: 68.05.43.05 Неорганические вещества почв

Термины тезауруса: тип почвы, почвообразующие породы, редкоземельные элементы, накопление, пространственное распределение, Башкортостан.

Ключевые слова: церий.

Успешность поиска информации во многом зависит от квалификации индексаторов, от того, насколько полно и точно будут раскрыты ими проблемы, отраженные в первичном документе, и насколько правильно они будут переведены с естественного языка на формализованный язык ИПС. Одно из условий совершенствования БД – это связь с пользователем. Задача индексатора – предвосхищать запросы пользователей, отражая самые новые, актуальные и перспективные направления развития науки и практики.

Таким образом, отбор наиболее значимой информации из входящего потока документов, представление ее в свернутом виде с помощью дескрипторов ИПТ и ключевых слов, определение места документа в информационных ресурсах за счет присвоения ему кодов ОР позволяют унифицировать и оптимизировать процесс индексирования, корректно раскрывать смысловое содержание документа, обеспечивая релевантность и полноту поиска.

Выводы. Разработанная в ЦНСХБ методика индексирования обеспечивает единообразие в выражении смыслового содержания документов по почвоведению. Использование ИПТ и ОР обеспечивает всестороннее раскрытие тем документа и обеспечивает эффективный поиск информации по данной отрасли знания в БД «АГРОС». Насыщенность ИПТ научной лексикой по почвоведению и постоянное пополнение его новой терминологией обеспечивает надлежащее качество индексирования документов.

 

Список источников

  1. 1. Гендина Н. И. Информационно-поисковые тезаурусы: структура, назначение и порядок разработки // Новосибирский государственный университет. URL: https://nsu.ru/xmlui/bitstream/handle/nsu/8962/IPT.pdf (Дата обращения 27.02.2025).
  2. 2. Индексирование документов базы данных ЦНСХБ. Методические указания // состав. Пирумова Л. Н., Харченко Л. Т. – Москва, 1995. – 35 с.
  3. 3. Кравцова В.Н., Левшук О. Н., Волкова В. В. Почвоведение с основами земледелия: электронный учебно-методический комплекс. – Пинск: ПолесГУ, 2020. – 364 с. URL: https://rep.polessu.by/bitstream/123456789/ 21293 /1/Kravcova_Levshuk_Volkova_Pochvovedenie_s_osnovami_zemledelija.pdf (Дата обращения 27.02.2025).
  4. 4. Пирумова Л. Н., Соколова Ж. В. Научная обработка документов: вчера, сегодня, завтра // Научные аграрные библиотеки в современных условиях: проблемы, перспективы, инновации, технологии. – Москва,С.69–81.
  5. 5. Пирумова Л. Н., Харченко Л. Т. Тезаурус по сельскому хозяйству и продовольствию: индексирование документов и поиск информации в БД АГРОС. (Методические материалы) – Москва, 2001. – 70 с.
  6. 6. Слюсарев В.Н., Осипов А. В., Попова Ю. С. Общее почвоведение: учебник. – Краснодар: КубГАУ, 2020. 129 с.

Сведения об авторе

Соколова Жанна Владимировна старший научный сотрудник отдела аналитико-синтетической обработки документов и лингвистического обеспечения, Федеральное государственное бюджетное научное учреждение «Центральная научная сельскохозяйственная библиотека»

К оглавлению выпуска

Год литературы

20.08.2025, 23 просмотра.