Информационные ресурсы. Специальный проект журнала: Центральная научная сельскохозяйственная библиотека. СОКОЛОВА Ж.В. ОСОБЕННОСТИ ИНДЕКСИРОВАНИЯ ДОКУМЕНТОВ ПО РАСТЕНИЕВОДСТВУ

 Введение. Растениеводство одна из основных отраслей сельского хозяйства, занимающаяся возделыванием сельскохозяйственных культур для обеспечения населения продуктами питания, животноводства – кормами, различные отрасли промышленности – сырьем растительного происхождения. Растениеводство входит в комплекс агрономических наук и базируется на данных многих дисциплин: химии, физики, геологии, ботаники, почвоведении, физиологии растений, агрохимии, земледелии, метеорологии, селекции и семеноводстве, защите растений, мелиорации, экономике (1, с. 4). Данная научная область требует от информационных работников высокой квалификации и постоянного совершенствования знаний при аналитико-синтетической обработке информации.

 Для обеспечения быстрого и эффективного тематического поиска информации по растениеводству в автоматизированной информационно-поисковой системе (ИПС) и базах данных (БД) в Федеральном государственном бюджетном научном учреждении «Центральная научная сельскохозяйственная библиотека» (ЦНСХБ) осуществляется индексирование входного документопотока, то есть процесс выражения и описания содержания документа с помощью информационно-поисковых языков (ИПЯ), специально разработанных для поиска в автоматизированных системах. В ЦНСХБ для выражения смыслового содержания документов используются предкоординатные и посткоординатные ИПЯ. К предкоординатным (классификационным) языкам относятся: Универсальная десятичная классификация и Отраслевой рубрикатор по сельскому хозяйству и продовольствию (ОР). К посткоординатным ИПЯ относятся дескрипторный язык, основным инструментом которого является Информационно-поисковый тезаурус по сельскому хозяйству и продовольствию (ИПТ) и язык ключевых слов. Понятия, отражающие основное содержание документа, должны быть выражены нормализованной научной лексикой. Для унификации процесса индексирования используется ИПТ, представляющий собой структурированный словарь для контроля лексики, в котором явно и системно определяются основные семантические отношения (эквивалентности, иерархические и ассоциативные) между терминами естественного языка (2). Термины ИПТ (дескрипторы и аскрипторы) отбираются с учетом их значимости и частоты встречаемости в документах БД и проходят специальную лингвистическую экспертизу и обработку. В тезаурусе ЦНСХБ термины, или лексические единицы, упорядочены по алфавитному принципу с указанием на существующие между ними смысловые связи иерархического и неиерархического типа. На данный момент ИПТ ЦНСХБ объемом более 62 тыс. терминов охватывает все отрасли АПК и достаточно полно отражает современное состояние сельскохозяйственной науки и практики.

 Целью исследования является анализ и выявление особенностей индексирования документов по растениеводству в ЦНСХБ на ИПЯ, специально разработанных для автоматизированного поиска: ОР, ИПТ и языка ключевых слов.

 Методической основой индексирования материалов по растениеводству являются различного рода нормативные документы: ГОСТы, ОР, ИПТ, методические материалы и инструкции по индексированию. Необходимым условием качественного индексирования является знание индексатором структуры и тематического диапазона БД «АГРОС» (основного информационного продукта ЦНСХБ), логики поиска в ней, а также реальных запросов пользователей. При этом соблюдаются общие требования, предъявляемые к индексированию документов: полнота и точность рассмотрения документа, объективность рассмотрения, единообразие отображения сходных документов.

 Процесс индексирования документов включает несколько основных этапов, которые осуществляются последовательно: анализ содержания документа; выбор понятий, отражающих его основное содержание; выбор терминов индексирования (дескрипторов, ключевых слов, рубрик) для обозначения понятий; формирование поискового образа документа (ПОД) из терминов индексирования.

  Содержание работы. Задача индексатора – как можно полнее и тщательнее изучить документ во всех его аспектах, чтобы быть уверенным, что не упущена никакая полезная информация (4). Этого можно достичь, тщательно анализируя: титульный лист (для определения места издания и вида документа); заглавие; реферат или аннотацию; оглавление; предисловие, введение, пристатейные ключевые слова и т. п.; схемы, таблицы и подписи под ними; слова или группы слов, подчеркнутые или выделенные при печати; выводы; список литературы.

 Рекомендуется придерживаться следующей схемы выделения понятий, подлежащих индексированию:

  1.   1. Объект исследования: сельскохозяйственные культуры, сорта, гибриды, типы почв и т. д.   
  2.   2. Термины, отражающие объект исследований, рекомендуется записывать в ПОД первыми.
  3.  3. Действие и/или его агент: агротехнические приемы (системы и способы обработки почвы, системы применения удобрений, нормы, сроки и способы посева и посадки сельскохозяйственных культур, предпосевная обработка семян, уход за посевами и посадками, способы и сроки уборки урожая и т. д.), технологии возделывания (интенсивные, экстенсивные, адаптивные, точные, энергосберегающие, почвозащитные и т. д.), хранение продукции растениеводства (режим, сроки, способы и т. п.), виды удобрений (минеральные, органические, органо-минеральные, комплексные, сложные, микроудобрения и др.), системы обработки почвы (основная, предпосевная, противоэрозионная и т. п.).
  4.  4. Условия действия или условия исследования (полевые опыты, лабораторные исследования, опыты in vitro, вегетационные опыты, производственные опыты и т. п.).
  5.  5. Цель действия или исследования (разработка экологически безопасных, ресурсосберегающих технологий возделывания сельскохозяйственных культур, получение высококачественной продукции растениеводства, повышение урожайности и т. п.).
  6.  6. Область применения объекта (пищевая и перерабатывающая промышленность, животноводство, биотехнология и т. д.).
  7.   7. Время воздействия на объект, время его действия или время исследования (сезон, время года, год).
  8.  8. География объектов, процессов, исследований (страны, области и зоны России, климатические зоны и т. п.).

  Индексируются все понятия, исчерпывающе описывающие документ и релевантные для БД. Для индексирования документов по растениеводству по ИПТ требуется в среднем 7-10 понятий, но в зависимости от содержания документа их может быть 3-5 или более 10. Отобранные термины индексирования следует записывать в логической последовательности для того, чтобы смысловое содержание документа было понятно даже без прочтения его заглавия.

 Из ИПТ для выбранных из документа понятий подбираются дескрипторы (разрешенные для индексирования термины), наиболее конкретно выражающие эти понятия. Если нужное понятие совпадает с запрещенным к использованию при индексировании аскриптором (синонимы, омонимы), то следует воспользоваться ссылкой на нужный дескриптор. Например, «помидор» (аскриптор) – см. «томат» (дескриптор), «пшеница твердая» – см «Triticum durum», «жидкие удобрительно-стимулирующие составы» – см. «ЖУСС», «эфиры» – Исп «простые эфиры», «сложные эфиры». Использование при индексировании только дескрипторов придает единообразие и точность отражения тематики документов по растениеводству. Наличие ассоциативных отношений между терминами тезауруса облегчает работу индексатора, так как позволяет находить близкие по смыслу понятия и тем самым помогает полнее передать содержание документа. Например, дескриптор «дискование» имеет следующие ассоциации «диски», «лущение», «культивация «поверхностная обработка почвы». В случае уточнения родовых латинских названий видов растений обращение к статьям ассоциативных дескрипторов является обязательным. Например, дескриптор «тритикале» имеет ассоциацию «Triticosecale», «клевер» – «Trifolium», «горох» – «Pisum». Специфические термины, новые понятия, не представленные в ИПТ, но имеющие высокую частотность и важное значение при составлении ПОДа, используются в качестве ключевых слов (5, с. 62-65).

  Отраслевой рубрикатор по сельскому хозяйству и продовольствию специально разработан для автоматизированной информационной системы ЦНСХБ на базе Государственного рубрикатора научно-технической информации (ГРНТИ) с максимальной глубиной классификации до 5 уровней. Рубрикатор по сельскому хозяйству и продовольствию представляет собой классификацию научных знаний в структурированном и формализованном виде. Рубрики состоят из кодов и наименований. Код представляет собой цепочку пар арабских цифр (в зависимости от уровня иерархии), разделенных знаком «.» (точка). При рубрике может быть примечание, уточняющее вопросы, которые она отражает в связи с другими рубриками, а также система ссылок (См. и См. также) к другим разделам отраслевого рубрикатора и ГРНТИ и обратных ссылок от них (Отс. от и См. также). Такие ссылки облегчают понимание тематического охвата рубрик и поиск рубрики, необходимой для индексирования конкретного документа. (3, с.16-20).

  Проиллюстрируем это на фрагменте рубрикатора:

               68.35 Растениеводство

     Примечание: В рубрике отражаются вопросы биологии, селекции, семеноводства и возделывания отдельных видов сельскохозяйственных культур.

      Возделывание сельскохозяйственных культур в специальных севооборотах

  •                    см. 29.07.15.19 Специальный севооборот
  •                    Возделывание промежуточных культур
  •                    см. 29.09 Промежуточные культуры
  •                    Защита сельскохозяйственных растений от вредителей, болезней и сорняков
  •                    см. 37 Защита сельскохозяйственных растений
  •                    отс. от 629.09 Сырье и вспомогательные материалы для текстильной промышленности
  •                    отс. от 03.03 Биология сельскохозяйственных растений
  •                   отс. от 29 Земледелие
  •                   отс. от 31 Сельскохозяйственная мелиорация
  •                   отс. от 33 Агрохимия
  •                   отс. от 35.03 Селекция и семеноводство сельскохозяйственных культур

  Для отражения основных аспектов содержания документу приписывается цифровой код одной или нескольких рубрик (но не более трех). Код рубрики определяет место данного документа в информационном массиве БД, релевантность поиска по запросу пользователей. Поиск документов по кодам ОР позволяет найти в БД большой объем документов по крупным блокам тематической информации, в частности по растениеводству, не прибегая к помощи терминов ИПТ или в дополнение к нему.

  Рассмотрим особенности индексирования документов по растениеводству на нескольких примерах.

 Пример 1. Документ «Влияние минеральных удобрений на урожайность озимой пшеницы, возделываемой по сидеральному пару».

 Анализируя статью выделяем понятия для индексирования: озимая пшеница, минеральные удобрения, азофоска, нормы применения, предпосевное внесение, сидеральный пар, выщелоченный чернозем, элементы структуры урожая, урожайность, Ульяновская область. Затем присваиваем документу рубрику, используя ОР. В данном случае: 68.35.29.39.15 Агротехника пшеницы. И, наконец, подбираем по тезаурусу соответствующие дескрипторы. Обязательным при индексировании документов по растениеводству является использование латинских наименований сельскохозяйственных культур.

      ПОД документа будет выглядеть следующим образом:

      РУБ: 68.35.29.39.13

  ТЕР: пшеница, Triticum aestivum, озимые культуры, предшественники, сидеральный пар, предпосевное внесение удобрений, азофоска, нормы, отзывчивость на удобрения, выщелоченный чернозем, структура урожая, урожайность, Ульяновская обл.

Пример 2. Документ «Исследование влияния глубины основной обработки почвы, сорта и нормы высева на урожайность сои в степной зоне черноземных почв».

        ПОД документа будет выглядеть следующим образом:

        РУБ: 68.35.31.45.13

     ТЕР: соя, Glycine max, сорта, основная обработка почвы, способы обработки почвы, глубина обработки, нормы высева, водопотребление, структура урожая, урожайность, экономическая эффективность, черноземы, степь, Волгоградская обл.

Пример 3. Документ «Защитно-стимулирующая роль циркона в формировании урожайности яровой пшеницы в условиях загрязнения почвы цинком; оценка эффективности предпосевной обработки семян и некорневой подкормки».

         ПОД документа будет выглядеть следующим образом:

         РУБ: 68.35.29.39.13; 87.21.09

       ТЕР: пшеница, Triticum aestivum, яровые культуры, предпосевная обработка семян, некорневая подкормка, регуляторы роста растений, циркон, защитно-стимулирующие препараты, фотосинтетический потенциал, продуктивность, вынос питательных веществ, загрязненные почвы, цинк, концентрация веществ, вегетационные опыты.

  В данном случае понятие «циркон» отсутствует в ИПТ, но в силу его важности для раскрытия содержания документа и поиска информации может быть использовано в качестве ключевого слова. Кроме того, документу присваивается еще одна рубрика ОР 87.21.09 Загрязнение почв для наиболее полного отражения смыслового значения документа. При индексировании не было использовано географическое понятие Краснодарский край, так как в данной статье речь шла о вегетационных опытах, результаты которых не зависят от природно-климатических условий конкретного региона. Сведения о географии указываются в том случае, если в источнике говорится о полевых и производственных опытах, проведенных в определенных почвенно-климатических условиях.

Пример 4. Документ «Роль сорта в региональной адаптивной ресурсосберегающей технологии возделывания картофеля».

        ПОД документа будет выглядеть следующим образом:

        РУБ: 68.35.49.05

   ТЕР: картофель, Solanum tuberosum, сорта, адаптивные технологии, ресурсосберегающие технологии, сроки уборки урожая, урожайность Карелия.

   Так как в статье важная роль отводится сортам картофеля, то документу присваивается рубрика ОР 68.35.49.05 Селекция и семеноводство картофеля, а не 68.35.49.13 Агротехника картофеля, к тому же материал о сортовой агротехнике сельскохозяйственных культур собирается в рубриках 68.35.XX.05, где «XX» ‑ конкретная культура.

Пример 5. Документ «Влияние сорта и гибрида сахарной свеклы на сохранность в условиях ЦЧЗ».

       ПОД документа будет выглядеть следующим образом:

       РУБ: 68.35.33.71 Продукция свекловодства, ее переработка и хранение

      ТЕР: свекла сахарная, Beta vulgaris var saccharifera, сорта, гибриды, корнеплоды, режим хранения, продолжительность, кагаты, сохранность, сахаристость, технологические качества, ЦЧЗ.

  Успешность поиска информации во многом зависит от квалификации индексаторов, от того, насколько полно и точно будет раскрыты ими проблемы, отраженные в первичном документе, и насколько правильно они будут переведены с естественного языка на формализованный язык ИПС. Одно из условий совершенствования БД – это связь с пользователем. Задача индексатора – предвосхищать запросы пользователей, отражая самые новые, актуальные и перспективные направления развития науки и практики.

 Таким образом, отбор наиболее значимой информации из входящего потока документов, представление ее в свернутом виде с помощью дескрипторов и ключевых слов, определение места документа в информационных ресурсах за счет присвоения ему кодов ОР позволяют унифицировать и оптимизировать процесс индексирования, корректно раскрывать содержание документа, обеспечивая релевантность и полноту поиска.

  Выводы. Разработанная в ЦНСХБ методика индексирования обеспечивает единообразие в выражении смыслового содержания документов по растениеводству. Использование ИПТ и ОР обеспечивает всестороннее раскрытие тем документа и обеспечивает эффективный поиск информации по данной отрасли знания в БД. Насыщенность ИПТ научной лексикой по растениеводству и постоянное пополнение его новой терминологией обеспечивает надлежащее качество индексирования документов.

Список источников

  1. 1. Безлер Н. В., Щеглов Д. И. Растениеводство: учебное пособие. Воронеж : Издательско-полиграфический центр Воронежского государственного университета, 2011. 52 с.
  2. 2. Гендина Н. И. Информационно-поисковые тезаурусы: структура, назначение и порядок разработки // Новосибирский государственный университет. URL:  https://nsu.ru/xmlui/bitstream/handle/nsu/8962/IPT.pdf (Дата обращения 27.01.2023).
  3. 3. Индексирование документов базы данных ЦНСХБ. Методические указания // состав. Пирумова Л. Н., Харченко Л. Т. – Москва, 1995. – 35 с.
  4. 4. Пирумова Л. Н., Соколова Ж. В. Научная обработка документов: вчера, сегодня, завтра // Научные аграрные библиотеки в современных условиях: проблемы, перспективы, инновации, технологии. – Москва, 2015. – С69-81.
  5. 5. Пирумова Л. Н., Харченко Л. Т. Тезаурус по сельскому хозяйству и продовольствию: индексирование документов и поиск информации в БД АГРОС. (Методические материалы) – Москва, 2001. – 70 с.
  6. Сведения об авторе

  7. Соколова Жанна Владимировна - старший научный сотрудник отдела аналитико-синтетической обработки документов и лингвистического обеспечения Федерального государственного бюджетного научного учреждения «Центральная научная сельскохозяйственная библиотека»

К оглавлению выпуска

Год литературы

02.04.2023, 263 просмотра.