Научные коммуникации и информационно-аналитическое обеспечение науки. СОКОЛОВА Ж.В. АНАЛИТИКО-СИНТЕТИЧЕСКАЯ ОБРАБОТКА ДОКУМЕНТОВ ПО СЕЛЕКЦИИ РАСТЕНИЙ

 Введение. Аналитико-синтетическая обработка документов – это процесс раскрытия содержания документа, преобразование текста документа с целью создания его поискового образа.

  В ходе аналитико-синтетической обработки аналитик осуществляет индексирование, которое является переводом содержания документа с естественного на информационно-поисковый язык (ИПЯ) и самой жесткой формой сжатия информации, в результате которой производится самая короткая форма, отражающая содержание документа – индекс, дескрипторы тезауруса, коды рубрикатора. Аналитико-синтетическая обработка документов тесно связана с информационным поиском, поскольку ее задача – снабдить документ поисковым образом, по которому в дальнейшем и будет производиться поиск (4).

  С целью обеспечения оперативного и качественного тематического поиска информации в автоматизированных информационно-поисковых системах (ИПС) и базах данных (БД) специалисты Федерального государственного бюджетного научного учреждения «Центральная научная сельскохозяйственная библиотека» (ЦНСХБ) осуществляют индексирование входного документального потока. В ЦНСХБ для выражения смыслового содержания документов используются предкоординатные и посткоординатные ИПЯ. Группа предкоординатных (классификационных) языков представлена Универсальной десятичной классификацией и Отраслевым рубрикатором по сельскому хозяйству и продовольствию (ОР). К посткоординатным ИПЯ относятся дескрипторный язык, реализованный в Информационно-поисковом тезаурусе по сельскому хозяйству и продовольствию (ИПТ), а также язык ключевых слов. ОР и ИПТ специально разработаны для поиска в автоматизированных системах. Для раскрытия основного содержания документа требуется использование нормализованной научной лексики. Для унификации процесса индексирования используется ИПТ, представляющий собой структурированный словарь для контроля лексики, в котором явно и системно определяются основные семантические отношения (эквивалентности, иерархические и ассоциативные) между терминами естественного языка (1). В структуре тезауруса ЦНСХБ термины (лексические единицы) представлены в алфавитном порядке. При этом для каждого термина указаны существующие между ними смысловые связи – как иерархические, так и неиерархические. В настоящее время ИПТ ЦНСХБ, включающий более 71 тыс. терминов, охватывает все отрасли АПК и достаточно полно отражает современное состояние сельскохозяйственной науки и практики.

  Селекция – прикладная наука, т. е. предметом ее изучения не являются фундаментальные законы. Она изучает закономерности, непосредственно используемые в практической деятельности человека. Предметом селекции является разработка методов создания сортов и гибридов (3, с. 10). В то же время селекция – очень комплексная наукоемкая дисциплина, которая использует большое количество методов, характерных для самых разных наук при создании популяций, проведении отбора лучших растений и изучении их потомства (7, с. 7). Теоретической основой селекции является генетика, изучающая наследственность и изменчивость – два взаимосвязанных свойства живых организмов, которые составляют фундамент селекционного процесса. Селекция тесно связана также с ботаникой, систематикой, физиологией и биохимией растений, фитопатологией, энтомологией, молекулярной биологией, биотехнологией, агрометеорологией, климатологией, экологией, вариационной статистикой и множеством других наук. Данная научная область требует от информационных работников высокой квалификации и постоянного совершенствования знаний при аналитико-синтетической обработке информации. В ЦНСХБ на основе ИПТ создан микротезаурус по генетике и селекции, существенно облегчающий индексирование документов, поскольку позволяет работать со всем объемом терминологии по данной предметной области. На данный момент его объем составляет более 2200 терминов.

 Целью исследования является выявление особенностей аналитико-синтетической обработки документов по селекции растений в ЦНСХБ на ИПЯ, специально разработанных для автоматизированного поиска: ОР, ИПТ и языка ключевых слов.

  Методической основой индексирования материалов по селекции растений являются различного рода нормативные документы: ГОСТы, ОР, ИПТ, методические рекомендации и инструкции по индексированию. Качественное индексирование невозможно без понимания индексатором структуры и тематических границ БД «АГРОС» – ключевого информационного продукта ЦНСХБ, а также без учета логики поиска в этой системе и актуальных информационных потребностей пользователей. При этом индексирование осуществляется с соблюдением обязательных требований: исчерпывающий охват, корректность передачи содержания, объективность рассмотрения и унифицированное представление сходных документов.

 Процесс индексирования документов включает несколько основных этапов, которые осуществляются последовательно: анализ содержания документа; выбор понятий, отражающих его основное содержание; выбор терминов индексирования (дескрипторов, ключевых слов, рубрик) для обозначения понятий; формирование поискового образа документа (ПОД) из терминов индексирования (2, с. 4–5).

  Задача индексатора – как можно полнее и тщательнее изучить документ во всех его аспектах, чтобы быть уверенным, что не упущена никакая полезная информация (5). Этого можно достичь, тщательно анализируя: титульный лист (для определения места издания и вида документа); заглавие; реферат или аннотацию; оглавление; предисловие, введение, пристатейные ключевые слова и т. д; схемы, таблицы и подписи под ними; слова или группы слов, подчеркнутые или выделенные при печати; выводы; список литературы.

 Рекомендуется придерживаться следующей схемы выделения понятий, подлежащих индексированию:

  1. 1. Объект исследования: сельскохозяйственные культуры (зерновые и зернобобовые культуры, сахарная свекла, прядильные культуры, масличные и эфиромасличные культуры, табак и махорка, кормовые культуры, картофель, овощные и бахчевые культуры, плодовые и ягодные культуры, виноград, лекарственные и декоративные растения и т. д.), направления селекции (повышение урожайности, улучшение качества продукции, устойчивость к болезням и вредителям, экологическая пластичность, технологичность и т. д.). Термины, отражающие объект исследований, рекомендуется записывать в ПОД первыми.
  2. 2. Действие и/или его агент: методы селекции (массовый и индивидуальный отбор, внутривидовая и отдаленная гибридизация, мутагенез, полиплоидия, клеточная и генная инженерия и т. д).
  3. 3. Условия действия или условия исследования (полевые опыты, лабораторные опыты, вегетационные опыты, производственные опыты и т. п.).
  4. 4. Цель действия или исследования (выведение новых сортов и гибридов).
  5. 5. Область применения объекта (растениеводство).
  6. 6. География объектов, процессов, исследований (страны, области и зоны России, климатические зоны и т. п.).

  При индексировании фиксируются все понятия, максимально полно отражающие содержание документа и релевантны для БД. При обработке документов по селекции растений по ИПТ оптимальное количество понятий составляет 5–7, однако в зависимости от смысловой насыщенности их может быть 3-5 или более 10. Рекомендуется упорядочивать отобранные термины в логической последовательности, обеспечивающей однозначное понимание предметного содержания документа вне зависимости от его заглавия.

 Для понятий, выявленных в документе, из ИПТ выбираются дескрипторы – термины, разрешенные для индексирования, – которые с наибольшей точностью передают содержание этих понятий. Если нужное понятие оказывается синонимом или омонимом – аскриптором – термином, запрещенным для индексирования, необходимо обратиться к ссылочному аппарату тезауруса, указывающему на соответствующий дескриптор. Например: «инцухт-линии» (аскриптор) – см. «инбредные линии» (дескриптор); «маркер-ориентированная селекция» – см. «маркер-вспомогательная селекция»; «пыльцевая селекция» – см. «гаметный отбор»; «парные скрещивания» – см. «простые скрещивания; «мутационный процесс» – см. «мутагенез; «полимеразная цепная реакция» – см. «PCR; «полиморфизм длины рестрикционных фрагментов ДНК» – см. «RFLP». Использование в процессе индексирования исключительно дескрипторов обеспечивает единообразие и адекватность раскрытия содержания документов по селекции растений. Ассоциативные связи между терминами тезауруса существенно упрощают труд индексатора, поскольку дают возможность подбирать смысловые аналоги и, как следствие, более полно раскрывать содержание документа. Например, дескриптор «методы селекции» имеет следующие ассоциации: «гаплоидия», «гибридизация», «полиплоидия», «генная инженерия», «гетерозис», «типы скрещиваний» и т. д. Специфические термины, новые понятия, не представленные в ИПТ, но имеющие высокую частотность и важное значение при составлении ПОДа, используются в качестве ключевых слов.

 Отраслевой рубрикатор по сельскому хозяйству и продовольствию специально создан для автоматизированной информационной системы ЦНСХБ. Его основой послужил Государственный рубрикатор научно-технической информации (ГРНТИ), при этом глубина классификации в ОР достигает до пяти уровней. Рубрикатор по сельскому хозяйству и продовольствию – это классификация знаний в данной предметной области в структурированном и формализованном виде. Рубрики состоят из кодов и наименований. Код представляет собой цепочку пар арабских цифр (в зависимости от уровня иерархии), разделенных знаком «.» (точка) (6, с. 17–18). При рубрике может быть примечание, уточняющее вопросы, которые она отражает в связи с другими рубриками, а также система ссылок (См. и См. также) к другим разделам ОР и ГРНТИ и обратных ссылок от них (Отс. от и См. также). Такие ссылки облегчают понимание тематического охвата рубрик и поиск рубрики, необходимой для индексирования конкретного документа.

  Проиллюстрируем это на фрагментах рубрикатора:

68.35.03.03 Селекция сельскохозяйственных растений

отс. от 68.03.03.17 Генетика сельскохозяйственных растений

68.35.03.03.01 Общие вопросы

68.35.03.03.03 Направления в селекции сельскохозяйственных растений

68.35.03.03.05 Методы селекции сельскохозяйственных растений. Гибридизация

Примечание: в рубрике отражаются вопросы гибридизации внутривидовой и отдаленной (межвидовая и межродовая, гибридизация географически отдаленных форм); гетерозиса, полиплоидии, анеуплоидии, гаплоидии, индуцированного мутагенеза, отбора и других методов селекции

Наследование и изменчивость признаков у гибридов сельскохозяйственных растений

см. 68.03.03.17.15 Наследование и изменчивость у сельскохозяйственных растений

Производство гибридных семян см. 68.35.03.07.09 Гибридное семеноводство

отс. от 68.03.03.17.09 Иммуногенетика сельскохозяйственных растений

68.35.03.03.07 Организация и техника селекционного процесса сельскохозяйственных растений

  Для фиксации ключевых тематических аспектов документу присваивается цифровой код одной или нескольких рубрик (максимум – три). Этот код определяет место документа в информационном пространстве базы данных и обеспечивает точность поиска по запросам пользователей. Поиск с использованием кодов ОР позволяет извлекать из БД значительные массивы информации по крупным тематическим блокам – например, по селекции растений – как самостоятельно, так и в дополнение к поиску по терминам ИПТ.

  Рассмотрим особенности индексирования документов по селекции растений на нескольких примерах.

Пример 1. Документ «Маркер-опосредованный отбор на наличие гена Rychc экстремальной устойчивости к PVY в коллекции генотипов, имеющих в родословной генетический материал Solanum chacoense».

Анализируя статью, выделяем понятия для индексирования: картофель, Solanum tuberosum, Solanum chacoense, маркер-опосредованный отбор, генотипы, межвидовые гибриды, гены устойчивости, Y-вирус картофеля, ДНК, PCR, RAPD. Затем присваиваем документу рубрику, используя ОР. В данном случае: 68.35.49.05 Селекция и семеноводство картофеля. И, наконец, подбираем по тезаурусу соответствующие дескрипторы.

ПОД документа будет выглядеть следующим образом:

Рубрики ОР: 68.35.49.05

Термины тезауруса: картофель, Solanum tuberosum, Solanum chacoense, маркер-вспомогательная селекция, генотипы, межвидовые гибриды, гены устойчивости, устойчивость к болезням, Y-вирус картофеля, молекулярные маркеры, ДНК-штрихкодирование, PCR, RAPD,

Пример 2. Документ «Формообразование в популяциях тритикале, пшеницы, ржи и его использование в селекции для условий Западной Сибири».

Особенностью индексирования данного документа является присвоение ему нескольких рубрик ОР 68.35.29.99 Другие зерновые культуры, 68.35.29.39.05. Селекция и семеноводство пшеницы для наиболее полного отражения смыслового содержания документа. К тому же, в данном случае необходимо указать географическое понятие, так как это важно с точки зрения условий проведения исследования.

ПОД документа будет выглядеть следующим образом:

Рубрики ОР: 68.35.29.99, 68.35.29.39.05

Термины тезауруса: тритикале; Triticosecale, пшеница, Triticum aestivum, рожь, Secale cereale, селекция, отдаленная гибридизация, формообразовательный процесс, растения-доноры, новые сорта, Западная Сибирь.

Пример 3. Документ «Рекуррентный отбор в селекции растений (обзор)».

При раскрытии смыслового содержания данного документа в ПОД добавляется информация о его характере. В данном случае это обзорная статья.

ПОД документа будет выглядеть следующим образом:

Рубрики ОР: 68.35.03.03.05 Методы селекции сельскохозяйственных растений. Гибридизация

Термины тезауруса: сельскохозяйственные культуры, методы селекции; периодический отбор, обзоры.

  В процессе аналитико-синтетической обработки документов по селекции растений в ЦНСХБ осуществляется реферирование документов для пополнения коллекции «Развитие селекции растений в России». Реферирование позволяет раскрыть фонд библиотеки во всем его многообразии. Реферат отражает главные проблемы публикации, его объем позволяет быстро просмотреть содержание документа. В настоящее время объем коллекции составляет около 600 документов. Отбор документов для коллекции осуществляется при индексировании отечественных книг, статей из журналов и сборников.

  Эффективность информационного поиска напрямую зависит от уровня подготовки индексаторов: от того, насколько глубоко и точно они способны выявить проблематику первичного документа и корректно перевести ее с естественного языка на формализованный язык ИПС. Важнейшее условие совершенствования БД – ориентация на реальные и перспективные запросы пользователей, что требует от индексатора способности предвидеть эти запросы и своевременно фиксировать наиболее актуальные направления развития науки и практики.

  Таким образом, отбор наиболее значимой информации из входного документального потока, представление ее в свернутом виде с помощью дескрипторов ИПТ и ключевых слов, определение места документа в информационных ресурсах за счет присвоения ему кодов ОР позволяют структурировать входной документальный поток в БД по селекции сельскохозяйственных растений. Использование в процессе индексирования ИПЯ, специально разработанных для автоматизированного поиска, позволяет унифицировать и оптимизировать процесс индексирования, корректно раскрывать смысловое содержание документа, обеспечивая релевантность и полноту поиска.

Выводы. Разработанная в ЦНСХБ методика индексирования обеспечивает унифицированный подход к отражению смыслового содержания документов по селекции растений. Использование ИПТ и ОР позволяет многоаспектно раскрывать содержание документов и тем самым обеспечивать эффективный поиск информации в базе данных «АГРОС» по данной отрасли знаний. Высокое качество индексирования документов, в том числе по селекции растений, достигается благодаря насыщенности ИПТ научной терминологией и его регулярному пополнению актуальной лексикой.

Список источников

  1. 1. Гендина Н. И. Информационно-поисковые тезаурусы: структура, назначение и порядок разработки // Новосибирский государственный университет. URL: https://nsu.ru/xmlui/bitstream/handle/nsu/8962/IPT.pdf (дата обращения 19.02.2026).
  2. 2. Индексирование документов базы данных ЦНСХБ. Методические указания // сост. Пирумова Л. Н., Харченко Л. Т. – Москва, 1995. – 35 с.
  3. 3. Общая селекция растений : учеб. для вузов / Ю. Б. Коновалов, В. В. Пыльнев, Т. И. Хупацария, В. С. Рубец. – Санкт-Петербург : Лань, 2025. – 480 с.
  4. 4. Пирумова Л. Н. Проблемы и перспективы развития аналитико-синтетической обработки научно-технической информации по вопросам АПК // Проблемы интеграции и доступности сельскохозяйственных информационных ресурсов в условиях развития устойчивого сельского хозяйства. – Орел, 2010. – С. 74-80.
  5. 5. Пирумова Л. Н., Соколова Ж. В. Научная обработка документов: вчера, сегодня, завтра // Научные аграрные библиотеки в современных условиях: проблемы, перспективы, инновации, технологии. – Москва,С.69–81.
  6. 6. Пирумова Л. Н., Харченко Л. Т. Тезаурус по сельскому хозяйству и продовольствию: индексирование документов и поиск информации в БД АГРОС : (методические материалы). – Москва, 2001. – 70 с.
  7. 7. Пыльнев В. В., Березкин А. Н. Основы селекции и семеноводства : учеб. для вузов. – 3-е изд., стер. – Санкт-Петербург : Лань, 2025. – 216 с.

Сведения об авторе

Соколова Жанна Владимировна - старший научный сотрудник отдела аналитико-синтетической обработки документов и лингвистического обеспечения, Федеральное государственное бюджетное научное учреждение «Центральная научная сельскохозяйственная библиотека»

К оглавлению выпуска

06.06.2026, 13 просмотров.