Л.Н. Пирумова, Л.П. Батяйкина, Е.П. Кадилина Таблицы соответствия информационно-поисковых языков: история, разработка и использование в ЦНСХБ

Таблицы соответствия информационно-поисковых языков – это сопоставление терминологических, предметных областей и отдельных понятий из этих областей в информационно-поисковых языках (ИПЯ) и нахождение эквивалентов отдельного понятия в каждом из них.

Для чего это нужно? Прежде всего – это интересная научная проблема, интересно знать, как одно и то же понятие представлено в разных ИПЯ, какие связи – лексические и семантические оно имеет, как предлагается применять, к каким предметным областям относится и т.д. Но есть и практическая задача. В автоматизированных информационно-поисковых системах, как правило, используется несколько ИПЯ, индексатор тратит на процесс семантической обработки документов много времени, использование таблиц соответствия может помочь индексатору, сократить время на индексирование одного документа. Использование нескольких ИПЯ в одной автоматизированной системе объясняется тем, что каждый из языков в ней выполняет свою функцию, кроме того, использование нескольких ИПЯ обеспечивает разнообразный доступ пользователя к информационным ресурсам в зависимости от его предпочтений какого-либо ИПЯ и от того какого рода информация ему требуется, в каком объеме и для каких целей. Например, если требуются большие массивы по крупным темам, то наверняка пользователь воспользуется Отраслевым рубрикатором, а если запрос по узкой теме, то следует воспользоваться тезаурусом. В этом преимущество использования нескольких ИПЯ, но с другой стороны возникла проблема совместимости этих ИПЯ. Проблема совместимости ИПЯ существует как для одной автоматизированной системы, так и для информационных сетей. Обмен информацией, поиск информации в сетях может быть осложнен многообразием используемых в них ИПЯ. Поэтому, мы предлагаем, например, в Сводном каталоге сельскохозяйственных библиотеках АПК использовать набор общеотраслевых ИПЯ, что позволит решить проблему совместимости ИПЯ электронных каталогов, облегчит поиск информации, обеспечит полноту и релевантность поиска в них. Параллельное использование нескольких ИПЯ решает проблему совместимости, так как пользователь может для общения с системой выбрать комфортный для него ИПЯ. В автоматизированной информационно-поисковой системе Федерального государственного бюджетного научного учреждения «Центральная научная сельскохозяйственная библиотека» (ЦНСХБ) используется 5 ИПЯ: язык библиографического описания используется для создания библиографической записи, а остальные (Универсальная десятичная классификация (УДК), Отраслевой рубрикатор по сельскому хозяйству и продовольствию, Информационно-поисковый тезаурус, язык ключевых слов) – для смыслового раскрытия содержания документа в процессе индексирования.

Независимо от типа ИПЯ основными требованиями, предъявляемые к индексированию являются полнота и точность раскрытия содержания; объективность раскрытия содержания; единообразие отображения средствами данного ИПЯ сходных по содержанию документов. Как известно, показателями качества индексирования являются полнота, глубина и точность отображения содержания средствами ИПЯ. Под полнотой подразумевается количество тем в документе, выявленных в ходе его анализа и количество лексических единиц ИПЯ (кодов, дескрипторов, индексов, ключевых слов), отображающих эти темы. Глубина индексирования влияет на эффективность и качество поиска, увеличивая ресурсные возможности библиотеки. Однако чем больше ИПЯ используется в аналитико-синтетической обработке, тем сложнее индексирование и больше нагрузка на индексатора. Поэтому идея разработки таблиц соответствия в ЦНСХБ кроме научной цели, носила сугубо практический характер. Тем более, что к тому времени уже имелся опыт ВИНИТИ по совмещению Государственного рубрикатора научно-технической информации и УДК, опыт ИНИОН по совмещению тезауруса, ББК, отраслевого рубрикатора. Однако и у ЦНСХБ в этой работе были глубокие исторические корни.

Первые так называемые «таблицы соответствия» ИПЯ были созданы еще в 1970-е годы. После принятия Постановления Совета Министров СССР №445 от 14 мая 1962 г. «О мерах по улучшению организации научно-технической информации в стране», научные сельскохозяйственные библиотеки должны были перевести, т.е. перестроить часть своих фондов и каталогов по техническим, естественным и сельскохозяйственным наукам по схеме Универсальной десятичной классификации (УДК), а по общественно-политической тематике – на Библиотечно-библиографической классификации (ББК). Библиотекари с этими классификациями были незнакомы, кадров для самостоятельной разработки новой схемы систематических каталогов в библиотеках не было и они оказались не готовы к переводу фонда и каталога на новые классификации. До этого времени большинство библиотек, в т.ч. и научных сельскохозяйственных работали по таблицам библиотечной классификации для массовых, областных, сельских библиотек разработанным З.Н. Амбурцемяном. В 1968 г. вышли в свет таблицы ББК для научных библиотек в 30 томах, в 1972 г. – сокращенный вариант для научных библиотек в 6 томах. Таблицы Универсальной десятичной классификации вышли еще раньше, т.е. появилась возможность перевода фонда и систематических каталогов с эклектичной, нелогичной классификации на логичные, научно обоснованные классификации. В 1983 г. было принято решение о переводе систематических каталогов научных сельскохозяйственных библиотек на современные таблицы УДК, а разделы общественно-политических наук – на ББК. Задача непростая и осложнялась она спецификой многих сельскохозяйственных библиотек: слабая материально-техническая база, удаленность многих библиотек от городов и районных центров, неподготовленность кадров. Сеть библиотек Агропрома, возглавляемая ЦНСХБ ВАСХНИЛ, насчитывала около 1600 библиотек, в т.ч. 303 библиотеки НИИ, 126 библиотеки вузов, 291 опытная станция, 865 техникумов. В союзных республиках далеко не все сотрудники библиотек владели русским языком, на котором были изданы таблицы.

Чтобы облегчить работу библиотекарей в ЦНСХБ разработали таблицы перевода с таблиц для массовых библиотек на таблицы УДК фонды и систематические каталоги по техническим и сельскохозяйственным наукам и на ББК фонды и систематические каталоги по общественно-политическим наукам. Таблицы З.Н. Амбурцемяна и ББК существенно отличались:

Таблицы для массовых библиотек

Таблицы ББК

0 Общий раздел

1 Марксизм-ленинизм

1 Философия. Психология. Логика

2 Естественные науки

2 Атеизм. Научно-атеистическая пропаганда

20 Естественные науки в целом

3К Марксизм-ленинизм

22 Физико-математические науки

Предстояла большая работа по созданию переводных таблиц. К счастью, в 1978 г. Государственной библиотекой СССР имени В.И.Ленина (ГБЛ) были изданы Методические рекомендации по переводу фондов и каталогов массовых библиотек на таблицы ББК. (2). Пользуясь этими рекомендациями, сотрудники ЦНСХБ создали свои переводные таблицы.

Таблицы представляли собой 3 столбца: в одной части индексы по таблицам для массовых библиотек под ред. З.З. Амбурцемяна, а во втором столбце – формулировка рубрик по эти таблицам, а в третьем – индексы ББК для научных библиотек (сокращенный вариант):

Индексы по таблицам для массовых библиотек под ред. З.З. Амбурцемяна

Формулировка рубрик по таблицам для массовых библиотек под ред. З.З. Амбурцемяна

Индексы ББК для научных библиотек (сокращенный вариант

333

Экономика сельского хозяйства СССР

65.9(2)32

333:34

Земельное и колхозное право СССР

67.99(2)6

333.42

Финансы колхозов. Приходорасходная смета

65.9(2)321.8

Были написаны методические рекомендации по переходу на таблицы ББЛК, перевода каталога и фонда, где были прописаны этапы работы, последним этапом в ряду задач стояло – Составление переводных таблиц. Тоже было сделано по таблицам УДК:

Индексы по таблицам для массовых библиотек под ред. З.З. Амбурцемяна

Формулировка рубрик по таблицам для массовых библиотек под ред. З.З. Амбурцемяна

Индексы УДК

333

Экономика сельского хозяйства СССР

338.43

333:34

Земельное и колхозное право СССР

349.41

Работа осложнялась тем, что некоторые библиотеки к моменту принятия решения о двух классификационных схемах в систематическом каталоге уже перевели весь фонд и каталог на УДК и пришлось сделать еще переводные таблицы УДК И ББК. В 1985 г. ЦНСХБ начала издание «Отраслевых рабочих таблиц классификации УДК по сельскому хозяйству и смежным отраслям», что стало значительным подспорьем библиотекарям в организации систематических каталогов и фондов по УДК. Так что, в сельскохозяйственных библиотеках еще в начале 1980-х годов частично, конечно, был сделана работа, о которой специалисты крупнейших библиотек только мечтают. На наш взгляд, уже тогда были созданы фрагменты таблиц соответствия двух классификационных языков УДК и ББК.

Что же мы вынесли из опыта прошлых лет? Прежде всего, что для создания таблиц соответствия требуется очень хорошее знания тех ИПЯ, которые предстоит сравнивать. Это главное условие. Кроме того, поскольку следует анализировать и сравнивать предметные области, необходимо, чтобы этой работой занимались специалисты-отраслевики. В этом мы совершенно согласны с Э.Р. Сукиасяном (4), а вот с его тезисом, что соответствие в подобных таблицах не превышает 30% мы не можем согласиться. Опыт создания таблиц (смыслового) соответствия в ЦНСХБ показал, что относительно классификационных языков этот процент значительно выше, то же можно сказать и о таблицах классификационных и дескрипторных языков, о чем буде сказано ниже. Специалисты сходятся на том, что сопоставление предметных областей сложная работа, требующая кропотливой работы высококвалифицированных специалистов. В ВИНИТИ, где уже давно ведутся работы по сопоставлению классификационных ИПЯ и накоплен большой опыт, используют: базовое сопоставление (построение одной рубрикации базируется на классификаторах более общего характера), экспертное сопоставление и автоматизированное сопоставление рубрик разных ИПЯ (1, с. 107-109). В ЦНСХБ используется только экспертное смысловое сопоставление, в ходе которого специалист-отраслевик анализирует рубрику, понятие в одном ИПЯ и подбирает ему эквивалент из другого ИПЯ.

Начались работы по сопоставлению рубрик Отраслевого рубрикатора разработанного на базе Государственного рубрикатора научно-технической информации углублением его раздела 68 Сельское хозяйство и рубрик понятий, включенных в УДК. Оба ИПЯ являются иерархическими классификационными системами универсального характера - включают все отрасли знания. У них имеется справочно-поисковый аппарат: алфавитно-предметный указатель, система ссылок и отсылок, примечаний, но в УДК она развита более значительно, что связано с различной глубиной иерархии (в Отраслевом рубрикаторе глубина иерархии всего 5 уровней). Каждая рубрика универсальной десятичной классификации состоит из цифрового обозначения рубрики – индекса и текстового его отображения. Каждая рубрика Отраслевого рубрикатора состоит из цифрового кода и словесного ее описания.

Таблица соответствия создавалась на базе Отраслевого рубрикатора.

Эксперты исследовали и изучали отображение понятия в этих двух классификациях, проводили сопоставление понятий, входящих в отраслевой рубрикатор и УДК, с учетом принципов построения каждой их классификаций. Рубрикам отраслевого рубрикатора подыскивали эквивалент в УДК, с учетом происхождения, области применения, использования понятия. При подборе эквивалента рубрике Отраслевого рубрикатора в УДК, в соответствии с методикой УДК, использовали простой индекс, если он был, если простой индекс отсутствовал, то использовали комбинированные индексы. Как правило, для понятий из предметной области, относящейся к сельскому хозяйству в Полных таблицах УДК практически нет простых индексов. В связи с этим частично использовали «Отраслевые рабочие таблицы УДК для АПК», где для большинства понятий (наиболее часто встречаемых в процессе индексирования документов) уже созданы сложные или составные индексы, но при этом уточняли и учитывали область применения понятия. Если не удавалось подобрать понятию Отраслевого рубрикатора простой индекс или создать для него комбинированный, то приходилось использовать более высокий иерархический уровень в УДК. Большинству понятий отраслевого рубрикатора находилось несколько эквивалентов в УДК, тогда они все перечислялись через точку с запятой. Если рубрика рубрикатора включала несколько понятий, то каждому из них находили смысловой эквивалент в УДК в той последовательности, в какой они следовали в словесном описании рубрики в Отраслевом рубрикаторе (3, с.434-436). Например:

68.75 Экономика и организация сельского хозяйства

УДК: 338.43;631.1

68.75.21 Управление, планирование и прогнозирование в сельскохозяйственном производстве

УДК: 631.153; 631.152; 631.153"313"

Следующим этапом в работе по созданию таблиц соответствия было подбор эквивалентов дескрипторам локальных тезаурусов по отдельным отраслям (животноводству, защите растений, ветеринарии) в Отраслевом рубрикаторе и УДК. В ЦНСХБ с 1991 г. создается информационно-поисковый тезаурус по сельскому хозяйству и продовольствию, отражающий терминологию по всем отраслям АПК. Его объем в 2017 г. достиг 49659 лексических единиц. Локальные отраслевые тезаурусы создаются на его основе и являются подмножеством базового информационно-поискового тезауруса. Таблицы соответствия создавались на базе локальных отраслевых тезаурусов. Здесь проводилось сопоставление языков двух разных типов: классификационных и дескрипторного языка, что значительно повысило сложность работы. Дескриптор тезауруса сопоставлялся с отражением этого понятия в Отраслевом рубрикаторе, а затем в УДК. После этого каждому дескриптору в отраслевом локальном тезаурусе подбирали эквивалент на английском языке. Следует особо подчеркнуть, что это не перевод понятия на английский язык, а подбор эквивалента. При выборе эквивалента изучалось и учитывалось происхождение понятие, область применения, использования, его лексическое окружение, синонимия и т.д., и только после этого принималось решение об эквиваленте на английском языке.

Например:

ПЕРВОТЕЛКИ rus

Иноязычный эквивалент: first-calf heifers GEAeng

B1 КОРОВЫ

Проводилось также сопоставление понятий тезаурусов по отдельным отраслям сельского хозяйства, созданных в ЦНСХБ с международными тезаурусами. Понятию из отечественного локального тезауруса подбирали эквивалент в тезаурусе AGROVOC международной базы данных AGRIS ФАО ООН и тезаурусе базы данных CABabstrats Международной информационной системы по сельскому хозяйству стран Британского содружества (CABI). В каждом из тезаурусов изучали словарные статьи по рассматриваемой предметной области, изучали их состав, просматривали синонимический ряд, определяли статус понятия в словарной статье и его происхождение, а также причины принятия данного решения. Изучали примечания в словарных статьях, область применения термина. После этого подбирали эквивалент и заносили в словарную статью ИПТ в статусе синонима с пометой Эквивалентный термин в другом тезаурусе.

Например:

КЛЕТКИ

Рубрика: 68.03; 68.03.03.13; 68.03.05.13

УДК: 576.3; 581.17; 631.523:576.3; 636:576.3

Примечание: растений и животных

Иноязычный эквивалент: CELLS

Эквивалентный термин в другом тезаурусе: Cells

Таблицы соответствия используются в ЦНСХБ в научной работе по созданию и совершенствованию общеотраслевых лингвистических средств, сопоставлению отображения предметных областей в различных информационно-поисковых языках. Практическое использование они находят как лингвистическое средство индексирования документов, а также при составлении поискового предписания для тематического поиска в зарубежных базах данных. В результате созданы таблицы соответствия Отраслевого рубрикатора и УДК (в электронной версии Отраслевого рубрикатора, представленного в Интранете ЦНСХБ), а также таблицы соответствия тезауруса, Отраслевого рубрикатора и УДК (микротезаурусы по отдельным отраслям АПК).

Выводы. Таким образом, создание таблиц соответствия способствует совершенствованию лингвистических средств, используемых в ЦНСХБ для индексирования и тематического поиска, а также расширению научных познаний об отражении и представлении тематических областей в различных классификационных системах, т.е. представляет научный и практический интерес.

Список литературы

1.      Гиляревский Р.С., Шапкин А.В., Белозеров В.Н. Рубрикатор как инструмент информационной навигации. – С.П.: Профессия, 2008. – 352 с.

2.      Перевод фондов и каталогов массовых библиотек на таблицы ББК, Методические рекомендации. М., 1978. – 86 с.

3.      Пирумова Л.Н., Бисьева А.В., Батяйкина Л.П., Кадилина Е.П. Опыт создания таблиц соответствия информационно-поисковых языков//Матер. ХV1 междунар. науч. конфер: Биб. дело – 2011: Библиотечно-информ. деятельность в услов. модернизации об-ва. – М., 2011. – С. 432-438.

4.      Сукиасян Э.Р. Таблицы соответствия классификационных систем. Фантастические гипотезы и реальные предложения / http://ellib. gpntb.ru/ subscribe/ntb/2008/8/ntb_8_4_2008.htm

Сведения об авторах

Пирумова Лидия Николаевна - кандидат педагогических наук, Заслуженный работник культуры Российской Федерации, Заместитель директора Федерального государственного бюджетного научного учреждения «Центральная научная сельскохозяйственная библиотека»

Батяйкина Людмила Павловна - Старший научный сотрудник отдела аналитико-синтетической обработки документов и лингвистического обеспечения, Федеральное государственное бюджетное научное учреждение «Центральная научная сельскохозяйственная библиотека»

Кадилина Елизавета Павловна - научный сотрудник отдела аналитико-синтетической обработки документов и лингвистического обеспечения, Федеральное государственное бюджетное научное учреждение «Центральная научная сельскохозяйственная библиотека»

К оглавлению выпуска

07.10.2017, 364 просмотра.