Информационные ресурсы. ТИМОФЕЕВСКАЯ С. А. О РАБОТЕ С МИКРОТЕЗАУРУСОМ ПО ЖИВОТНОВОДСТВУ В СИСТЕМЕ АБИС ЦНСХБ OPAC-GLOBAL
Введение
Главным мировым трендом в настоящее время является цифровизация любой деятельности. Коснулось это и работы библиотек, в том числе и Центральной научной сельскохозяйственной библиотеки (ЦНСХБ). Уже давно все технологические библиотечные процессы в ЦНСХБ проходят в электронной среде: от приема документов, постановки их на учет до инвентаризации фонда. Научная обработка документов, поступающих в фонд ЦНСХБ, происходит в Автоматизированной библиотечно-информационной системе (АБИС). Каждый документ (книга или статья) проходит научную обработку, в процессе которой создается цифровая библиографическая запись: библиографическое описание и индексирование на четырех информационно-поисковых языках, используемых в АБИС ЦНСХБ, создаются аннотация, реферат, а также определяется место документа в создаваемых ЦНСХБ информационных продуктах (базах данных (БД), библиографических указателях, реферативных изданиях) – ставится определенная метка в формате библиографической записи.
Однако развитие цифровизации требует нового уровня технического и программного обеспечения библиотеки, внедрения новых технологий, позволяющих расширять и повышать качество информационного обслуживания пользователя, предоставлять качественно новую аналитическую информацию, обогащенную разнообразными релевантными запросу связанными данными. Новые задачи, стоящие перед библиотекой, потребовали более совершенного программного обеспечения библиотечных и технологических процессов, в связи с чем в 2022 г. начался переход на новую АБИС, основанную на веб-технологиях – OPAC-Global. [3, с. 28].
OPAC-Global – централизованная полнофункциональная автоматизированная информационно-библиотечная система, предназначенная для автоматизации как отдельных библиотек, так и группы библиотек, на основе корпоративной работы в режиме реального времени через стандартные веб-браузеры.
АБИС OPAC-Global создана в 1994 году исключительно для автоматизации библиотек. Разрабатывается и непрерывно развивается компанией «ДИТ-М». Главной отличительной особенностью АБИС OPAC-Global является то, что все функциональные задачи выполняется на центральном сервере, а пользователи работают исключительно в стандартных веб-браузерах на ПК или мобильных устройствах. Эта особенность позволяет легко администрировать и непрерывно развивать систему для всей библиотечной сети (например, отрасли), через модернизацию центрального сервера. Это также облегчает техническую поддержу системы через интернет. Ориентированная на веб-среду, система непрерывно развивается вместе с мировой паутиной [4].
Основной информационный продукт, создаваемый в ЦНСХБ – это политематическая БД «АГРОС», содержащая различные виды документов. Для обеспечения унифицированного индексирования документов, формирования, хранения и поиска информации в ЦНСХБ разрабатываются специальные лингвистические средства автоматизированной информационно-поисковой системы (ИПС) – информационно-поисковые языки (ИПЯ). В процессе индексирования средствами конкретного ИПЯ формируется и структурируется документный поток, в котором можно найти необходимую пользователю информацию. От качества лингвистического обеспечения (ЛО), в состав которого входят ИПЯ, методики индексирования на них и программные средства их ведения, зависит эффективность работы всей ИПС.
Тезаурусы являются современным ИПЯ, специально разработанным для автоматизированных ИПС и БД, и обеспечивают точный тематический поиск, так как состоят из лексических единиц (ЛЕ) на естественном языке и удобны в использовании. В ЦНСХБ создается Информационно-поисковый тезаурус по сельскому хозяйству и продовольствию (ИПТ), который ежегодно актуализируется и пополняется. Его объем в 2023 г. составил более 64 тыс. лексических единиц. ИПТ включает лексику по всем отраслям агропромышленного комплекса (АПК).
Кроме этого, в ЦНСХБ созданы микротезаурусы (МТЗ) – тезаурусы по отдельным отраслям АПК, которые встроены в базовый ИПТ. Представляя собой составную часть базового ИПТ, они являются словарями нормативной лексики и лингвистическим инструментом описания отдельных предметных отраслей. Создаются МТЗ по специальной методике, разработанной в ЦНСХБ и построены в соответствии с ГОСТ 7.25-2001 Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления [1] и ГОСТ Р 7.0.91-2015 (ИСО 25964-1:2011) Система стандартов по информации, библиотечному и издательскому делу. Тезаурусы для информационного поиска [2].
МТЗ выполняют те же функции, что и базовый ИПТ. Использование МТЗ при индексировании документов определенной тематики позволяет индексатору легче и быстрее подобрать нужный термин, но при этом обеспечить унифицированное представление однотипной информации в БД и электронных каталогах, повысить качество индексирования.
С использованием МТЗ при семантической обработке литературы создается поисковый образ документа (ПОД), что позволяет эффективно проводить тематический поиск информации в БД, электронных каталогах, например, в БД «АГРОС», по определенной тематике. И в то же время МТЗ — уникальное самостоятельное лингвистическое средство, представляющее собой таблицы соответствия трех ИПЯ (ИПТ, ОР – Отраслевой рубрикатор по сельскому хозяйству и продовольствию, разработанный на основе ГРНТИ, и УДК – Универсальная десятичная классификация), что позволяет существенно облегчить процесс индексирования документов, который проводится параллельно на трех вышеуказанных ИПЯ. Для обработки документов в системе OPAC-Global были выполнены работы по загрузке ИПТ в АБИС OPAC-Global, его адаптации к новому программному обеспечению, проверка корректности загрузки. В 2023 г. работы по актуализации и пополнению ИПТ проводились уже в новой системе OPAC-Global, в которой и сформирована новая версия Информационно-поискового тезауруса по сельскому хозяйству и продовольствию-2023, содержащая 64824 ЛЕ. Однако на время переходного периода контент ИПТ существует и в старой автоматизированной системе ведения ИПТ (в системе АСАРД), в свое время специально разработанной специалистами ЦНСХБ. По статистическим данным на 31 декабря 2022 г. МТЖ содержал 3786 терминов, на конец сентября 2023 г. терминология по животноводству (МТЖ) занимает 5% объема ИПТ, что составляет 3790 терминов. Небольшое увеличение объясняется длительным перерывом в работе в связи с переходом на новую АБИС. Актуализация МТЖ в 2023 г. проводилась уже OPAC-Global, т. е. новые ЛЕ в старой системе не отражены. После возобновления работы с МТЖ в OPAC-Global изменились статистические данные: на начало февраля 2024 г. количество ЛЕ составляет 3845.
Таким образом, все данные МТЗ по животноводству были перенесены в АБИС OPAC-Global. От качества программного обеспечения, предназначенного для формирования и ведения лингвистических средств, зависит технология работы с контентом ИПЯ, технология его актуализации, получения различных статистических данных о состоянии и наполняемости ИПЯ.
Цель работы – определить состояние и качество перенесенного контента МТЗ по животноводству (МТЖ). Для этого необходимо решить следующие задачи:
‑ провести сравнение контента МТЖ в старой и новой системах;
‑ оценить способы и точность поиска термина;
‑ провести сравнение интерфейса,
‑ провести анализ состояния записей в словарных статьях ЛЕ.
Результаты исследования. Лексика тезауруса должна обеспечивать адекватное отображение содержания документа, что гарантирует качество индексирования и эффективность информационного поиска. Поиск пользователь осуществляет чаще всего, по ключевым словам, из документа (книги или статьи), поэтому важно, чтобы нормативная лексика МТЖ отражала новые понятия и термины, используемые в актуальных научных публикациях. Работа над МТЖ была начата в 2011 г. и постоянно ведется пополнение контента МТЖ для обеспечения эффективности тематического поиска в БД «АГРОС».
В АБИС OPAC-Global работа с МТЗ проводится через модуль «Ведение Авторитетного файла». Набрав букву S, обозначающую МТЖ, выделяем весь контент данного МТЗ, термины в котором можно расположить в алфавитном порядке. Вверху видно общее количество терминов, входящих в данный МТЗ. Термины пронумерованы, на экране видно сразу несколько терминов, расположенных в алфавитном порядке, что очень удобно, можно переместиться в соответствии с алфавитом на нужную страницу. В старой версии ИПТ (при работе в АСАРД) по отдельно взятому МТЗ можно было перемещаться только по стрелке, пролистывая каждый термин. В старой системе АСАРД данные о количестве терминов и информация о работе с ними были в разделе «Статистика». В таблицах были представлены данные о количестве введенных терминов и связанных данных в разных МТЗ. Получить информацию можно было за любой задаваемый промежуток времени.
Рисунок 1 ‑ Интерфейс МТЖ в OPAC-Global.
На рисунке 1 представлен интерфейс МТЖ в новой системе. Это 8-я страница тезауруса, где заканчиваются термины на латинском языке и начинаются на русском. В системе АСАРД на экране отражался только один термин и его словарная статья. Можно было перейти к следующему или предыдущему по алфавиту термину, наведя курсор на стрелку около буквы, обозначающей данный МТЗ, которая расположена вверху справа, например, для МТЖ – это S (рисунок 2).
Рисунок 2 ‑ Интерфейс МТЖ в АСАРД
Способ поиска терминов схож: можно вводить часть слова, но в новой версии необходимо добавлять при усечении слова значок «*». Результаты поиска совпадают. Но в старой версии все синонимы и аскрипторы уже при поиске отображались мелким шрифтом. Видя это, можно было лишний раз не заходить в словарную статью.
В общем списке терминов ТЗЖ в системе OPAC-Global у синонимов, которые не желательно использовать, стоят разные пометки: у одних – «смотри», у других – «синоним». При сравнительном анализе словарных статей таких терминов в старой и новой версиях МТЖ обнаружены ошибки. Общее количество таких терминов пока назвать трудно: для анализа всего контента МТЖ нужно дополнительное время. Среди выявленных ошибок наиболее часто встречаются такие: в общем списке к синониму присоединена неправильная отсылка, а полная словарная статья термина правильная, или наоборот, отсылка у синонима правильная, ошибка – в словарной статье. Для примера можно взять термин «ульи-лежаки» и его словарную статью (рисунки 3, 4, 5, 6). В новой версии МТЖ у термина «ульи-лежаки» в словарной статье к синониму «горизонтальные ульи» вместо «синоним» приписано «смотри», т. е. возникает вопрос, какой же дескриптор использовать. Словарная статья синонима «горизонтальные ульи» перенесена правильно, содержит отсылку «смотри», т. е. надо использовать термин «ульи-лежаки». Такое наблюдается (в разных вариациях) у терминов «синхронизация охоты», «американский рысак», «русский рысак», «ГСЖК», «аберрации хромосом» и др.
Рисунок 3 ‑ Интерфейс перенесенной словарной статьи термина
Рисунок 4 ‑ Интерфейс словарной статьи термина в старой версии
Рисунок 5 ‑ Интерфейс синонима в новой версии
Рисунок 6 ‑ Интерфейс синонима в старой версии
Анализ словарных статей терминов показал, что выглядят они по-разному, отличаются терминологией в таблицах соответствия. Рассмотрим на примере термина «курдючные овцы». Словарная статья в старой версии более компактна, информация о связанных данных описана доступными словами. Так, в старой версии ниже каждого термина словами написано «Входит в микротезаурус: Ветеринария; Генетика и селекция; Животноводство. Перед индексами ОР и УДК написано «Рубрика» и «УДК». После слов «Иноязычный эквивалент» дан перевод термина на английский язык. Вышестоящие и нижестоящие термины обозначены соответственно В1 и Н1, синонимы – С. В новой версии МТЖ после термина в скобках стоят латинские буквы, обозначающие МТЗ: (V), (S), (G). Словами «Верхний уровень» и «Нижний уровень» обозначены вышестоящие и нижестоящие термины. Перед синонимами написано «Синоним» Перед индексами УДК – УДК. Индексы ОР обозначены через «см. также».
Наглядно представлено на примере термина «курдючные овцы» на рисунках 7 и 8.
Рисунок 7 ‑ Образец словарной статьи в старой версии МТЖ
Рисунок 8 ‑ Образец словарной статьи в новой версии МТЖ
В старой версии МТЖ доступна более подробная информация об истории работы с ЛЕ: дата, внесение связанных данных, удаление связей и данных, исполнитель. В новой версии, нажав на окошко RUSMARC можно найти информацию только о создании термина (дата и исполнитель), нет сведений об истории работы с ЛЕ (дата и автор) при добавлении связанных данных, синонимов, ассоциаций и т. д., а это важно.
Для актуализации МТЖ необходимо обогащение контента новыми ЛЕ, разработка словарных статей, отражающих их парадигматические отношения, построение и/или расширение (пополнение) иерархических деревьев. Технология создания новых ЛЕ, которая ведется в модуле «Ведение авторитетных файлов» сложна и трудоемка, требует большой концентрации внимания, так как все процессы взаимосвязаны и идут в определенной последовательности, малейшее отклонение от которой может привести к нарушению логики и ошибкам.
Выводы. Уровень актуализированной версии ИПТ ЦНСХБ соответствует уровню тезаурусов крупнейших зарубежных отраслевых БД по тематике и объему включенной лексики. Использование МТЗ в качестве лингвистического средства ИПС ЦНСХБ и БД «АГРОС» обеспечивает точность и релевантность тематического поиска. Контент МТЖ перенесен полностью. Поиск терминов в МТЖ происходит адекватно запросу. В новой версии ИПТ в словарных статьях ЛЕ, относящихся к МТЖ, обнаружены ошибки, нет полной информации об истории термина. Технология ввода новых терминов и редакции старых достаточна трудоемка и требует особой концентрации внимания. Для обеспечения эффективной работы с ИПТ и МТЗ требуется исправить эти ошибки и недочеты. Для обеспечения качества МТЖ как средства индексирования и тематического поиска необходимо провести редакцию всего контента МТЖ.
Список источников
- 1. ГОСТ 7.25-2001. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления : издание официальное : введ. 01.07.2002. ‑ Москва : Изд-во стандартов, 2001. ‑ 18 с.
- 2. ГОСТ Р 7.0.91-2015. Тезаурусы для информационного поиска : национальный стандарт Российской Федерации : издание официальное : введ. 01.07.2016. ‑ Москва : Стандартинформ, 2016. ‑ III, 93 с.
- 3. Пирумова, Л. Н. Оптимизация технологий информационного обслуживания в Центральной научной сельскохозяйственной библиотеке // Труды ГПНТБ СО РАН. – 2022. – № 3(15). – С. 24-30. – DOI 10.20913/2618-7515-2022-3-24-30.
- 4. OPAC-Global [сайт] – URL: https://opac-global.ru, (дата обращения: 02.02.2024 г.).
Сведения об авторе
Тимофеевская Светлана Алексеевна - cтарший научный сотрудник отдела аналитико-синтетической обработки документов и лингвистического обеспечения Федеральное государственное бюджетное научное учреждение «Центральная научная сельскохозяйственная библиотека»
10.10.2024, 22 просмотра.