Работы молодых ученых и практиков. АРТАМОНОВА Е.В. РАЗРАБОТКА МЕТОДИКИ БИБЛИОТЕЧНО-ИНФОРМАЦИОННОГО ПОИСКА ДЛЯ МАШИННОГО ОБУЧЕНИЯ С ЦЕЛЬЮ РЕШЕНИЯ ЗАДАЧ БИБЛИОТЕЧНО-ИНФОРМАЦИОННОЙ ДЕЯТЕЛЬНОСТИ
В настоящее время технологии искусственного интеллекта очень востребованы и активно используются в поисковых системах, например, в Яндекс, который в автоматизированном режиме помогает удовлетворить поисковые запросы 63.9 млн. пользователей в день (по данным за 2022 г.) [1].
Как и другое программное обеспечение, интеллектуальная информационная система позволяет обработать объёмы информации и поступающих запросов, которые были бы недоступны без средств электронной автоматизации. Но в отличие от обычных программных алгоритмов, не способных к самостоятельному анализу информации, в т. ч. семантическому, и всегда выдающих неизменный и не улучшающийся результат, система искусственного интеллекта способна адаптировать свою работу на основе получаемого ей опыта. Искусственный интеллект (ИИ), в соответствии с определением Дубровина А. Д., наиболее точно можно трактовать как «компьютерную модель человеческого интеллекта» [3].
Использование технологий ИИ в информационно-поисковых системах библиотеки является актуальным и перспективным направлением развития библиотечного дела, которое поможет улучшить качество обслуживания пользователей и повысить эффективность работы библиотек.
Известны практические реализации систем ИИ, помогающих осуществлять библиотечно-информационный поиск. Одна из самых ранних реализаций – поисковая система CiteSeerX, разработанная в 1997 году и используемая Государственным университетом штата Пенсильвания. Она позволяет: автоматически извлечь данные об авторе; провести полнотекстовое индексирование; выявить библиографические ссылки внутри статьи; ссылки на статьи, которые ссылаются на данную статью; составить индекс цитирования: составить краткое описание статьи на основе её контекста и предложить схожие статьи. Поиск проводится более чем по 10 млн документов [13].
По данным журнала Nature [16], сервис Iris.ai на основе искусственного интеллекта осуществляет поиск по 134 млн научных публикаций, а также находит непрямое цитирование и ключевые слова в тексте. На основе полученных данных сервис позволяет генерировать предварительные научные гипотезы в различных областях знаний. Например, для Гётеборгского университета (Швеция) Iris.ai за один запрос проанализировал имеющиеся взаимосвязи между всем имеющимися в базе научными публикациями и предоставил выборку документов о самоуправляемых автомобилях на основе 10 000 источников литературы по данной тематике. На их ручную подборку и проверку, по оценке профессора университета, Кристиана Бергера, мог уйти год.
Цифровая поисковая платформа Роспатента позволяет обрабатывать сложные пользовательские запросы и искать документы, входящие в Государственный патентный фонд, в т. ч. патенты, патентные заявки, отчеты о патентном поиске – с помощью системы искусственного интеллекта. Для этого пользователь может загрузить файл в формате pdf, txt, rtf, docx или вставить в поисковое поле текст документа или фрагмента документа объёмом не менее 50 слов [12]. На основе запроса система находит наиболее релевантные документы из массива более 165 млн документов. Дополнительный модуль, доступный для патентных экспертов, позволяет анализировать не только семантику слов, но и сходство между представленными 3D-моделями [4].
Из представленных примеров можно наблюдать, что поисковая система искусственного интеллекта обладает производительностью, позволяющей в сжатые сроки обработать и проанализировать значительные объёмы информации, а на основе определения искусственного интеллекта мы можем выделить его ключевое отличие от традиционного библиотечного программного обеспечения: способность к обучению. Рассмотрим, каким образом возможно обучить систему искусственного интеллекта для выполнения задач библиотечно-информационной деятельности, и как оптимизировать процесс обучения.
Результатом обучения искусственного интеллекта является его эффективная работа – т.е. способность дать релевантный ответ на основе данных, предоставленных пользователем. Любой процесс обучения искусственного интеллекта подразумевает создание базы знаний, которую будет использовать искусственный интеллект, и определённого алгоритма, позволяющего вносить в эту базу – предметную область – новые знания и соотносить их с уже имеющимися. Таким образом, для проведения обучения необходимы:
- - Данные, которые станут примерами для обучения ИИ.
- - Тип данных зависит от предметной области ИИ.
- - Базовый алгоритм сортировки данных.
Методы обучения искусственного интеллекта определяют структуру, в соответствии с которой будет строиться база знаний, и алгоритм взаимодействия с ней. В настоящее время существует множество методов обучения искусственного интеллекта, в которых выделяют отдельную подгруппу – методы машинного обучения. Для проведения машинного обучения необходимо определить признаки данных – т. е. свойства, по которым система сможет отличать данные. В целом — это модель построения программного алгоритма, использующая признаковый (атрибутивный) подход [3].
Наиболее распространёнными методами машинного обучения являются:
- - Классическое
- - Без учителя
- - С учителем
- - Обучение с подкреплением
- - Q-Learning
Методы классического обучения – одни из самых ранних методов обучения ИИ. Системе предоставляется набор данных, отобранный по какому-либо признаку, и предоставляется информация о том, какие категории заключены в этих данных.
В случае обучения без учителя системе ИИ не предоставляют информацию о критериях сортировки. Как правило, обучение без учителя используют, если критерии сортировки не имеют значения для конечного пользователя.
Например, если ИИ-система анализирует видеоряд и должна различить событие – появление в кадре кота – то неважно, по каким критериям она определит, что это кот, главное, чтобы она это делала с минимальным количеством ошибок. Обучение без учителя также применяется, если предварительно размеченные данные невозможно получить. В случае с рекомендацией литературы книги уже обладают определёнными и известными свойствами, например, названием, автором, тематикой. Для определения этих свойств уже созданы конкретные стандарты и классификации (см. ниже), которым должна соответствовать выдача поискового результата.
Таким образом, использование метода обучения без учителя как основного метода машинного обучения ИИ означает выполнение двойной работы и увеличение времени разработки (результаты работы ИИ нужно корректировать до соответствия стандарту) – соответственно, такие методы не подходят.
При обучении с учителем, человек, ведущий обучение ИИ – указывает правильные ответы и определения для ИИ, а также указывает, по каким признакам был выбран правильный ответ. Данный метод быстрее и точнее, чем обучение без учителя [11]. Методы обучения с учителем возможно использовать для решения задач классификации и регрессии. Под классификацией понимается распределения неких объектов по уже готовым категориям. Например, это может быть разделение научных публикаций по тематикам в соответствии с каким-либо рубрикатором – ГРНТИ и т. п. Регрессия состоит из наборов статистических методов, позволяющих выявить тенденции на основе имеющихся данных. На основе этого система позволяет составлять предварительные прогнозы, оценивать спрос, выявлять зависимости в данных. Например, алгоритмы регрессии возможно использовать для оценки читательского спроса на публикацию (в т. ч. спроса в будущем), анализа публикационной активности и цитируемости автора.
Метод обучения с подкреплением оптимизирован для наиболее быстрой реакции ИИ в изменяющейся обстановке и, как правило, используется в навигации самоуправляемых автомобилей, поиска решений в интеллектуальных упражнениях и играх. В отличие от классических методов обучения, система пытается выработать стратегию на основе случайных действий, приводящих к правильным результатам. Примером обучения с подкреплением являются алгоритмы Q-Learning: создаётся механизм одновременного запуска множества симуляций для решения проблемной ситуации (которая состоит из некоего однотипного процесса с варьирующимися обстоятельствами). Для системы ИИ создается система «вознаграждений» для просчёта оптимальной стратегии по выбору действий. Так, если задача ИИ – победить в игре крестики-нолики, то целью обучения является правильная последовательность действий, удовлетворяющая правилам игры, и их классификация будет вторична. Данные в таком случае будут содержать возможные действия (поставить крестик, поставить нолик) и правила игры в крестики-нолики. Такая система может работать и для формирования результатов поискового запроса, однако обучение с учителем позволяет корректировать правильность ответа быстрее, т.к. некоторые элементы принятия решений уже известны (благодаря библиотечным рубрикаторам, классификаторам и опыту библиотечных сотрудников) и к ним не надо приходить случайным путём.
Разработанные дополнительные методы машинного обучения, используются в сочетании с вышеуказанными методами и в совокупности повышают эффективность получаемого результата.
- Искусственные нейросети.
Использование т.н. искусственных нейросетей считается низкоуровневой эмуляцией человеческого интеллекта, т.к. принцип действия основан на эмуляции работы человеческих нейронов мозга, а также связей между ними. Это отличает искусственные нейросети от высокоуровневой эмуляции, в которой имитируется только конечный результат интеллектуальной деятельности. Они могут применяться для обучения с учителем, без учителя, с подкреплением. Существует множество архитектур искусственных нейросетей, в том числе: перцептрон (P), с прямой связью (FF), сеть радиально-базисных функций (RBF), рекуррентная (RNN), и др. [8]. Все они применимы для решения задач библиотечно-информационной деятельности (см. выше).
- Глубокое обучение. Глубокое обучение сохраняет существующий понятийный аппарат, при этом позволяя разработать гибкий адаптивный алгоритм принятия решений. Например, глубокое обучение активно используется при разработке т.н. компьютерного зрения: оно позволяют на основе заранее размеченных понятий (например, соответствие символа букве «А», наличие заглавия у документа) формировать и «заучивать» новые высокоуровневые признаки, которые не разработаны вручную, а определяются самой моделью в процессе изучения данных [6, 9]. Методы глубокого обучения возможно использовать для выявления ключевых слов в тексте (например, почтового индекса, кодов ББК и т. п.), распознавания объектов, текстовой аналитики (например, определения авторства по содержанию текста).
- Прореживание. Нейросети также позволяют скомпенсировать потенциальный недостаток обучения с учителем – т.н. переобучение, когда система ИИ выявляет логические закономерности в обучающей выборке там, где их нет, и не может адаптировать созданную ей систему понятий к реальным запросам. Использование метода прореживания (dropout) позволяет удалит «лишние» взаимосвязи: создаются множественные копии нейросети, в которых отключаются случайные нейроны, прореживается выборка обучающих данных – исключаются данные, вызвавшие наибольшее число ошибок [14, 15].
- Ансамблевые методы. Ансамблевые методы возможно использовать везде, где применимы классические методы обучения (с учителем и без учителя) [8]. Основная идея ансамблевых алгоритмов – использовать несколько подалгоритмов принятия решений (сортировки данных) и аппроксимировать полученные результаты. С помощью ансамблевых методов возможно сочетать обучение с учителем для выполнения одной подзадачи и обучение без учителя – для другой. Использование разных по своему принципу действия алгоритмов повышает эффективность ансамблевого метода. К ансамблевым методам относятся такие алгоритмы, как стекинг, беггинг и бустинг. В стекинге проводится двойное обучение:
а) обучение системы на основе алгоритмов, ищущих ответ на задачу, с использованием небольшого случайного набора данных (изъятого из всех данных, отобранных для обучения);
б) обучение второй системы на основе алгоритма выбора наилучших ответов, которые поставляет система из пункта а.
Для работы беггинга выбирается один алгоритм, который обучается на подборке случайных данных. Затем второй алгоритм усредняет возможные ответы. Бустинг работает так же, как и беггинг, но данные отобраны не случайно, а подбираются с учётом задач, обработка которых вызвала затруднения в обработке алгоритмом, либо привела к неправильному ответу.
Общие этапы при создании ИИ-системы с использованием методов машинного обучения – следующие [9]:
- - Постановка задачи для разработчиков – определение функционала, который должна обеспечивать ИИ-система. Для любой библиотечной поисковой системы задача непосредственно связана с предоставлением пользователю информации о релевантных документах в электронном каталоге библиотеки.
- - Поиск изначальных данных, на основе которых будет производиться обучение, их конвертация в файлы необходимого формата. Данные должны удовлетворять определённым требованиям: не содержать недостоверной информации; иметь единообразную структуру; и обладать достаточной полнотой для выполнения требуемых задач.
- - Определение признаков для используемых системой ИИ понятий. Например, некоторыми признаками документов, по которым ИИ сможет их сравнивать между собой, являются: автор; название документа; тематика документа; дата издания; издательство; наличие электронных ссылок на полный текст документа; наличие свободных экземпляров и т.п.
Из вышеуказанных пунктов можно увидеть, что при создании интеллектуальной поисковой системы, в том числе модуля рекомендательных сервисов, источником данных о документах фонда может послужить база данных электронного каталога библиотеки, а основой для формирования признаков документа – элементы библиографического описания в соответствии со стандартом ГОСТ Р 7.0.100-2018 ««Библиографическая запись. Библиографическое описание. Общие требования и правила составления» [2]. Также для более точного формирования поисковой выдачи можно пользоваться данными модуля книговыдачи электронного каталога. Они содержат информацию о том, какими признаками обладает пользователь поисковых сервисов (например, возраст, уровень образования) и какие книги он выбрал для выдачи. Такие данные используются в обезличенном формате, т.е. ИИ не получит доступ к персональным данным, например, имени и фамилии.
Описание документа может содержать точки доступа к полному тексту документа или его элементам (например, обложке). Для расширения возможностей ИИ возможно провести дополнительную работу по описанию признаков, не входящих в формат представления документа в электронном каталоге. Таким образом, если в каталоге библиотеки присутствуют полные тексты документов, это позволит системе ИИ провести семантический анализ каждого документа и рекомендовать документ пользователю с учётом его полного содержания, расширяя таким образом функционал библиотечных классификаторов. Наличие изображений позволяет проводить оцифровку документов и проводить поиск по элементам изображения. Например, в Библиотеке Конгресса США в Вашингтоне создана «система оптического распознавания и классификации и распознавания визуального контента» «Газетный репортёр» (Newspaper navigator). За 19 дней c момента запуска «Газетным навигатором» было классифицировано 16 млн страниц. При помощи этого инструмента пользователи могут искать не только конкретную статью (в данном случае, в газете), но и отдельные элементы, находящиеся в статьях, такие как иллюстрации, карты, рекламные объявления и т. д. [5].
- - Разметка, т.е. извлечение признаков из данных – их подготовка для восприятия искусственным интеллектом.
В базе данных электронного каталога признаки документа, соответствующие его библиографическому описанию, уже упорядочены для обеспечения работы каталога и представлены в электронном формате. Например, Российский коммуникативный формат представления библиографических данных (RUSMARC) удовлетворяет требованиям формата ISO 2709 (Information and documentation—Format for information exchange) [17] и присваивает каждому библиографическому описанию следующее [7]:
- Маркер записи – состоит из 24 символов и содержит идентификатор данной записи в базе данных.
- Справочник – содержит информацию о полях и подполях, описывающих документ. Например, поле 101: «Язык документа», подполя $a – «Язык текста, звукозаписи и т.д.», $c - «Язык оригинала» [10], и т.д. Структурно справочник состоит из статей, каждая статья состоит из трех частей: «3-х-цифровой метки, 4-х-значного числа, указывающего длину поля данных, и 5-ти-значного числа, указывающего позицию начального символа» [7]. В том числе справочник позволяет указать классификацию тематики документа в соответствии с библиотечными классификаторами, такими как ББК (Библиотечно-библиографическая классификация) и УДК (Универсальная десятичная классификация).
- Переменную поля – т.е. значения каждого подполя для конкретного документа. Например, для подполя 101$a (Язык ресурса – Язык оригинала) это может быть «rus» – русский язык.
- Связь между полями с указанием причины связи. Например, код «a» указывает следующую причину: альтернативное графическое представление / графика.
- Выбор модели машинного обучения с учетом предыдущих пунктов: решаемые ИИ задачи; какими данными располагает библиотека; какие понятия характеризуют эти данные; что является правильным ответом. Например, для выполнения таких подзадач, как определение признаков у полного текста и распознавания изображений, наиболее подходят методы глубокого обучения.
- Выбор метрики качества – системы оценки качества работы ИИ. На основе этой метрики будет корректироваться работа ИИ в процессе его обучения. Метрика учитывает средний процент ошибочных ответов, например, ошибкой будет, если ИИ неправильно отсортировал документы по релевантности – предсказанный правильный ответ в таком случае не будет соответствовать фактическому. Каждой решаемой задаче соответствует свои метрики. Например, если задача ИИ – классифицировать документ, для определения эффективности такой задачи классификации или кластеризации может использоваться т.н. ROC-кривая [9], определяющая зависимость верного количества классифицированных примеров от количества неверно классифицированных примеров – т.е. насколько неправильно сделанные «выводы» программы о нескольких документах повлияют на правильность её ответа в будущем (если сейчас прекратить обучение). Для определения задач регрессии это может быть MAPE (англ. Mean Absolute Percentage Error, средняя абсолютная процентная погрешность), определяющая, на сколько процентов неправилен ответ ИИ от абсолютно правильного ответа. Для метрики качества ранжирования – метрика MRR (англ. Mean Reciprocal Rank, средний обратный ранг) – оценивает, насколько релевантность ответа соответствует фактическому порядку в поисковой выдаче, составленной ИИ [9].
- Проведение машинного обучения в зависимости от выбранных методов. Модели искусственного интеллекта передают обработанный набор тренировочных данных, на основе которых она формирует ответы. В процессе обучения проводится настройка численных параметров модели (в соответствии с которыми модель определяет значимость различных факторов при поиске документа). Может проводиться обучение нескольких однотипных моделей ИИ, на основе которых выбирают ту, что предоставляет наиболее качественные ответы в соответствии с выбранной метрикой. В зависимости от оценки качества ответов в процессе обучения, может проводиться корректировка набора данных, с которыми работает модель. Набор данных для обучения постепенно увеличивается, чтобы система могла соотносить уже имеющиеся «знания» с новой информацией и новыми запросами. Успешное обучение подразумевает, что система может получить новый набор данных – полностью отличный по содержанию от уже имеющегося, но имеющий ту же структуру – и правильно его обработать, т.е. дать правильный ответ, в соответствии с выявленными ранее закономерностями.
- Внедрение ИИ-системы в работу и её отладка в процессе эксплуатации.
Выводы
Существует множество методов машинного обучения, позволяющих внедрить искусственный интеллект в работу информационно-поисковой системы библиотеки и позволяющих проводить библиотечно-информационный поиск; позволит предлагать наиболее релевантные для читателя документы с учетом его предпочтений и содержания документа, проводить поиск по изображениям и оцифрованному тексту.
Проведение машинного обучения, независимо от особенностей его архитектуры, следует определённым этапам: постановка задачи > поиск данных > определение признаков данных > разметка данных > создание архитектуры модели машинного обучения > выбор метрики качества > обучение > практическая эксплуатация.
Залогом успешного машинного обучения является своевременная постановка целей разработки с учетом будущего функционала системы, грамотный подбор и обработка данных для обучения, а также выбор тех методов, которые дополнят друг друга и наиболее удовлетворят различным задачам библиотечно-информационной деятельности.
База данных электронного каталога представляет собой практически готовый и размеченный понятийный аппарат для проведения обучения. Существующие стандарты в области библиотечного дела могут и должны быть внедрены в понятийный аппарат. Следственно, поскольку понятийный аппарат достаточно определён и развит, это делает методы машинного обучения с учителем наиболее предпочтительными.
Использование дополнительных методов машинного обучения, в т. ч. искусственных нейросетей с глубоким обучением, позволит создать гибкую и адаптивную систему, удовлетворяющую требованием библиотечных стандартов по классификации литературы, и позволяющие отвечать на нетрадиционные запросы, например, поиск по картинке и анализировать содержание текста.
Рекомендуется использовать способы, направленные на непосредственное повышение качества обучения, к ним относятся как некоторые методы машинного обучения, такие как прореживание, так и интегрированные в процесс машинного обучения методы оценки его эффективности.
Список источников
1. Бегин А. Статистика Яндекса в 2022 год // Инклиент. [Электронный ресурс]. – URL: https://inclient.ru/yandex-stats/#auditoria-andeksa-v-2023-godu (дата обращения: 08.05.2023 г.)
- 2. Библиографическая запись. Библиографическое описание. ГОСТ Р 7.0.100-2018 : Общие требования и правила составления / Российская государственная библиотека [Электронный ресурс]. – URL: https://www.rsl.ru/photo/!_ORS/5-PROFESSIONALAM/7_sibid/%D0%93%D0%9E%D0%A1%D0%A2_%D0%A0_7_0_100_2018_1204.pdf (дата обращения 08.08.2023 г.)
- 3. Дубровин А. Д. Интеллектуальные информационные системы.- Москва: МГУКИ, 2008.- 231 с.
- 4. Заседание Коллегии Роспатента 14 декабря 2021 года / YouTube. [Электронный ресурс]. – URL: https://www.youtube.com/watch?v=ZeHfB4iJkrA&t=1s (дата обращения: 27.04.2023 г.).
- 5. Нещерет, М. Ю. Цифровая библиография: библиотеки в поисках инновационных инструментов библиографической деятельности // Научные и технические библиотеки. – 2021. – № 7. – С. 33-50.
- 6. Скрыпников А. В., Денисенко В. В., Хитров Е. Г., Евтеева К.С., Савченко И.И. Распознавание рукописного текста с использованием нейронных сетей // Современные наукоемкие технологии. – 2021. – № 6-1. – С. 91-95.
- 7. Российский коммуникативный формат представления библиографических записей в машиночитаемой форме : российская версия UNIMARC / Министерство культуры Российской Федерации, Российская библиотечная ассоциация // rusmarc.ru. [Электронный ресурс]. – URL: http://www.rusmarc.ru/rusmarc/format.html (дата обращения: 10.07.2023 г.)
- 8. Ростовцев В.С. Искусственные нейронные сети: учебник / В.С. Ростовцев. – Киров: Изд-во ВятГУ, 2014. – 208 с.
- 9. Сапунов Г. Введение в машинное обучение // Высшая школа экономики [Электронный ресурс]. – URL: https://www.hse.ru/data/2017/05/14/1171296413/Григорий%20Сапунов%20—%20Введение%20в%20машинное%20обучение.pdf (дата обращения: 10.07.2023 г.)
- 10. Сводная таблица использования полей RUSMARС для различных уровней архивного описания / Президентская библиотека имени Б. Н. Ельцина // prlib.ru [Электронный ресурс]. – URL: https://www.prlib.ru/sites/default/files/u1/descrm_table.pdf (дата обращения: 06.2023 г.)
- 11. Три метода обучения нейросетей: с учителем, без учителя, с подкреплением / Яндекс.Практикум [Электронный ресурс]. – URL: https://practicum.yandex.ru/blog/mashinnoe-obuchenie-s-uchitelem-i-bez/ (дата обращения: 05.2023 г.)
- 12. Цифровая поисковая платформа Роспатента [Электронный ресурс]. – URL: https://searchplatform.rospatent.gov.ru/equal_docs (дата обращения: 17.06.2023 г.)
- 13. About CiteSeerX / CiteSeerX [Электронный ресурс]. – URL: https://csxstatic.ist.psu.edu/home (дата доступа 29.05.2023 г.)
- 14. Dropout — метод решения проблемы переобучения в нейронных сетях. / Хабр [Электронный ресурс]. – URL: https://habr.com/ru/company/wunderfund/blog/330814/ (дата обращения: 29.05.2023 г.)
- 15. Dropout: A Simple Way to Prevent Neural Networks from Overfitting / Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky [и др.] // Journal of Machine Learning Research. [Электронный ресурс]. – URL: https://www.jmlr.org/papers/volume15/srivastava14a/srivastava14a.pdf (дата обращения: 19.04.2023 г.)
- 16. Extance A. How AI technology can tame the scientific literature /A. Extance // Nature. – 2018. – № 7722 (561). – C. 273–274.
- 17. ISO 2709:2008 / ISO.org. [Электронный ресурс]. – URL: https://www.iso.org/standard/41319.html (дата обращения: 19.04.2022 г.)
Сведения об авторе
Артамонова Евгения Викторовна – аспирант Московского государственного института культуры; ведущий библиограф Федерального института промышленной собственности, центр Всероссийской патентно-технической библиотеки
Яндекс, Год литературы, анализ цитирования
30.08.2023, 342 просмотра.