С.Х.Ляпин, А.В.Куковякин КЛАСТЕРЫ ПОЛНОТЕКСТОВОГО ПОИСКА В ПРОСТРАНСТВЕ ИНТЕРНЕТ
1. Архитектура информационной системы и базовые сервисы полнотекстового поиска.
1.1. Архитектура. Используемая нами в различных проектах информационная система T-Libra, предназначенная для создания многофункциональных электронных полнотекстовых библиотек (разработка ООО «Константа», Архангельск), функционирует в клиент-серверной Интернет/Интранет архитектуре. На стороне пользователя предполагается лишь наличие Интернет-браузера и стандартных прикладных программ по работе с файловыми ресурсами. На стороне сервера – операционная система Windows, СУБД MySQL (или аналогичная по функционалу), Веб-сервер Apache, сервер приложения (ООО “Константа»). Вся бизнес-логика вынесена в сервер приложения.
Примечание. На серверах может функционировать также операционная система Linux с развернутой на ней виртуальной машиной Windows. В дальнейшем разработчиками T-Libra планируется переход на чистую Linux-версию информационной системы.
1.2. Сервисы полнотекстового поиска. В используемой нами текущей версии электронной библиотеки [1] имеются следующие типы полнотекстового поиска: а) абзацно-ориентированный, б) частотно-ориентированный. При этом абзацно-ориентированный поиск представлен разновидностями работы как в локальной, так и в распределенной среде.
Абзацно-ориентированный поиск предназначен для поиска и презентации текста с точностью до отдельных авторских абзацев, содержащих заданную пользователем терминологическую структуру (тем самым эксплицируется «горизонтальный» микроконтекст, в котором в составе абзаца находятся искомые термины). Авторский абзац выбран в качестве естественной единицы смыслового членения текста. Обеспечивается поддержка нескольких видов и различных форм презентации результатов этого поиска:
Простой («однослойный») тематический поиск, с одним комплексным полем для ввода терминов и использованием для этих терминов операторов логического объединения, обязательного исключения или обязательного включения термина в запрос. Результатом поиска является список абзацев, удовлетворяющих заданным условиям.
Каждый из абзацев, входящих в результаты запроса, может быть одним «кликом» мышки раскрыт до своего полного вида. Используя опцию «Контекст» в левом меню, можно последовательно раскрыть абзацы до и после найденного – вплоть до кластера из семи абзацев (три абзаца «до», три абзаца «после», плюс сам абзац – результат запроса).
Имеется возможность посмотреть, с этой же экранной страницы, соответствующий ресурс (статью, книгу и т.д.) в файловом виде; ресурс при этом может быть представлен в различных форматах: текстового документа, графического образа документа (важно для архивных ресурсов), сопровождающего документ аудио- или видеофайла (важно для организации электронных выставок и коллекций).
Имеется также возможность оценки пользователем найденных абзацев, и затем автоматизированной сборки выбранных абзацев с помощью опции «Собрать тему». В результате пользователь получает файл, в котором собраны тематически ориентированные абзацы из различных документов электронной библиотеки, и указаны ресурсы (вместе с их библиографическими описаниями), откуда взяты эти абзацы. На клиентском (пользовательском) компьютере этот итоговый файл может быть записан на переносимый носитель информации («флэшку») или распечатан.
Расширенный («многослойный») тематический поиск. Этот вид поиска содержит функционал дополнительной тематической фокусировки запроса. Соответствующий инструментарий включает в себя: а) формирование нескольких поисковых полей («слоев») и б) включение в запрос дополнительных количественных параметров его фокусировки.
Поисковое поле "слой" представляет собой технический инструмент для выделения того или иного содержательного "аспекта" интересующей пользователя "темы"; всего может быть сформировано от 2 до 8 слоев. Например, в первом слое термин вводим термин «факт», во втором – термин «разум», в третьем – термин «истина». Тем самым в структуре запроса тематика «факта» специализирована (аспектуализирована) в связи с «истиной» и «разумом».
Еще более точная тематическая фокусировка запроса достигается за счет выполнения дополнительных условий: а) указания минимально необходимого количества поисковых слоев (от 2 до 8); б) указания максимального расстояния между терминами, принадлежащими разным слоям: от 0, когда слова из двух разных слоев запроса в составе абзаца примыкают друг к другу (например, «Сийское Евангелие», или «факт истории» и т.д.), до произвольной величины.
Частотно-ориентированный поиск предназначен для построения частотно-ранжированных списков терминов (существительных), и тем самым экспликации различных «вертикальных» макроконтекстов, неявно присутствующих в отдельном документе или их выбранной совокупности. Получающиеся таблицы списков терминов, с указанием абсолютного (в обычных числах) и относительного (в ‰, промилле) количества их встречаемости в тексте, мы называем «терминограммами» (по аналогии с «рентгенограммами»). Поиск может проводиться одновременно по 1, 2 или 3 корзинам ресурсов. Обеспечивается поддержка двух видов этого поиска и различных форм презентации его результатов:
абсолютный частотный, результатом которого является частотно-ранжированный список существительных, входящих в ресурсы области поиска и приведенных к нормальной форме (именительный падеж, единственное число).
относительный частотный, результатом которого является частотно-ранжированный список существительных, входящих только в те абзацы первичного текста, которые содержат заданный пользователем термин (тем самым список строится «относительно» этого термина).
Рис. 1. Пример автоматического построения «терминограмм» (частотный запрос относительно термина «факт») по трем корзинам ресурсов: произведениям Бердяева (64 шт.), Лосева (5 шт.), Канта (5 шт.).
Все термины, входящие в итоговую терминограмму, являются активными; «кликнув» по любому из них, можно выйти на уже сформированный абзацно-ориентированный запрос по данному термину, и эксплицировать его микроконтекст.
Эти виды частотного поиска могут использоваться для целей текстологического анализа документа; для выявления и описания предметной области документа; для составления списка ключевых слов; для сравнительного анализа предметных областей различных авторов или различных документов; для проверки текстов на плагиат и т.д.
В сочетании с абзацно-ориентированным поиском может быть организовано много разновидностей комбинированных запросов для самых разных целей (кластеризации результатов абзацно-ориентированного запроса; гибридного поиска одновременно по каталогу и полным текстам для работы с мультимодальными ресурсами; выявления и анализа понятийно-тематических трендов и т.д.).
1.3. Примеры экспликации контекстного знания с помощью сервисов полнотекстового поиска
Развивая идею о сервисах полнотекстового поиска для поддержки гуманитарных исследований, на протяжении нескольких последних лет нами в рамках различных проектов были осуществлены предварительные исследования по таким крупным темам, как «Проблема факта в русской философии», «Проблема одиночества в русской философии и литературе», «Проблема человека в русской философии и культуре».
Для экспликации вышеназванных концептов применялась методика сочетания частотно-ориентированных запросов с абзацно-ориентированными. Для этого вначале c помощью инструментов частотно-ориентированных запросов строились соответствующие частотно-ранжированные списки терминов (существительных) – «терминограммы» – относительно исследуемых терминов (соответственно: «факт», одиночество», «человек»). При этом на заданную глубину (как правило, в 10 слов) средствами относительного частотного поиска автоматически создавались таблицы частотной встречаемости терминов по выбранной совокупности ресурсов. В итоге мы получали экспликацию предметной области, коррелирующей с исследуемыми терминами/концептами (соответственно: «факт», одиночество», «человек») – т.е. экспликацию «вертикального контекста». Затем термины из этих таблиц включались в абзацно-ориентированные запросы, что позволяло эксплицировать микроконтекст («горизонтальный контекст») употребления этих терминов в рамках авторского абзаца.
Экспликация концепта фактуальности в философии Н.А.Бердяева. С помощью относительного частотного поиска (относительно термина «факт») можно предварительно выявить предметную область (смысловой макроконтекст), в котором существует концепт «факт» в философских текстах Н.А.Бердяева в целом или в тексте отдельного произведения [2]. В частности, для исследуемых работ Бердяева, содержащих термин «факт» (24 произведения) в смысловую окрестность «факта» попадают (т.е. встречаются в абзацах, где обязательно имеется и термин «факт»), в порядке убывания частотности, следующие термины: 1. «жизнь» (850 раз), 2. «мир» (811 раз), 3. «человек» (788 раз), 4. «дух» (484 раза), 5. «Бог» (483 раза), 6. «сознание» (401 раз), 7. «свобода» (377 раз), 8. «факт» (366 раз), 9. «философия» (324 раза), 10. «история» (311 раз).
Опираясь на эти результаты, эксплицирующие предметную область фактуальности в работах Н.А.Бердяева, можно далее с помощью абзацно-ориентированного поиска осуществить экспликацию горизонтальных микроконтекстов (в пределах авторского абзаца), коррелирующих с концептом «факт».
Можно использовать многослойный (например, трехслойный) запрос. В один слой ввести термин «факт», в два других – термины из бердяевской терминограммы (например, «мир» и «человек»), выбрать дополнительные параметры фокусировки запроса (все 3 слоя актуальны, расстояние между терминами не более 8 слов) и получить результат: 7 абзацев в 4-х произведениях (поиск произведен по массиву из 64 текстов Бердяева). См. ниже Рис.2.
Рис.2. Многослойный (трехслойный) запрос c терминами [«факт», «мир», «человек»] по массиву текстов Н.А.Бердяева (всего 64 произведения). При заданных условиях фокусировки запроса найдено 7 релевантных абзацев в 4 произведениях. Запрос произведен по электронной библиотеке Университета ИТМО (проект «Humanitariana») 07 октября 2014 года.
Экспертная оценка этого и других найденных абзацев говорит о высокой степени релевантности результатов таким образом организованного полнотекстового запроса. Эксплицируются микроконтексты концепта фактуальности, связанные с такими аспектами темы: «гуманизм и факт рабства человека у природного мира»; «факт самосознания человека и трансцендентность сознания» и т.д.
Выбирая другие термины из терминограмм Бердяева (например, «факт» + «сознание» + «свобода»; или «факт» + «философия» + «история» и т.д.), включая их в абзацно-ориентированные запросы и варьируя условия их фокусировки, можно эксплицировать другие семантические микроконтексты в рамках разработки темы «Проблема факта в философии Бердяева».
2. Полнотекстовый поиск в децентрализованной распределенной среде, управляемой пользовательским браузером
При выборе модели организации распределенной среды для сервисов полнотекстового поиска мы ориентировались на Веб-сервисы и Интернет-протоколы.
Это связано как с архитектурой информационной системы T-Libra (клиент-серверная архитектура, в которой в качестве клиента выступает Веб-браузер), так и с очевидной необходимостью учитывать тенденции развития современного информационного пространства.
В этой связи была выбрана модель децентрализованной среды под управлением пользовательского браузера, обращающегося к множеству независимых серверов, находящихся в ведении различных организаций. Этот подход вполне укладывается в парадигму распределенных информационных систем [3], достаточен для наших целей и позволяет не рассматривать более сложные варианты.
Рис.3. С сервера Университета ИТМО (Санкт-Петербург) сформирован распределенный полнотекстовый запрос, на который откликнулся также сервер другого участника проекта «Humanitariana» – ООО «Константа» (г. Архангельск). Это показано на соответствующей странице во всплывающем окне.
Наш подход может быть рассмотрен как вариант metasearch engine [4]. Инструментом машины метапоиска является в этом случае пользовательский браузер. Прямого взаимодействия серверов при этом не требуется. См. Рис.3.
Впервые успешный эксперимент по реализации этого подхода был осуществлен 5 апреля 2011 года, в рамках ежегодной конференции «Музейные библиотеки в современном мире», проходившей в Музеях Московского Кремля [5]. В нем участвовали электронные библиотеки 5 организаций: 2 в Архангельске и 3 – в Москве. В каждой из них была установлена ИС T-Libra.
3. Текущие проекты по созданию кластеров полнотекстового поиска.
В настоящее время нами (Университет ИТМО и ООО «Константа» с партнерами) осуществляется несколько региональных и/или междисциплинарных проектов, основанных на вышеизложенных организационно-технологических подходах.
3.1 Межмузейная распределенная библиотека.
Партнерский проект по созданию межмузейной электронной библиотеки с распределенным полнотекстовым поиском. Его инициаторы и непосредственные участники: Музеи Московского Кремля (научно-справочная библиотека) и Архангельский краеведческий музей (научная библиотека). [6] Функционал каждой из библиотек и распределенной среды в целом будет развиваться в направлении многофункциональности и мультимодальности, что необходимо для поддержки основной деятельности музеев: информационного сопровождения экспозиций и выставок (отбор и подготовка материала для музейных этикеток и аналитических описаний экспонатов), подготовки и проведения экскурсий, обеспечения научно-методической и научно-исследовательской работы в музее.
3.2 Корпоративная сеть муниципальных библиотек.
Под руководством ЦГПБ им. В.В.Маяковского (Санкт-Петербург) создается распределенная полнотекстовая корпоративная сеть общедоступных библиотек (КСОБ) Санкт-Петербурга. В нее поэтапно будут включены районные централизованные библиотечные системы. Ресурсно-сервисная ориентация этой среды – поддержка краеведческой работы библиотек, прежде всего в рамках Петербурговедения.
3.3 Проект «Humanitariana».
Речь идет о создании виртуального информационно-ресурсного центра для извлечения знаний из гуманитарных текстов на основе продвинутого полнотекстового поиска и функциональной интеграции ресурсов и сервисов в распределенной среде, проект поддержан грантом РГНФ № 14-03-12017 и рассчитан на 2014-2016 гг. [7]
В его рамках при координирующей роли Университета ИТМО (г. Санкт-Петербург) поэтапно создается междисциплинарная информационная распределенная среда с открытым доступом. В рамках проекта разрабатывается типология задач автоматизированного извлечения контекстного знания из гуманитарных текстов, создаются методики составления запросов разного типа и вида для типовых задач извлечения знаний.
4. Заключение.
Предлагаемая организация сервисов полнотекстового поиска и децентрализованной распределенной среды может быть использована для создания кластеров информационно-библиотечного поиска междисциплинарного и межведомственного характера, тем самым – для масштабирования технологии, увеличения количества и повышения качества доступных цифровых ресурсов и предоставляемых поисковых и презентационных сервисов.
Сами эти сервисы могут быть использованы для многоплановой поддержки образовательной, научной и культурной деятельности, для создания мультимодальных информационных систем, функционально интегрирующих ресурсы и сервисы электронной библиотеки, электронной выставки/экспозиции, электронного архива.
Этот подход может рассматриваться как дополнение, а в ряде случаев – и как альтернатива той централизации ресурсов и сервисов, которая предполагается мегапроектами наподобие Национальной электронной библиотеки РФ.
Список литературы
[1] См. http://demo.tlibra.ru Дата обращения: 26.03.2015.
[2] С.Х.Ляпин. «Тексты, контексты, концепты: использование современных систем полнотекстового поиска для философских исследований (на материале русской философии)» http://www.losev-library.ru/index.php?pid=6872. Дата обращения 30.11.2014.
[3] Э. Таненбаум, М. ван Стеен. Распределенные системы. Принципы и парадигмы. – СПб.: Питер, 2003. Пер. с английского В. Горбунков. – 877 с. (c. 23).
[4] Metasearch engine // [Эл. ресурс]: http://en.wikipedia.org/wiki/Metasearch_engine. Дата обращения 30.11.2014.
[5] Презентация проекта "Распределенная межмузейная электронная библиотека". Видеоконференция Российской ассоциации электронных библиотек (НП «ЭЛБИ»), 08 апр. 2011 г. [Эл. ресурс]: http://www.aselibrary.ru/conference/conference43/conference432039. Дата обращения: 26 марта 2015 г.
[6] С.А. Костанян, А.В. Куковякин, С.Х. Ляпин. Музейная библиотека для поддержки музейной деятельности и интеграции ресурсов в распределенной информационной среде (презентация партнерского проекта) // Конференция АДИТ-2014, г. Выборг Ленинградской области, 20-24 мая 2014 г. [Эл. ресурс]: http://adit.ru/sites/default/files/mus-bibl.pdf. Дата обращения: 26 марта 2015 г.
[7] Ляпин С.Х., Куковякин А.В., Мбого И.А., Толстикова И.И, Чугунов А.В. СЕРВИСЫ ПОЛНОТЕКСТОВОГО ПОИСКА В РАСПРЕДЕЛЕННОЙ ИНФОРМАЦИОННОЙ СРЕДЕ (ПРОЕКТ HUMANITARIANA) // НАУЧНО-ТЕХНИЧЕСКИЙ ВЕСТНИК ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ, МЕХАНИКИ И ОПТИКИ, Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Санкт-Петербург), Т.15, №1, 2015 г. – С. 155-162. [Эл. ресурс]: http://elibrary.ru/item.asp?id=23028758. Дата обращения: 26 марта 2015 г.
Сведения об авторах
ЛЯПИН Сергей Хамзеевич, науч. сотрудник Центра технологий электронного правительства Университета ИТМО (Санкт-Петербург),
КУКОВЯКИН А.В., ООО «Константа» (Архангельск)
конференции, проекты, история библиотечного образования, Library education, information environment, информационная свобода, информационная среда
23.04.2016, 2500 просмотров.