ИНФОРМАЦИОННАЯ ИНФРАСТРУКТУРА ЦИФРОВОЙ ЭКОНОМИКИ. ГОРБУНОВ А.В., ГЕНИН Б.Л., ЗОЛКИН Д.С. ПРИМЕНЕНИЕ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА В ПОИСКЕ ПО ПАТЕНТНОЙ И ТЕХНИЧЕСКОЙ ЛИТЕРАТУРЕ

  Современный этап совершенствования деятельности при решении многих задач часто определяют термином "Цифровая трансформация". Рассмотрим, что же такое "Цифровая трансформация" и чем она отличается от обычной автоматизации деятельности, на примере патентного ведомства. Обычная автоматизация деятельности направлена на повышение эффективности решения технических задач ведомства, то есть задач экспертизы заявок и регистрации прав. В отличие от автоматизации деятельности при решении технических задач, цифровая трансформация непосредственно направлена на решение основных стратегических задач ведомства - повышение изобретательской активности и активизация вовлечения инноваций в экономику. Цифровая трансформация - это возможность на новом, более высоком уровне автоматизации решать более сложные стратегические задачи ведомства.

  Ключевым субъектом решения этих задач является изобретатель. В наше время разработку важнейших объектов новой техники выполняют большие коллективы специалистов, но по-прежнему ключевая идея новой разработки, определяющая «изобретательский уровень», рождается как результат интеллектуальной деятельности отдельного человека или небольшой группы лиц. Чтобы повысить изобретательскую активность нужно в первую очередь создать комфортную среду для изобретателя, обеспечивающую подачу заявки на изобретение с минимальной трудоемкостью, с минимальными затратами времени, труда и финансовых ресурсов. Эти задачи всегда считались важными задачами патентного ведомства, но только сейчас в наше время цифровой трансформации появились новые возможности эффективного решения этих задач на новом уровне с использованием новых современных средств.

  В любой современной системе патентного поиска необходимо разрешить противоречие между необходимостью обеспечить наименее затратный с точки зрения времени эксперта поиск в огромных массивах патентной и непатентной информации и высоким качеством проведения поиска по патентной заявке. В настоящее время широко применяемым при проведении автоматического информационного поиска в патентных ведомствах всего мира является следующий алгоритм: извлечение из поданной заявки ключевых слов, классификация технического решения и проведение поиска по информационным ресурсам на данной основе. Дополнительным расширением такого алгоритма является не просто извлечение ключевых слов, но и подбор синонимов к ним и поиск с их участием.

  Наиболее многообещающими, по мнению ряда авторов и по мнению авторов настоящей статьи, являются методики, основанные на использовании новых подходов к поиску «похожих» документов (similarity search) с использованием методов искусственного интеллекта [2].

 В последние годы подобная функциональность появилась во многих известных системах патентного поиска, в качестве примера можно упомянуть такие известные проекты, как Google Patent Similarity Search, Questel Similarity Search, Automatic preliminary search ЕПВ, Yandex Patent.

  Во внутренней системе патентного поиска Роспатента для экспертизы изобретений и полезных моделей также реализована и развивается возможность поиска «похожих» документов, то есть автоматический поиск семантически близких патентов.

  Развитие и совершенствование функциональности поиска «похожих» документов в поисковой система Роспатента в существенной мере опирается на разработанные авторами критерии качества автоматического поиска, ориентированные на решение задач поиска при экспертизе заявок на изобретения, что позволило упорядочить и повысить эффективность исследований в области поиска и, в частности, в области использования искусственного интеллекта в поиске.

  В соответствии со Стандартом термины релевантность и пертинентность означают:

  • -   релевантность; релевантный: Соответствие полученной информации информационному запросу;
  • - пертинентность; пертинентный: Соответствие полученной информации информационной потребности.

  Иными словами, релевантность - это соответствие результатов поиска поисковому запросу, текст найденного документа должен содержать термины поискового запроса.

  Другая характеристика эффективности поиска, пертинентность – это степень удовлетворенности пользователя результатами поиска.

 В последние годы термин пертинентность редко употребляется в работах по развитию информационных технологий, хотя в современных информационно-поисковых системах понятие релевантность уже постоянно трактуется расширительно, как смысловое (семантическое) соответствие запроса и результатов поиска.

  Патентный поиск — это очень специфическая область информационного поиска. Мы здесь сконцентрируем внимание на еще более специфической части задач патентного поиска - поиск для целей экспертизы заявок на изобретения и полезные модели, а именно, поиск патентных документов, характеризующих уровень техники в предметной области заявки.

   Такой поиск часто называется в технической литературе “similarity search” или по-русски - поиск “похожих”, хотя понятие похожести здесь понимается весьма своеобразно и расширительно.

  С технической точки зрения такой поиск отличается от типичных задач веб-поиска тем, что в качестве некоего аналога поискового запроса используется заявка на изобретение. Именно заявка на изобретение в целом, а не только текст заявки, так как ряд известных систем используют для поиска “похожих” не только текст заявки, но и некоторые библиографические поля, характерные для патентных документов, такие как индексы патентной классификации, сведения о цитировании, сведения о принадлежности к семействам патентов - аналогов и некоторые другие.

  С точки зрения оценки эффективности поиска такой патентный поиск “похожих” характерен тем, что нам заранее известна задача пользователя, намерение пользователя, его информационная потребность, и нам нужно максимизировать оценку качества, то есть максимизировать пертинентность системы патентного поиска. Задача патентного поиска для целей экспертизы заявок на изобретения это поиск патентных документов, характеризующих уровень техники в предметной области заявки. А термин “патентные документы, характеризующие уровень техники”, означает документы, по сравнению с которыми экспертиза сможет оценить степень новизны предложенного в заявке технического решения, то есть документы, в которых описаны похожие технические решения.

  Для таких сложных и не имеющих формального определения задач на сегодняшний день не существует детерминированных методов и алгоритмов решения. Однако уже сегодня можно успешно решать подобные задачи с использованием методов искусственного интеллекта. Напрашивается желание попытаться решить задачу патентного поиска, используя известные в технологии информационного поиска подходы с представлением методами машинного обучения искусственных нейронных сетей документов поискового массива векторами в некотором многомерном пространстве таким образом, чтобы близкие в этом пространстве вектора и соответствующие документы оказывались удовлетворительными по критерию качества поиска, по пертинентности.

  У такого подхода в применении к патентному поиску есть две важные особенности. С одной стороны, в огромных массивах патентной информации имеется большое количество информации о ранее принятых экспертизой решений и ранее проведенных поисках по заявкам. Ни в какой другой области информационного поиска нет такого количества размеченных для машинного обучения положительных и отрицательных примеров.

  Начиная работу по совершенствованию патентного поиска нужно определиться с формальными критериями оценки качества. Оценки качества поиска это большая тема, неплохо освещенная в литературе, например в [3].

  Различных критериев оценки качества поиска много и целесообразность использования того или иного критерия зависит от решаемой задачи, от характеристик поискового массива, а также от индивидуальных предпочтений пользователя поисковой системы.

  В данном исследовании нас интересует задача патентного поиска для экспертизы заявок на изобретения. Уточним задачу, как задачу поиска патентных документов, определяющих предшествующий уровень техники в предметной области заявки на изобретение.

  Попробуем сформулировать продуктивное и достаточно корректное определение требования к качеству поиска патентных документов, определяющих предшествующий уровень техники в предметной области заявки на изобретение.

  Сначала определим исходные положения для постановки задачи. Будем исходить из того, что вся исходная информация для поиска содержится в заявке, для экспертизы которой проводится поиск.

  Теперь попробуем найти формально вычисляемый критерий, оптимизация которого позволит найти и “хорошее” решение задачи поиска патентных документов, определяющих предшествующий уровень техники в предметной области заявки на изобретение.

  Хорошим будем считать решение, наиболее близкое в среднем к соответствующим ранее выполненным решениям экспертов. Это очень важный тезис, лежащий в основе настоящего исследования. Ниже мы подробно разъясним этот тезис.

  Вернемся к нашей основной задаче, задаче поиска патентных документов, определяющих предшествующий уровень техники в предметной области заявки на изобретение. Очевидно, что качество результата поиска в первую очередь зависит от формулировки запроса на поиск и от стратегии поиска, то есть от итеративной последовательности запросов с их расширением/сужением, с изменением набора полей в запросе и т.д.. Соответственно современные системы патентного поиска представляют собой многофункциональные наборы инструментов классификационного, именного и словесного поиска. Эксперт выполняет сложную работу по поиску при экспертизе заявки комбинируя использование этих инструментов в рамках выбранной стратегии поиска.

  Возникает естественное желание к обычному набору поисковых инструментов в системе патентного поиска добавить еще один инструмент – автоматический поиск «похожих» на рассматриваемую заявку патентных документов. Такие инструменты в последние годы появились во многих системах патентного поиска. Подход выглядит очень привлекательным, ведь вместо сложной и длительной работы по подготовке серии запросов, стратегии поиска с использованием разнообразных видов поиска здесь нужно просто дать команду «найти похожие» и система самостоятельно выполнит все промежуточные построения и выдаст результат поиска. При высококачественном автоматическом поиске «похожих» эксперту будет достаточно после этого провести сравнительный анализ заявки и документов, находящихся в начале отсортированного по релевантности списка результатов поиска.

  Так как мы решили, что хорошим будем считать решение, наиболее близкое в среднем к соответствующим ранее выполненным решениям экспертов, то для проведения оценки выполним множество автоматических поисков «похожих» на патентные документы, для которых у нас есть отчеты о поиске, выполненные ранее экспертами. Затем сравним результаты поиска экспертами с результатами автоматического поиска. Чем в среднем ближе эти результаты, тем выше качество нашего автоматического поиска «похожих».

  Это позволяет создавать и использовать для машинного обучения очень большие массивы патентных документов. В этом заключается принципиальное отличие фонда патентных документов от любых других массивов научно-технической информации и принципиальная возможность создания уникальных высокоэффективных систем автоматического патентного поиска на базе использования современных методов и средств искусственного интеллекта.

  Укрупненная схема подхода, реализованного в PatSearch [1], включает следующие основные этапы:

  •  - по заявке на изобретение, поступившей на экспертизу, автоматически составляется расширенный терминологический перечень;
  • - полученный терминологический перечень документа дополнительно обогащается семантически близкими квазисинонимами из предварительно построенного дистрибутивного тезауруса и конвертируется в структуру запроса на поиск;
  • - выполняется поиск в базе данных системы с получением ранжированного по релевантности списка результатов поиска;
  • - список результатов поиска переранжируется для лучшего соответствия поставленным целям, определяемым по формализованному критерию качества поиска.

   PatSearch эксплуатируется в промышленном режиме, для широкой публики приложение доступно в патентной библиотеке (ВПТБ). При поиске предшествующего уровня техники по заявкам на изобретения в русскоязычной базе данных патентных документов система автоматически находит для заявок более 50% документов, которые впоследствии экспертиза указывает в качестве документов, определяющих уровень техники в данной области.

  Отметим, что в этой систем е реализована и функциональность поиска на естественном языке. Эта функциональность позволяет в качестве документа-образца при поиске похожих использовать не только заявку на изобретение, как это было описано выше, но и например, фрагмент научно – технической статьи или технической документации. При этом система поиска похожих будет выполнять поиск документов, в которых рассматриваются подобные технические проблемы.

  Сейчас в Роспатенте ведется разработка новой цифровой платформы патентного поиска, которая позволит развить описанные здесь и уже апробированные на русскоязычной базе данных подходы, на поиск в англоязычных массивах, а в перспективе и на многоязычный поиск.

  Цифровая платформа, создаваемая в Роспатенте в рамках программы Цифровая экономика, содержит сервис патентного поиска, сервис поиска средств индивидуальности, сервис анализа патентной статистики. Совокупность этих сервисов позволяет удовлетворить в режиме омниканального взаимодействия потребности пользователей, как в поиске патентной информации, так и в решении задач управления интеллектуальной собственностью. При этом платформа предоставляет возможность размещения на платформе других, в том числе коммерческих, сервисов с бесплатным доступом к массивам государственного патентного фонда и с низким порогом вхождения в сферу информационно-аналитического обслуживания пользователей.

  Представляется важным поиск "золотой середины" между публикацией сведений о решениях Роспатента по результатам экспертизы (с элементами информационного обслуживания) и развитым информационно-аналитическим обслуживанием широкого круга потребителей патентной информации.

 Новые задачи системы электронной публикации патентного ведомства приводят к формулированию новых целей и новых требований к ведомственным системам публикации:

  • - предоставление широкому кругу заинтересованных лиц официальной информации о состоянии правовой охраны объектов интеллектуальной собственности;
  • - предоставление широкому кругу заинтересованных лиц возможностей эффективного поиска информации о состоянии правовой охраны объектов интеллектуальной собственности в интересующей их тематической области;
  • - информационное обеспечение и обслуживание заинтересованных лиц (как юридических, так и физических) информацией о состоянии и об изменениях в состоянии правовой охраны объектов интеллектуальной собственности в интересующей их тематической области;
  • - предоставление широкому кругу заинтересованных лиц аналитической информации о патентной активности и трендах ее развития в интересующей их тематической области;
  • - создание эргономичной среды поиска и обработки информации о состоянии правовой охраны объектов интеллектуальной собственности.

  Указанные новые задачи системы официальных публикаций патентного ведомства направлены на «размывание» водораздела между ведомственной системой официальной публикации, все больше выполняющей функции системы патентно-информационного обслуживания, и классической патентной библиотекой. Однако, возникающие здесь проблемы и противоречия еще ждут своего осмысления. При этом авторы настоящей статьи придерживаются мнения, что функции библиотеки претерпевают изменения, но роль патентной библиотеки в организации эффективного функционирования системы патентно-информационного обслуживания заинтересованных лиц при этом только возрастает.

 Список источников

  1. 1. Горбунов, А.В., Генин, Б.Л., Золкин Д.С., Киселев С.Л. (2018), "Опыт применения методов искусственного интеллекта для повышения качества поиска "сходных" документов в патентно-поисковой системе экспертизы изобретений", в сборнике: Роль интеллектуальной собственности в прорывном научно-техническом развитии общества, Федеральный институт промышленной собственности, Роспатент, Москва, 19-20 сентября 2018. - С. 17-19.
  2. 2. Hasan, M., Spangler, W., Griffin, T. and Alba, A. (2009), COA: finding novel patents through test analysis, Proceedings of the 15th ACM SIGKDD international conference of Knowledge discovery and data mining, ACM, pp. 1175-1184. DOI: 10.1145 / 1557019.1557146
  3. 3. Кураленок И.Е., Некрестьянов И.С. (2004), "Оценка систем текстового поиска", Программирование 28 (4): 226 242, Докторская диссертация, Системный анализ, управление и обработка информации, Санкт-Петербургский государственный университет, Санкт-Петербург, Россия.

Сведения об авторах

Горбунов Александр Владимирович, советник директора ФГБУ «Федеральный институт промышленной собственности».

Золкин Дмитрий Сергеевич, заведующий отделом проектирования информационно-поисковых систем ФГБУ «Федеральный институт промышленной собственности».

Генин Борис Лемелевич, ведущий научный сотрудник отдела проектирования информационно-поисковых систем ФГБУ «Федеральный институт промышленной собственности», кандидат технических наук.

рецензент

Родионов Иван Иванович, доктор экономических наук, профессор, эксперт научного управления Московского государственного института культуры, член редакционной коллегии

Тютюнник Вячеслав Михайлович, доктор технических наук, профессор кафедры библиотечно-информационных наук МГИК, член редакционной коллегии

К оглавлению выпуска

проекты

12.04.2021, 929 просмотров.