ИНФОРМАЦИОННАЯ ИНФРАСТРУКТУРА ЦИФРОВОЙ ЭКОНОМИКИ. АРТАМОНОВА Е. В. БИБЛИОТЕЧНО-ИНФОРМАЦИОННАЯ ОБРАБОТКА ДАННЫХ ИИ: ЭТИЧЕСКИЕ ВОПРОСЫ

  В современном мире искусственный интеллект (ИИ) играет всё более значимую роль в различных сферах деятельности человека, включая библиотечно-информационную обработку данных. Развитие и применение ИИ поднимает ряд этических вопросов, которые требуют внимательного рассмотрения и обсуждения. В том числе – безопасность данных, прозрачность систем и ответственность за их применение. В данной работе будут рассмотрены этические вопросы, связанные с использованием ИИ в библиотечно-информационной обработке данных, даны рекомендации по обеспечению этичного использования ИИ в этой области.

  Существуют различные трактовки понятия «искусственный интеллект». Например, Тютюнник В. М. и Дубровин А. Д. указывают в учебнике «Интеллектуальные информационные системы», что искусственный интеллект – это «компьютерная модель человеческого интеллекта» [1]. В Федеральном законе Федеральный закон от 24 апреля 2020 г. N 123-ФЗ указано, что искусственный интеллект – «комплекс технологических решений, позволяющий имитировать когнитивные функции человека (включая самообучение и поиск решений без заранее заданного алгоритма) и получать при выполнении конкретных задач результаты, сопоставимые, как минимум, с результатами интеллектуальной деятельности человека» [2].

 Таким образом, на основе этих определений мы видим, что искусственный интеллект – неодушевлённая программа, призванная имитировать мыслительную деятельность человека.

 В настоящее время не существует ИИ-систем, полностью воспроизводящих человеческое сознание, способное на решение различных, разнотипных задач – т. н. сильный искусственный интеллект – однако созданы системы, компетентные в какой-либо конкретной области, т. н. слабый искусственный интеллект [3].

 Однако даже такие, ограниченные ИИ-системы могут превосходить компетенции человека в определённой области, благодаря скорости обработки задачи. Например, программа Alpha Go оказалась способной выиграть у обученного профессионала игры «го» в 99,8% случаев, обработав
30 миллионов комбинаций. [4]

 Данные способности ИИ позволяют достичь положительных практических результатов. Например, при помощи ИИ-технологий поисковая система Яндекс способна ответить на 1.6 млрд поисковых запросов в день [5].

 «Слабый» искусственный интеллект не способен проявлять свою собственную волю – осуществлять какие-либо действия без соответствующей команды пользователя, или иметь враждебные намерения по причине отсутствия у него эмоций.

  ИИ, как и любой инструмент, может быть некачественным или использованным в злонамеренных целях. В данной статье мы не будем рассматривать примеры использования ИИ в военных целях, однако остановимся на некоторых рисках, которые несут в себе ИИ-системы, которыми способен воспользоваться пользователь сети Интернет.

 В частности, искусственный интеллект может передавать пользователю искажённую или некорректную информацию.

 В возможности ИИ делать ошибки можно убедиться экспериментальным способом. Например, следующий правдоподобно выглядящий список литературы был получен автором при тестировании штатной работы ИИ-нейросети «АвторGPT» :

  1. - Федоров, А. Г. (2003). История русской книги. С.-Петербург: Университетская книга.
  2. - Иванов, И. К. (2008). Библиотеки, книги и читатели дореволюционной России. Москва: Наука.
  3. - Петров, П. С. (2015). Государственная политика и культурное наследие в России XVIII-начала XX века. Исторические исследования, 10(2), 45-58.

В действительности этих авторов и произведений не существует.

  Исследовательская команда Университета Пердью установила, что чат-бот ChatGPT ошибается в 52% случаев, когда ему задаются вопросы, касающиеся программирования. Как показал эксперимент в исследовании Университета, для человека сгенерированный неправильный ответ выглядит достаточно правдоподобно, чтобы принять его за верный [6].

 Также с возникновением развитых технологий ИИ стали появляться т.н. дипфейки. Слово дипфейк (Deepfake) является составным и происходит от deep learning (глубинное обучение) и fake (фейк, подделка). Глубинное обучение – это один из методов обучения искусственного интеллекта, оно активно и добросовестно используется во многих ИИ-продуктах, выключая вышеупомянутый «Яндекс» [7].

  Один из примеров дипфейков – поддельные видео, в которых совмещается голос или лицо одного человека с другим. Видео с «пьяной» Нэнси Пелоси, спикером Палаты представителей США, набрало миллионы просмотров на YouTube – однако это было видео с ложной информацией, созданное с использованием замедления реального видео, чтобы создать видимость невнятной речи.

 У генерального директора британской энергетической компании мошенники смогли выманить 220 000 евро с помощью дипфейковой имитации голоса руководителя головной компании, якобы запросившего срочно перевести указанную сумму [8].

  Ещё одна область, в которой могут пострадать как пользователи ИИ-продуктов, так и сторонние лица – недобросовестное использование персональных данных и авторских прав при обучении и эксплуатации ИИ-системы.

  В заявлении для прессы, переданном The Verge, компания, управляющая Интернет-фотоагентством Getty Images указала, что компания Stability AI незаконно скопировала и обработала около пяти миллиардов иллюстраций, взятых из интернета «без согласия их авторов»., защищённых авторским правом, для обучения своего ПО и как следствие – получения прибыли [9].

 В конце мая 2023 г. вскрылась масштабная утечка данных пользователей чат-бота ChatGPT, которые потенциально могут скомпрометировать конфиденциальную и чувствительную информацию, которую пользователи доверяют этому продвинутому чат-боту. На биржах украденных данных в даркнете появились логи, содержащие более 100 000 учетных записей ChatGPT. Как сообщает The Hacker News и сингапурская компания Group-IB, занимающаяся кибербезопасностью, в публичный доступ попали учётные данные пользователей, заходивших в ChatGPT с момента его запуска в июне 2022 года по май 2023 года, когда появилась информация об утечке — а это значит, что она вполне может продолжаться. Наиболее пострадавшие от утечек страны — США, Франция, Марокко, Индонезия, Пакистан и Бразилия

 Скомпрометированной могла оказаться и личная информация некоторых платных подписчиков сервиса, говорится в сообщении компании-создателя  OpenAI: «Некоторые пользователи могли видеть имена и фамилии других активных пользователей, а также их адреса электронной почты, платежные адреса, последние четыре цифры (только) кредитных карт и их сроки действия:» [10].

 Стоит отметить, что утечки персональных данных не являются эксклюзивными для ИИ, но являются острой проблемой для современного общества. В России Роскомнадзор зафиксировал 168 утечек персональных данных в 2023 году, в сеть попали более 300 млн записей о россиянах [11].

  В библиотечно-информационной деятельности технологии искусственного интеллекта могут применяться в следующих целях:

  1. 1) Автоматизация обработки книжных фондов и документов: с помощью ИИ возможно автоматизировать процесс обработки библиотечных фондов, а также документов и статей, что позволит ускорить и упростить этот процесс.
  2. 2) Анализ данных и статистика. Искусственный интеллект может обрабатывать большие объемы данных и выявлять тенденции и особенности использования библиотечных ресурсов, что поможет библиотекам оптимизировать свою работу и улучшить качество предоставляемых услуг.
  3. 3) Разработка поисковых систем. Библиотеки могут использовать ИИ для разработки более эффективных и точных поисковых систем, которые основаны на обработке естественного языка и умении определять потребности и запросы пользователя.
  4. 4) Создание персонализированных подборок. Используя ИИ, библиотеки могут создавать персонализированные подборки книг и материалов для каждого пользователя, учитывая его интересы и предпочтения.

 Искажение информации при рекомендации документов пользователю возможно: создание фейковых списков литературы, неправильное оформление библиографического описания, неправильная оценка интересов пользователя. Но в данном случае поиск информации проводится не в разнородных сайтах сети Интернет. Специфика библиотечной среды снижает возможность искажений благодаря существующим стандартам составления библиографического описания, системах классификации книг (УДК, ББК и т.п.), а также наличию однородной базы данных – электронного каталога. 

  Создание дипфейков на основе данной деятельности представляется автору маловероятным, поскольку необходимые для обработки ИИ данные не включают и не должны включать изображения пользователей, однако при использовании голосовых команд ИИ-системе будет нужен доступ к аудиозаписи речи пользователя, а значит, к этим данным может быть получен несанкционированный доступ.

 Таким образом, наибольшая проблема при использовании ИИ-технологий в библиографии – возможные утечки персональных данных и искажение информации при передаче пользователю.

  В Библиотеке Конгресса США в Вашингтоне создана «система оптического распознавания и классификации и распознавания визуального контента» «Газетный репортёр» (Newspaper navigator). За 19 дней c момента запуска «Газетным навигатором» было классифицировано 16 млн страниц. При помощи этого инструмента пользователи могут искать не только конкретную статью (в данном случае, в газете), но и отдельные элементы, находящиеся в статьях, такие, как иллюстрации, карты, рекламные объявления, и т. д. [12]

 Цифровая платформа Роспатента предоставляет широкие возможности для поиска документов Государственного патентного фонда. Пользователи могут осуществлять многоязычный полнотекстовый и атрибутивный поиск на основных европейских языках, что значительно упрощает процесс нахождения необходимой информации. В том числе в системе задействованы возможности поиска при помощи ИИ похожих по тексту или изображению документов [13; 14].

 Как можно видеть, есть примеры использования ИИ-систем в библиотечном деле как в Российской Федерации, так и за рубежом.

 Рассмотрим российское законодательство, призванное обеспечить безопасность текущих пользователей ИИ-систем.

 Национальная стратегия развития ИИ в России задаёт ориентиры в отношении разработки этических норм ИИ. Они также должны быть со временем закреплены в соответствующем документе — российском этическом кодексе ИИ.

 Про этические понятия применительно к ИИ в стратегии говорится дважды. В первом случае речь идёт об основных принципах развития технологий ИИ, которые должны включать в себя принципы, так или иначе относящиеся к сфере этики: защиту прав и свобод человека, недопустимость дискриминации и ущерба для людей [15].

 Стратегия национальной безопасности Российской Федерации описывает основные задачи для развития искусственного интеллекта. В Стратегии отмечены основные задачи развития искусственного интеллекта:

  • - поддержка научных исследований;
  • - разработка и развитие ПО, в котором используются технологии ИИ;
  • - повышение доступности и качества данных;
  • - повышение доступности аппаратного обеспечения;
  • - повышение уровня обеспечения российского рынка технологий ИИ квалифицированными кадрами и повышение уровня информированности населения о возможных сферах использования технологий ИИ;
  • - создание системы регулирования общественных отношений, возникающих в связи с развитием и использованием технологий ИИ [16].

 Согласно «Концепции развития регулирования отношений в сфере технологий искусственного интеллекта и робототехники на период до 2024 года», развитие технологий ИИ и робототехники должно основываться на базовых этических нормах и предусматривать:

  • - Цель обеспечения благополучия человека должна преобладать над иными целями разработки и применения систем ИИ и робототехники.
  • - Запрет на причинение вреда человеку по инициативе систем ИИ и робототехники.
  • - Подконтрольность человеку в той мере, в которой это возможно с учётом требуемой степени автономности систем ИИ и робототехники и иных обстоятельств.

- Проектируемое соответствие закону, в том числе — требованиям безопасности: применение систем ИИ не должно заведомо для разработчика приводить к нарушению правовых норм [17].

 Для библиотек релевантна Статья 13 Федерального закона от 27.07.2006 N 152-ФЗ (ред. от 06.02.2023) «О персональных данных». В соответствии с ней «не допускается использование оскорбляющих чувства граждан или унижающих человеческое достоинство способов обозначения принадлежности персональных данных, содержащихся в государственных или муниципальных информационных системах персональных данных, конкретному субъекту персональных данных» [18].

 Важным элементом правового поля является Федеральный закон от 24 апреля 2020 г. N 123-ФЗ «О проведении эксперимента по установлению специального регулирования в целях создания необходимых условий для разработки и внедрения технологий искусственного интеллекта в субъекте Российской Федерации - городе федерального значения Москве и внесении изменений в статьи 6 и 10 Федерального закона «О персональных данных» [2]. Он вводит экспериментальное правовое регулирование в Москве с целью создания условий для разработки и внедрения технологий искусственного интеллекта. Закон определяет цели, задачи и принципы этого регулирования, а также полномочия органов власти Москвы в рамках эксперимента. Срок проведения эксперимента составляет пять лет, после чего принятые нормативные акты теряют силу, за исключением некоторых исключений. Закон подчеркивает важность прозрачности эксперимента, защиты прав и свобод человека, а также недискриминационного доступа к результатам применения искусственного интеллекта.

Рассмотрим существующие практики по обеспечению безопасности данных.В России создан Альянс в сфере искусственного интеллекта, а на его основе – Кодекс этики в сфере ИИ и Комиссия по реализации Кодекса этики в сфере искусственного интеллекта [18]. В частности, при разработке ИИ-систем человек, его права и свободы должны рассматриваться как наивысшая ценность. Создателям ИИ указывается на необходимость соблюдения принципов информационной безопасности при создании ИИ-систем. Рекомендуется осуществлять добросовестное информирование пользователей об их взаимодействии с СИИ, когда это затрагивает вопросы прав человека и критических сфер его жизни, и обеспечивать возможность прекратить такое взаимодействие по желанию пользователя. Указано, что ответственность за последствия применения ИИ-систем всегда несёт человек.   Стоит отметить, что Кодекс на данный момент носит рекомендательный характер.

 Обезличивание ПД позволяет сохранить их исходную структуру и формат значений, а также интеграционную целостность. Это важно, так как в разных базах данных хранятся фрагменты информации об одном и том же клиенте. Унифицированный подход к обезличиванию позволяет находить и сохранять все связи.

 Процессы управления персональными данными регулируются нормативно-правовыми актами и внутренними требованиями организации.

 Ряд компаний самостоятельно разрабатывают инструменты для автоматического обезличивания, возможно и использование рыночных продуктов. Существуют и зарубежные, и отечественные решения, например, продукт Группы Т1 Сфера.Обезличивание данных [19].  

 В частности, такие программы позволяют:

  • - обезличивать большие данные.
  • - формировать «белые списки» значений полей для исключения из обезличивания.
  • - формировать отчеты с результатами поиска, классификации и обезличивания данных.
  • - искать и классифицировать в автоматическом режиме атрибуты с персональными данными на основе технологий машинного обучения, в т.ч. глубокого обучения.

 Автоматизированный поиск с помощью модели машинного обучения предсказуемо выигрывает у ручного метода, базирующегося исключительно на правилах и точности. Полнота обнаружения ПД у продукта "Сфера". Обезличивание данных на сегодняшний день составляет 97,3%, а точность поиска достигает 95% [20].

 В России существует несколько программ и решений для защиты персональных данных на серверах, среди которых можно выделить следующие:

  КСЗИ «Панцирь+» – комплексная система защиты информации, которая может использоваться для защиты рабочих станций, серверов, терминальных серверов, средств виртуализации Hyper-V, включая защиту и гостевых машин, и гипервизора. Система позволяет в комплексе решать актуальные задачи защиты информации от внешних и от внутренних угроз, в том числе от угроз таргетированных атак [21].

 Secret Net Studio – комплексное решение для защиты рабочих станций и серверов на уровне данных, приложений, сети, операционной системы и периферийного оборудования. Система обеспечивает защиту информации от несанкционированного доступа, усиленную аутентификацию пользователей, доверенную информационную среду и другие функции [22].

  Эти программы разработаны с учетом требований российского законодательства и обеспечивают высокий уровень защиты персональных данных на серверах.

  Искусственный интеллект (ИИ) играет значительную роль в библиотечно-информационной обработке, при этом этические вопросы, такие как безопасность данных, прозрачность системы и ответственность за использование ИИ, требуют тщательного обсуждения. В некоторых областях ИИ может превзойти человеческую компетентность, но при этом несет в себе риски, такие как передача искаженной/неправильной информации и глубоких подделок. Библиотеки могут применять ИИ в различных целях, например, для автоматизации обработки книжных фондов, анализа данных, разработки поисковых систем и создания персонализированных подборок. Самая большая проблема использования технологии ИИ в библиотечной деятельности — это возможная утечка персональных данных и искажение информации. Российское законодательство направлено на обеспечение безопасности систем искусственного интеллекта для пользователей. Существующие практики компаний, связанных с ИИ-разработкой, в т.ч. Альянса по искусственному интеллекту, программ защиты персональных данных на серверах, присели к созданию продуктов, позволяющих использовать искусственный интеллект этично, в том числе – предупреждая их о взаимодействии с ИИ-системами, повышая качество ответов, сгенерированных искусственным интеллектом, защищая данные пользователей.

 Список источников

  1. 1. Тютюнник В. М. Интеллектуальные информационные системы: учебник: 2-изд., стереотип. // В. М. Тютюнник, А. Д. Дубровин. – Тамбов; Москва; Санкт-Петербург; Баку; Вена; Гамбург : Изд-во МИНЦ «Нобелистика», 2012. – 356 с.
  2. 2. Федеральный закон от 24 апреля 2020 г. N 123-ФЗ "О проведении эксперимента по установлению специального регулирования в целях создания необходимых условий для разработки и внедрения технологий искусственного интеллекта в субъекте Российской Федерации - городе федерального значения Москве и внесении изменений в статьи 6 и 10 Федерального закона «О персональных данных» // ГАРАНТ. [Электронный ресурс]. – URL: https://base.garant.ru/73945195/741609f9002bd54a24e5c49cb5af953b/ (дата обращения: 15.04.2024). – Текст : электронный.
  3. 3. Этика искусственного интеллекта и история искусственного интеллекта // Центр искусственного интеллекта НИУ ВШЭ. [Электронный ресурс]. – –URL: https://cs.hse.ru/aicenter/ethics (дата обращения: 15.04.2024).
  4. 4. Искусственный интеллект обыграл человека в игру го // Научная Россия. [Электронный ресурс]. – URL: https://scientificrussia.ru/articles/iskusstvennyj-intellekt-obygral-cheloveka-v-igru-go (дата обращения: 15.04.2024).
  5. 5. Бегин А. Статистика Яндекса в 2024 году: обновлено / А. Бегин // Инклиент. [Электронный ресурс]. –URL: https://inclient.ru/yandex-stats/#auditoria-andeksa-v-2023-godu (дата обращения: 08.08.2023).
  6. 6. Вашкевич А. Исследование: ChatGPT дает неправильный ответ на половину вопросов о программировании / А. Вашкевич // Инфостарт Журнал : Новости индустрии автоматизации учёта [Электронный ресурс]. – URL: https://infostart.ru/journal/news/tekhnologii/issledovanie-chatgpt-daet-nepravilnyy-otvet-na-polovinu-voprosov-o-programmirovanii_1917302/ (дата обращения: 22.04.2024).
  7. 7. Алгоритм «Палех»: как нейронные сети помогают поиску Яндекса // Блог Яндекса [Электронный ресурс]. – URL: https://yandex.ru/blog/company/algoritm-palekh-kak-neyronnye-seti-pomogayut-poisku-yandeksa (дата обращения: 03.11.2020).
  8. 8. Дипфейки и другие поддельные видео – как оставаться в безопасности // Лаборатория Касперского [Электронный ресурс]. – URL: https://www.kaspersky.ru/resource-center/threats/protect-yourself-from-deep-fake (дата обращения: 22.04.2024).
  9. 9. Vincent, J. Getty Images is suing the creators of AI art tool Stable Diffusion for scraping its content / J. Vincent // The Verge [Электронный ресурс]. – URL: https://www.theverge.com/2023/1/17/23558516/ai-art-copyright-stable-diffusion-getty-images-lawsuit (дата обращения: 22.04.2024).
  10. 10. Личные данные ряда пользователей ChatGPT утекли в сеть после сбоя в ИИ. // РИА Новости [Электронный ресурс]. – URL: https://ria.ru/20230325/chatgpt-1860549977.html (дата обращения: 19.04.2024).
  11. 11. В 2023 году в сеть утекло более 300 млн записей о россиянах //ТАСС [Электронный ресурс].– URL: https://tass.ru/obschestvo/19693845 (дата обращения: 22.04.2024).
  12. 12. Нещерет М.Ю. Цифровая библиография: библиотеки в поисках инновационных инструментов библиографической деятельности // Научные и технические библиотеки. – 2021. – № 7. – С. 33-50.
  13. 13. Заседание Коллегии Роспатента 14 декабря 2021 года / Youtube : [официальный канал Роспатент ФИПС] [Электронный ресурс].– URL: https://www.youtube.com/watch?v=ZeHfB4iJkrA (дата обращения: 17.12.2021).
  14. 14. Роспатент платформа. // Роспатент [Электронный ресурс]. – URL: https://searchplatform.rospatent.gov.ru/equal_docs (дата обращения: 08.08.2023).
  15. 15. Этика в национальной стратегии искусственного интеллекта / РАНХиГИС : Центр подготовки руководителей и команд цифровой трансформации [Электронный ресурс]. – URL: http://ethics.cdto.center/3_9 (дата обращения: 22.04.2024).
  16. 16. Указ Президента РФ от 10 октября 2019 г. № 490 О развитии искусственного интеллекта в Российской Федерации” // ГАРАНТ.РУ [Электронный ресурс]. – URL: http://www.garant.ru/products/ipo/prime/doc/72738946/ (дата обращения: 22.04.2024).
  17. 17. Правительство утвердило концепцию развития регулирования отношений в сфере технологий искусственного интеллекта и робототехники до 2024 года // Международная академия информатизация [Электронный ресурс]. – URL: https://iiaun.ru/news/national/2020/08/19/concept-in-the-field-of-technology (дата обращения: 22.04.2024).
  18. 18. Статья 13. Особенности обработки персональных данных в государственных или муниципальных информационных системах персональных данных : Федеральный закон от 27.07.2006 N 152-ФЗ (ред. от 06.02.2023) «О персональных данных» // КонсультантПлюс [Электронный ресурс]. – URL: https://www.consultant.ru/document/cons_doc_LAW_61801/be83e944acb538254bfc9bf073ece847ea189143/ (дата обращения: 19.04.2024).
  19. 19. Кодекс этики в сфере ИИ // Альянс в сфере искусственного интеллекта : Комиссия по реализации Кодекса этики в сфере искусственного интеллекта [Электронный ресурс]. – URL: https://ethics.a-ai.ru/ (дата обращения: 17.04.2024).
  20. 20. Сфера.Обезличивание данных // Платформа Сфера [Электронный ресурс]. – URL: https://www.sferaplatform.ru/obezlichivanie-dannykh (дата обращения: 19.04.2024).
  21. 21. КСЗИ Панцирь+ // Anti-malware.ru [Электронный ресурс]. – URL: https://www.anti-malware.ru/products/kszi-pancir-plus (дата обращения: 19.04.2024).
  22. 22. Secret Net Studio [Электронный ресурс]. – URL: https://dist.1c.ru/products/item/secret-net-studio/ (дата обращения: 19.04.2024). –

Сведения об авторе

Артамонова Евгения Викторовна - Федеральное государственное бюджетное учреждение «Федеральный институт промышленной собственности», ведущий библиограф; Федеральное государственное бюджетное образовательное учреждение высшего образования «Московский государственный институт культуры», аспирант

К оглавлению выпуска

история книги, Яндекс

25.07.2024, 15 просмотров.