ИНФОРМАЦИОННАЯ ИНФРАСТРУКТУРА ЦИФРОВОЙ ЭКОНОМИКИ. АРТАМОНОВА Е. В. БИБЛИОТЕЧНО-ИНФОРМАЦИОННАЯ ОБРАБОТКА ДАННЫХ ИИ: ЭТИЧЕСКИЕ ВОПРОСЫ
В современном мире искусственный интеллект (ИИ) играет всё более значимую роль в различных сферах деятельности человека, включая библиотечно-информационную обработку данных. Развитие и применение ИИ поднимает ряд этических вопросов, которые требуют внимательного рассмотрения и обсуждения. В том числе – безопасность данных, прозрачность систем и ответственность за их применение. В данной работе будут рассмотрены этические вопросы, связанные с использованием ИИ в библиотечно-информационной обработке данных, даны рекомендации по обеспечению этичного использования ИИ в этой области.
Существуют различные трактовки понятия «искусственный интеллект». Например, Тютюнник В. М. и Дубровин А. Д. указывают в учебнике «Интеллектуальные информационные системы», что искусственный интеллект – это «компьютерная модель человеческого интеллекта» [1]. В Федеральном законе Федеральный закон от 24 апреля 2020 г. N 123-ФЗ указано, что искусственный интеллект – «комплекс технологических решений, позволяющий имитировать когнитивные функции человека (включая самообучение и поиск решений без заранее заданного алгоритма) и получать при выполнении конкретных задач результаты, сопоставимые, как минимум, с результатами интеллектуальной деятельности человека» [2].
Таким образом, на основе этих определений мы видим, что искусственный интеллект – неодушевлённая программа, призванная имитировать мыслительную деятельность человека.
В настоящее время не существует ИИ-систем, полностью воспроизводящих человеческое сознание, способное на решение различных, разнотипных задач – т. н. сильный искусственный интеллект – однако созданы системы, компетентные в какой-либо конкретной области, т. н. слабый искусственный интеллект [3].
Однако даже такие, ограниченные ИИ-системы могут превосходить компетенции человека в определённой области, благодаря скорости обработки задачи. Например, программа Alpha Go оказалась способной выиграть у обученного профессионала игры «го» в 99,8% случаев, обработав
30 миллионов комбинаций. [4]
Данные способности ИИ позволяют достичь положительных практических результатов. Например, при помощи ИИ-технологий поисковая система Яндекс способна ответить на 1.6 млрд поисковых запросов в день [5].
«Слабый» искусственный интеллект не способен проявлять свою собственную волю – осуществлять какие-либо действия без соответствующей команды пользователя, или иметь враждебные намерения по причине отсутствия у него эмоций.
ИИ, как и любой инструмент, может быть некачественным или использованным в злонамеренных целях. В данной статье мы не будем рассматривать примеры использования ИИ в военных целях, однако остановимся на некоторых рисках, которые несут в себе ИИ-системы, которыми способен воспользоваться пользователь сети Интернет.
В частности, искусственный интеллект может передавать пользователю искажённую или некорректную информацию.
В возможности ИИ делать ошибки можно убедиться экспериментальным способом. Например, следующий правдоподобно выглядящий список литературы был получен автором при тестировании штатной работы ИИ-нейросети «АвторGPT» :
- - Федоров, А. Г. (2003). История русской книги. С.-Петербург: Университетская книга.
- - Иванов, И. К. (2008). Библиотеки, книги и читатели дореволюционной России. Москва: Наука.
- - Петров, П. С. (2015). Государственная политика и культурное наследие в России XVIII-начала XX века. Исторические исследования, 10(2), 45-58.
В действительности этих авторов и произведений не существует.
Исследовательская команда Университета Пердью установила, что чат-бот ChatGPT ошибается в 52% случаев, когда ему задаются вопросы, касающиеся программирования. Как показал эксперимент в исследовании Университета, для человека сгенерированный неправильный ответ выглядит достаточно правдоподобно, чтобы принять его за верный [6].
Также с возникновением развитых технологий ИИ стали появляться т.н. дипфейки. Слово дипфейк (Deepfake) является составным и происходит от deep learning (глубинное обучение) и fake (фейк, подделка). Глубинное обучение – это один из методов обучения искусственного интеллекта, оно активно и добросовестно используется во многих ИИ-продуктах, выключая вышеупомянутый «Яндекс» [7].
Один из примеров дипфейков – поддельные видео, в которых совмещается голос или лицо одного человека с другим. Видео с «пьяной» Нэнси Пелоси, спикером Палаты представителей США, набрало миллионы просмотров на YouTube – однако это было видео с ложной информацией, созданное с использованием замедления реального видео, чтобы создать видимость невнятной речи.
У генерального директора британской энергетической компании мошенники смогли выманить 220 000 евро с помощью дипфейковой имитации голоса руководителя головной компании, якобы запросившего срочно перевести указанную сумму [8].
Ещё одна область, в которой могут пострадать как пользователи ИИ-продуктов, так и сторонние лица – недобросовестное использование персональных данных и авторских прав при обучении и эксплуатации ИИ-системы.
В заявлении для прессы, переданном The Verge, компания, управляющая Интернет-фотоагентством Getty Images указала, что компания Stability AI незаконно скопировала и обработала около пяти миллиардов иллюстраций, взятых из интернета «без согласия их авторов»., защищённых авторским правом, для обучения своего ПО и как следствие – получения прибыли [9].
В конце мая 2023 г. вскрылась масштабная утечка данных пользователей чат-бота ChatGPT, которые потенциально могут скомпрометировать конфиденциальную и чувствительную информацию, которую пользователи доверяют этому продвинутому чат-боту. На биржах украденных данных в даркнете появились логи, содержащие более 100 000 учетных записей ChatGPT. Как сообщает The Hacker News и сингапурская компания Group-IB, занимающаяся кибербезопасностью, в публичный доступ попали учётные данные пользователей, заходивших в ChatGPT с момента его запуска в июне 2022 года по май 2023 года, когда появилась информация об утечке — а это значит, что она вполне может продолжаться. Наиболее пострадавшие от утечек страны — США, Франция, Марокко, Индонезия, Пакистан и Бразилия
Скомпрометированной могла оказаться и личная информация некоторых платных подписчиков сервиса, говорится в сообщении компании-создателя OpenAI: «Некоторые пользователи могли видеть имена и фамилии других активных пользователей, а также их адреса электронной почты, платежные адреса, последние четыре цифры (только) кредитных карт и их сроки действия:» [10].
Стоит отметить, что утечки персональных данных не являются эксклюзивными для ИИ, но являются острой проблемой для современного общества. В России Роскомнадзор зафиксировал 168 утечек персональных данных в 2023 году, в сеть попали более 300 млн записей о россиянах [11].
В библиотечно-информационной деятельности технологии искусственного интеллекта могут применяться в следующих целях:
- 1) Автоматизация обработки книжных фондов и документов: с помощью ИИ возможно автоматизировать процесс обработки библиотечных фондов, а также документов и статей, что позволит ускорить и упростить этот процесс.
- 2) Анализ данных и статистика. Искусственный интеллект может обрабатывать большие объемы данных и выявлять тенденции и особенности использования библиотечных ресурсов, что поможет библиотекам оптимизировать свою работу и улучшить качество предоставляемых услуг.
- 3) Разработка поисковых систем. Библиотеки могут использовать ИИ для разработки более эффективных и точных поисковых систем, которые основаны на обработке естественного языка и умении определять потребности и запросы пользователя.
- 4) Создание персонализированных подборок. Используя ИИ, библиотеки могут создавать персонализированные подборки книг и материалов для каждого пользователя, учитывая его интересы и предпочтения.
Искажение информации при рекомендации документов пользователю возможно: создание фейковых списков литературы, неправильное оформление библиографического описания, неправильная оценка интересов пользователя. Но в данном случае поиск информации проводится не в разнородных сайтах сети Интернет. Специфика библиотечной среды снижает возможность искажений благодаря существующим стандартам составления библиографического описания, системах классификации книг (УДК, ББК и т.п.), а также наличию однородной базы данных – электронного каталога.
Создание дипфейков на основе данной деятельности представляется автору маловероятным, поскольку необходимые для обработки ИИ данные не включают и не должны включать изображения пользователей, однако при использовании голосовых команд ИИ-системе будет нужен доступ к аудиозаписи речи пользователя, а значит, к этим данным может быть получен несанкционированный доступ.
Таким образом, наибольшая проблема при использовании ИИ-технологий в библиографии – возможные утечки персональных данных и искажение информации при передаче пользователю.
В Библиотеке Конгресса США в Вашингтоне создана «система оптического распознавания и классификации и распознавания визуального контента» «Газетный репортёр» (Newspaper navigator). За 19 дней c момента запуска «Газетным навигатором» было классифицировано 16 млн страниц. При помощи этого инструмента пользователи могут искать не только конкретную статью (в данном случае, в газете), но и отдельные элементы, находящиеся в статьях, такие, как иллюстрации, карты, рекламные объявления, и т. д. [12]
Цифровая платформа Роспатента предоставляет широкие возможности для поиска документов Государственного патентного фонда. Пользователи могут осуществлять многоязычный полнотекстовый и атрибутивный поиск на основных европейских языках, что значительно упрощает процесс нахождения необходимой информации. В том числе в системе задействованы возможности поиска при помощи ИИ похожих по тексту или изображению документов [13; 14].
Как можно видеть, есть примеры использования ИИ-систем в библиотечном деле как в Российской Федерации, так и за рубежом.
Рассмотрим российское законодательство, призванное обеспечить безопасность текущих пользователей ИИ-систем.
Национальная стратегия развития ИИ в России задаёт ориентиры в отношении разработки этических норм ИИ. Они также должны быть со временем закреплены в соответствующем документе — российском этическом кодексе ИИ.
Про этические понятия применительно к ИИ в стратегии говорится дважды. В первом случае речь идёт об основных принципах развития технологий ИИ, которые должны включать в себя принципы, так или иначе относящиеся к сфере этики: защиту прав и свобод человека, недопустимость дискриминации и ущерба для людей [15].
Стратегия национальной безопасности Российской Федерации описывает основные задачи для развития искусственного интеллекта. В Стратегии отмечены основные задачи развития искусственного интеллекта:
- - поддержка научных исследований;
- - разработка и развитие ПО, в котором используются технологии ИИ;
- - повышение доступности и качества данных;
- - повышение доступности аппаратного обеспечения;
- - повышение уровня обеспечения российского рынка технологий ИИ квалифицированными кадрами и повышение уровня информированности населения о возможных сферах использования технологий ИИ;
- - создание системы регулирования общественных отношений, возникающих в связи с развитием и использованием технологий ИИ [16].
Согласно «Концепции развития регулирования отношений в сфере технологий искусственного интеллекта и робототехники на период до 2024 года», развитие технологий ИИ и робототехники должно основываться на базовых этических нормах и предусматривать:
- - Цель обеспечения благополучия человека должна преобладать над иными целями разработки и применения систем ИИ и робототехники.
- - Запрет на причинение вреда человеку по инициативе систем ИИ и робототехники.
- - Подконтрольность человеку в той мере, в которой это возможно с учётом требуемой степени автономности систем ИИ и робототехники и иных обстоятельств.
- Проектируемое соответствие закону, в том числе — требованиям безопасности: применение систем ИИ не должно заведомо для разработчика приводить к нарушению правовых норм [17].
Для библиотек релевантна Статья 13 Федерального закона от 27.07.2006 N 152-ФЗ (ред. от 06.02.2023) «О персональных данных». В соответствии с ней «не допускается использование оскорбляющих чувства граждан или унижающих человеческое достоинство способов обозначения принадлежности персональных данных, содержащихся в государственных или муниципальных информационных системах персональных данных, конкретному субъекту персональных данных» [18].
Важным элементом правового поля является Федеральный закон от 24 апреля 2020 г. N 123-ФЗ «О проведении эксперимента по установлению специального регулирования в целях создания необходимых условий для разработки и внедрения технологий искусственного интеллекта в субъекте Российской Федерации - городе федерального значения Москве и внесении изменений в статьи 6 и 10 Федерального закона «О персональных данных» [2]. Он вводит экспериментальное правовое регулирование в Москве с целью создания условий для разработки и внедрения технологий искусственного интеллекта. Закон определяет цели, задачи и принципы этого регулирования, а также полномочия органов власти Москвы в рамках эксперимента. Срок проведения эксперимента составляет пять лет, после чего принятые нормативные акты теряют силу, за исключением некоторых исключений. Закон подчеркивает важность прозрачности эксперимента, защиты прав и свобод человека, а также недискриминационного доступа к результатам применения искусственного интеллекта.
Рассмотрим существующие практики по обеспечению безопасности данных.В России создан Альянс в сфере искусственного интеллекта, а на его основе – Кодекс этики в сфере ИИ и Комиссия по реализации Кодекса этики в сфере искусственного интеллекта [18]. В частности, при разработке ИИ-систем человек, его права и свободы должны рассматриваться как наивысшая ценность. Создателям ИИ указывается на необходимость соблюдения принципов информационной безопасности при создании ИИ-систем. Рекомендуется осуществлять добросовестное информирование пользователей об их взаимодействии с СИИ, когда это затрагивает вопросы прав человека и критических сфер его жизни, и обеспечивать возможность прекратить такое взаимодействие по желанию пользователя. Указано, что ответственность за последствия применения ИИ-систем всегда несёт человек. Стоит отметить, что Кодекс на данный момент носит рекомендательный характер.
Обезличивание ПД позволяет сохранить их исходную структуру и формат значений, а также интеграционную целостность. Это важно, так как в разных базах данных хранятся фрагменты информации об одном и том же клиенте. Унифицированный подход к обезличиванию позволяет находить и сохранять все связи.
Процессы управления персональными данными регулируются нормативно-правовыми актами и внутренними требованиями организации.
Ряд компаний самостоятельно разрабатывают инструменты для автоматического обезличивания, возможно и использование рыночных продуктов. Существуют и зарубежные, и отечественные решения, например, продукт Группы Т1 Сфера.Обезличивание данных [19].
В частности, такие программы позволяют:
- - обезличивать большие данные.
- - формировать «белые списки» значений полей для исключения из обезличивания.
- - формировать отчеты с результатами поиска, классификации и обезличивания данных.
- - искать и классифицировать в автоматическом режиме атрибуты с персональными данными на основе технологий машинного обучения, в т.ч. глубокого обучения.
Автоматизированный поиск с помощью модели машинного обучения предсказуемо выигрывает у ручного метода, базирующегося исключительно на правилах и точности. Полнота обнаружения ПД у продукта "Сфера". Обезличивание данных на сегодняшний день составляет 97,3%, а точность поиска достигает 95% [20].
В России существует несколько программ и решений для защиты персональных данных на серверах, среди которых можно выделить следующие:
КСЗИ «Панцирь+» – комплексная система защиты информации, которая может использоваться для защиты рабочих станций, серверов, терминальных серверов, средств виртуализации Hyper-V, включая защиту и гостевых машин, и гипервизора. Система позволяет в комплексе решать актуальные задачи защиты информации от внешних и от внутренних угроз, в том числе от угроз таргетированных атак [21].
Secret Net Studio – комплексное решение для защиты рабочих станций и серверов на уровне данных, приложений, сети, операционной системы и периферийного оборудования. Система обеспечивает защиту информации от несанкционированного доступа, усиленную аутентификацию пользователей, доверенную информационную среду и другие функции [22].
Эти программы разработаны с учетом требований российского законодательства и обеспечивают высокий уровень защиты персональных данных на серверах.
Искусственный интеллект (ИИ) играет значительную роль в библиотечно-информационной обработке, при этом этические вопросы, такие как безопасность данных, прозрачность системы и ответственность за использование ИИ, требуют тщательного обсуждения. В некоторых областях ИИ может превзойти человеческую компетентность, но при этом несет в себе риски, такие как передача искаженной/неправильной информации и глубоких подделок. Библиотеки могут применять ИИ в различных целях, например, для автоматизации обработки книжных фондов, анализа данных, разработки поисковых систем и создания персонализированных подборок. Самая большая проблема использования технологии ИИ в библиотечной деятельности — это возможная утечка персональных данных и искажение информации. Российское законодательство направлено на обеспечение безопасности систем искусственного интеллекта для пользователей. Существующие практики компаний, связанных с ИИ-разработкой, в т.ч. Альянса по искусственному интеллекту, программ защиты персональных данных на серверах, присели к созданию продуктов, позволяющих использовать искусственный интеллект этично, в том числе – предупреждая их о взаимодействии с ИИ-системами, повышая качество ответов, сгенерированных искусственным интеллектом, защищая данные пользователей.
Список источников
- 1. Тютюнник В. М. Интеллектуальные информационные системы: учебник: 2-изд., стереотип. // В. М. Тютюнник, А. Д. Дубровин. – Тамбов; Москва; Санкт-Петербург; Баку; Вена; Гамбург : Изд-во МИНЦ «Нобелистика», 2012. – 356 с.
- 2. Федеральный закон от 24 апреля 2020 г. N 123-ФЗ "О проведении эксперимента по установлению специального регулирования в целях создания необходимых условий для разработки и внедрения технологий искусственного интеллекта в субъекте Российской Федерации - городе федерального значения Москве и внесении изменений в статьи 6 и 10 Федерального закона «О персональных данных» // ГАРАНТ. [Электронный ресурс]. – URL: https://base.garant.ru/73945195/741609f9002bd54a24e5c49cb5af953b/ (дата обращения: 15.04.2024). – Текст : электронный.
- 3. Этика искусственного интеллекта и история искусственного интеллекта // Центр искусственного интеллекта НИУ ВШЭ. [Электронный ресурс]. – –URL: https://cs.hse.ru/aicenter/ethics (дата обращения: 15.04.2024).
- 4. Искусственный интеллект обыграл человека в игру го // Научная Россия. [Электронный ресурс]. – URL: https://scientificrussia.ru/articles/iskusstvennyj-intellekt-obygral-cheloveka-v-igru-go (дата обращения: 15.04.2024).
- 5. Бегин А. Статистика Яндекса в 2024 году: обновлено / А. Бегин // Инклиент. [Электронный ресурс]. –URL: https://inclient.ru/yandex-stats/#auditoria-andeksa-v-2023-godu (дата обращения: 08.08.2023).
- 6. Вашкевич А. Исследование: ChatGPT дает неправильный ответ на половину вопросов о программировании / А. Вашкевич // Инфостарт Журнал : Новости индустрии автоматизации учёта [Электронный ресурс]. – URL: https://infostart.ru/journal/news/tekhnologii/issledovanie-chatgpt-daet-nepravilnyy-otvet-na-polovinu-voprosov-o-programmirovanii_1917302/ (дата обращения: 22.04.2024).
- 7. Алгоритм «Палех»: как нейронные сети помогают поиску Яндекса // Блог Яндекса [Электронный ресурс]. – URL: https://yandex.ru/blog/company/algoritm-palekh-kak-neyronnye-seti-pomogayut-poisku-yandeksa (дата обращения: 03.11.2020).
- 8. Дипфейки и другие поддельные видео – как оставаться в безопасности // Лаборатория Касперского [Электронный ресурс]. – URL: https://www.kaspersky.ru/resource-center/threats/protect-yourself-from-deep-fake (дата обращения: 22.04.2024).
- 9. Vincent, J. Getty Images is suing the creators of AI art tool Stable Diffusion for scraping its content / J. Vincent // The Verge [Электронный ресурс]. – URL: https://www.theverge.com/2023/1/17/23558516/ai-art-copyright-stable-diffusion-getty-images-lawsuit (дата обращения: 22.04.2024).
- 10. Личные данные ряда пользователей ChatGPT утекли в сеть после сбоя в ИИ. // РИА Новости [Электронный ресурс]. – URL: https://ria.ru/20230325/chatgpt-1860549977.html (дата обращения: 19.04.2024).
- 11. В 2023 году в сеть утекло более 300 млн записей о россиянах //ТАСС [Электронный ресурс].– URL: https://tass.ru/obschestvo/19693845 (дата обращения: 22.04.2024).
- 12. Нещерет М.Ю. Цифровая библиография: библиотеки в поисках инновационных инструментов библиографической деятельности // Научные и технические библиотеки. – 2021. – № 7. – С. 33-50.
- 13. Заседание Коллегии Роспатента 14 декабря 2021 года / Youtube : [официальный канал Роспатент ФИПС] [Электронный ресурс].– URL: https://www.youtube.com/watch?v=ZeHfB4iJkrA (дата обращения: 17.12.2021).
- 14. Роспатент платформа. // Роспатент [Электронный ресурс]. – URL: https://searchplatform.rospatent.gov.ru/equal_docs (дата обращения: 08.08.2023).
- 15. Этика в национальной стратегии искусственного интеллекта / РАНХиГИС : Центр подготовки руководителей и команд цифровой трансформации [Электронный ресурс]. – URL: http://ethics.cdto.center/3_9 (дата обращения: 22.04.2024).
- 16. Указ Президента РФ от 10 октября 2019 г. № 490 О развитии искусственного интеллекта в Российской Федерации” // ГАРАНТ.РУ [Электронный ресурс]. – URL: http://www.garant.ru/products/ipo/prime/doc/72738946/ (дата обращения: 22.04.2024).
- 17. Правительство утвердило концепцию развития регулирования отношений в сфере технологий искусственного интеллекта и робототехники до 2024 года // Международная академия информатизация [Электронный ресурс]. – URL: https://iiaun.ru/news/national/2020/08/19/concept-in-the-field-of-technology (дата обращения: 22.04.2024).
- 18. Статья 13. Особенности обработки персональных данных в государственных или муниципальных информационных системах персональных данных : Федеральный закон от 27.07.2006 N 152-ФЗ (ред. от 06.02.2023) «О персональных данных» // КонсультантПлюс [Электронный ресурс]. – URL: https://www.consultant.ru/document/cons_doc_LAW_61801/be83e944acb538254bfc9bf073ece847ea189143/ (дата обращения: 19.04.2024).
- 19. Кодекс этики в сфере ИИ // Альянс в сфере искусственного интеллекта : Комиссия по реализации Кодекса этики в сфере искусственного интеллекта [Электронный ресурс]. – URL: https://ethics.a-ai.ru/ (дата обращения: 17.04.2024).
- 20. Сфера.Обезличивание данных // Платформа Сфера [Электронный ресурс]. – URL: https://www.sferaplatform.ru/obezlichivanie-dannykh (дата обращения: 19.04.2024).
- 21. КСЗИ Панцирь+ // Anti-malware.ru [Электронный ресурс]. – URL: https://www.anti-malware.ru/products/kszi-pancir-plus (дата обращения: 19.04.2024).
- 22. Secret Net Studio [Электронный ресурс]. – URL: https://dist.1c.ru/products/item/secret-net-studio/ (дата обращения: 19.04.2024). –
Сведения об авторе
Артамонова Евгения Викторовна - Федеральное государственное бюджетное учреждение «Федеральный институт промышленной собственности», ведущий библиограф; Федеральное государственное бюджетное образовательное учреждение высшего образования «Московский государственный институт культуры», аспирант
25.07.2024, 15 просмотров.