Электронный научный журнал

Информационные технологии в культуре и образовании. ЖЕТЕВ А.Р. ИНТЕГРАЦИЯ РАЗНОФОРМАТНЫХ ДАННЫХ В ЭЛЕКТРОННОЙ ИНФОРМАЦИОННО-ОБРАЗОВАТЕЛЬНОЙ СРЕДЕ ВУЗА

Введение

Цифровая трансформация высшего образования привела к тому, что современный университет представляет собой сложнейшую экосистему, в которой переплетены десятки, а то и сотни программных систем, сервисов и цифровых ресурсов. Это и системы управления обучением (LMS) типа Moodle или Blackboard, и административные автоматизированные информационные системы вроде «1С:Университет», и электронные библиотечные системы, и сервисы видеоконференцсвязи, и многое другое. Вся эта совокупность образует электронную информационно-образовательную среду (ЭИОС), которая, по замыслу разработчиков и управленцев, должна обеспечивать поддержку всех аспектов учебного, научного и административного процессов [9; 10]. Однако на практике наблюдается ситуация, когда данные, порождаемые в рамках ЭИОС, оказываются максимально разнородными – гетерогенными – как по формату хранения, так и по семантике. И здесь возникает главное противоречие, с одной стороны, имеется огромное количество информации о студентах, преподавателях, их активности, успеваемости, а с другой – эта информация разрознена, «размазана» по разным системам, которые зачастую «не разговаривают» друг с другом [11].

На начальном этапе работы над темой наиболее существенным обстоятельством представлялось то, насколько разными могут быть представления об одной и той же сущности в различных системах. Например, студент в приёмной комиссии – это один набор полей, в LMS – совсем другой идентификатор и роль, в библиотеке – третий. Между тем для прогнозирования вероятности отчисления студента или предложения ему индивидуальной траектории обучения необходимо собрать воедино данные из всех этих источников. Однако каким образом это сделать при разных форматах? Если в одной системе оценки хранятся в виде чисел от 2 до 5, в другой – как буквенные обозначения, а в третьей – как текстовые комментарии. Это не просто техническая задача соединения баз данных, это, скорее, семантическая и организационная головоломка [4; 14; 17].

В литературе данная проблема часто обозначается как «информационные острова». Исследования показывают, что похожие задачи стоят и перед промышленными предприятиями, и перед медицинскими организациями, однако в образовании они приобретают свою специфику. Здесь мы имеем дело не просто с данными, а с данными, которые должны поддерживать сложнейший педагогический процесс, формировать у студентов компетенции, позволять преподавателям видеть реальную картину вовлеченности. Если эту картину не удаётся собрать, то вся цифровая трансформация рискует остаться лишь имитацией активности, а не реальным улучшением качества образования [3; 16].

Целью исследования стала разработка теоретически обоснованных моделей и методов, которые позволили бы эффективно интегрировать разноформатные данные в ЭИОС, создав условия для их последующего интеллектуального анализа.

Гетерогенность данных в ЭИОС

Говоря о гетерогенности данных в ЭИОС, следует понимать, что это явление многомерное. Данные могут различаться по формату, по структуре, по семантике, по источнику происхождения, по временному характеру генерации. Каждый из этих аспектов создаёт свои сложности. Самый очевидный критерий классификации – это степень структурированности [5; 8].

Структурированные данные – это, как правило, то, что лежит в реляционных базах данных. У них жёсткая схема, они легко поддаются SQL-запросам, их удобно использовать для отчётности и административного управления. В вузе это списки студентов, учебные группы, результаты ЕГЭ, оценки в журнале, расписание. Но у этих данных есть один существенный недостаток: они не способны передать нюансы. Они сообщают, что студент получил «отлично», но не рассказывают, как он к этому пришёл, сколько времени потратил на подготовку, с какими трудностями столкнулся.

Частично структурированные данные – это нечто среднее. У них есть некоторая базовая структура, но наполнение может быть произвольным. Типичный пример – JSON-файлы, которыми обмениваются LMS и библиотечная система, или логи веб-серверов, где фиксируются IP-адреса, время запроса и параметры действий.

Наиболее сложный и наиболее объёмный сегмент – это неструктурированные данные, которые наиболее интересны с точки зрения педагогической аналитики. Это и записи лекций, и тексты рефератов, и сообщения на форумах, и посты в чатах, и презентации проектов. Эти данные не имеют предопределённой модели, их нельзя обработать стандартным SQL-запросом. Здесь нужны другие методы – обработка естественного языка, компьютерное зрение, распознавание речи [12].

В этой среде возникает понятие, которое стало в данной работе ключевым – цифровой след студента. Это уникальный набор данных о действиях студента в электронной среде. Он бывает пассивным и активным. Сочетание этих двух компонентов позволяет сформировать довольно объективную проекцию обучения. Можно увидеть не только результат, но и процесс – сколько времени студент изучал теорию перед выполнением практического задания, как часто обращался к дополнительным ресурсам, насколько активно участвовал в обсуждениях [1].

Сложность, однако, в том, что этот цифровой след «размазан» по разным системам. В Moodle мы видим баллы и результаты тестов, в Discord или Trello – коммуникацию и вклад в командную работу, в библиотечной системе – какие книги студент читал, в системе видеоконференций – записи вебинаров. Чтобы собрать всё это воедино, нужно решить задачу интеграции. И здесь мы сталкиваемся с архитектурными особенностями ЭИОС, которые, как представляется, часто недооценивают.

Архитектурные проблемы интеграции

Если рассматривать типовую архитектуру ЭИОС, то она, как правило, строится по многоуровневому принципу. Есть пользовательские сервисы, есть функциональные подсистемы, есть интеграционный слой, есть слой хранения данных и инфраструктура. Интеграционный слой – это то самое слабое место, которое определяет, насколько эффективно вся эта махина будет работать [2].

Проблема в том, что исторически системы внедрялись поэтапно, под разные нужды, разными подрядчиками, в разное время. В результате мы имеем ситуацию, когда одни и те же понятия в разных системах описываются по-разному. Один и тот же студент в приёмной комиссии имеет номер заявления, в LMS – логин и роль «Student», в библиотеке – номер читательского билета, в системе общежития – уникальный ID. Сопоставить эти записи без единого ключа – задача нетривиальная.

К этому добавляется разнообразие форматов и протоколов передачи данных. Административная система «1С:Университет» может общаться по COM/DDE, современная LMS – по REST API, а устаревшая система кадрового учёта – экспортировать только плоские CSV-файлы. Организовать диалог между ними без множества адаптеров и трансляторов практически невозможно.

Поле «статус» для дисциплины в учебном плане может означать «обязательная/по выбору», а в LMS – «активна/ в архиве». Оценка «удовлетворительно» может храниться как число «3», как буква «C» или как текст. Все эти данные при этом дублируются, что неизбежно ведёт к рассогласованию при обновлении [15]. Запись о зачислении студента может появиться в АИС 1 августа, доступ к LMS он получит 1 сентября, а в библиотечную систему его данные импортируют только 15 сентября. В период между этими датами целостная информация о студенте просто отсутствует.

Всё это приводит к тому, что преподаватели и студенты вынуждены становиться конечными «интеграторами» данных. Преподаватель, чтобы подготовить лекцию, должен скачать статистику из LMS, найти статью в ЭБС, взять схему из репозитория и затем вручную интегрировать это в презентацию. Студент, чтобы сдать один предмет, должен загрузить доклад в LMS, пройти тест в отдельном приложении, а затем прислать видео отзыв по ссылке в облако. Это создаёт когнитивную перегрузку и снижает вовлечённость. По сути, мы имеем дело с «цифровым лабиринтом», в котором легко потеряться [6].

Модели интеграции и унификации данных

Для того чтобы преодолеть эту разрозненность, предложено несколько взаимосвязанных моделей. В основе подхода лежит принцип виртуальной интеграции. То есть мы не пытаемся физически переместить все данные в одно хранилище. Вместо этого создаётся единая точка доступа и слой виртуализации, который обеспечивает унифицированное представление данных, остающихся в исходных системах. Формально это выглядит следующим образом. Пусть имеется множество источников данных S = {s₁, s₂, …, s_n}. Каждый источник обладает своей схемой и своим интерфейсом. Вводится схема, служащая унифицированным представлением. Для каждого источника определяется функция трансформации, преобразующая данные из нативного формата в глобальное представление, и обратная функция, преобразующая запросы к глобальной схеме в запросы к конкретным источникам. На практике это означает, что, когда пользователь отправляет запрос, система сначала транслирует его в глобальное представление, затем декомпозирует на подзапросы к отдельным источникам, трансформирует эти подзапросы в форматы соответствующих источников, параллельно выполняет их, а потом интегрирует результаты. Такая архитектура позволяет сохранить «данные на месте» и при этом обеспечить единое представление.

Ключевым элементом этой модели является реестр схем и отображений. По сути, это база знаний, в которой хранится информация о том, как элементы одной схемы соотносятся с элементами другой.

Параллельно с моделью интеграции разработана модель информационных ресурсов, описывающая всё многообразие образовательных данных. Здесь важно было выделить не только типы данных, но и их взаимосвязи. Информационные ресурсы представлены как кортеж, где присутствуют сами информационные объекты; метаданные, описывающие эти объекты; временные характеристики; пространственно-структурные характеристики; права доступа. Такой подход позволяет не просто хранить данные, но и управлять ими с учётом их жизненного цикла и политик использования.

Модели взаимодействия пользователей с данными

Интеграция данных – не самоцель. Главное – чтобы эти данные работали на участников образовательного процесса. Поэтому разработаны формальные модели взаимодействия преподавателя и студента с информационными ресурсами.

Для преподавателя выделено несколько уровней информационных потребностей. Базовые профессиональные потребности – это то, что нужно для педагогической деятельности: содержание дисциплин, научные результаты, а также методики обучения. Операционные потребности – это сведения о способах и методах работы с информационными ресурсами. И рефлексивные потребности – это информация о результатах и эффективности собственной деятельности.

Процесс выбора преподавателем источников информации описан с помощью теории полезности. Каждый источник характеризуется набором атрибутов, например качество информации, доступность, стоимость доступа, время получения. Полезность источника определяется взвешенной суммой этих атрибутов, а вероятность выбора – логистической функцией от полезности. Это упрощение позволяет формализовать интуитивно понятные вещи, например преподаватель с большей вероятностью обратится к источнику, который быстр, доступен и содержит качественную информацию.

Что касается студента, здесь выбран иной путь. Необходимо было не только описать, как студент ищет информацию, но и смоделировать, как его цифровой след преобразуется в оценку успешности обучения. Студент рассмотрен как многопараметрический объект, состояние которого определяется совокупностью независимых признаков. Использована многослойная нейронная сеть для аппроксимации отображения, где присутствует вектор параметров цифрового следа, и вектор параметров, описывающих степень успешности обучения.

Нейронная сеть – это универсальный аппроксиматор, который позволяет учесть нелинейные взаимосвязи между признаками. В образовательном процессе таких нелинейностей существует множество, например, не всегда высокая активность на форуме ведёт к высокой успеваемости, а низкая посещаемость может компенсироваться интенсивной самостоятельной работой. Нейросетевая модель способна уловить такие закономерности, которые сложно прописать в явном виде.

Онтологическое моделирование для семантической совместимости

Отдельный блок исследования посвящён онтологическому моделированию. По мере углубления становится очевидно, что это один из ключевых инструментов для преодоления семантической гетерогенности.

Онтология в данном контексте – это формальная спецификация понятий предметной области и связей между ними. Формально её можно представить как в виде множества O = {X, R, F, A_x, R_s}, где X – множество понятий, R – связи между ними, F – функции интерпретации, A_x – аксиомы, R_s – ограничения. В контексте ЭИОС онтология позволяет описать, что такое «студент», «дисциплина», «компетенция», «оценка», и как эти сущности связаны между собой.

При построении онтологии образовательной среды создаётся общий язык, на котором могут «разговаривать» разные подсистемы. Например, в LMS есть понятие «курс», в учебном плане – «дисциплина», в библиотечной системе – «предмет». Онтология позволяет установить, что все эти понятия относятся к одной сущности, и задать правила их сопоставления. Кроме того, онтологии позволяют перейти от поиска, по ключевым словам, к семантическому поиску. Когда студент ищет материалы по «квантовым вычислениям», система, имеющая онтологию, «понимает», что сюда относятся и «кубиты», и «квантовая запутанность», и «квантовая телепортация». Это существенно повышает релевантность результатов. По данным некоторых исследований, точность поиска на основе онтологий может существенно повышаться [7; 13].

Предложена архитектура онтологической модели ЭИОС. Она включает модуль представления онтологии, модуль анализа, модуль ранжирования, модуль расчётов и модуль подготовки данных для отображения результатов. Такая модульность позволяет гибко настраивать систему под разные задачи и предметные области.

Методы сбора и анализа данных

В самом общем виде структура связей между подсистемами сбора и анализа выглядит так: имеется вектор характеристик субъекта образовательного процесса, вектор факторов дестабилизирующих воздействий, оценка характеристик субъекта и параметризованное описание распознанного состояния. Задача системы – минимизировать ошибку распознавания.

Проанализированы три типа алгоритмов сбора данных: постоянный детерминированный циклический опрос, адаптивный опрос и пакетная обработка. Для ЭИОС наиболее перспективным представляется адаптивный опрос. В этом случае система не опрашивает все источники подряд, а реагирует на события: появление студента в сети, сдачу экзамена, изменение статуса. Это позволяет снизить нагрузку на каналы связи и обрабатывать данные в более реальном масштабе времени.

Для оценки достоверности процедуры адаптации предложена математическая формализация, учитывающая не только ошибки распознавания состояний субъекта, но и состояния самой инфокоммуникационной среды. Полная вероятность правильного распознавания учитывает, что и система сбора, и система анализа могут находиться в разных состояниях работоспособности. Это важно, поскольку на практике сбои случаются, и необходимо уметь оценивать их влияние на конечный результат.

Центральное место в предлагаемой методологии занимают нейросетевые модели. Предложено использование двух архитектур, классической многослойной сети BProp для работы с малочисленными выборками и свёрточной нейронной сети для работы с большими объёмами данных. Для свёрточной нейронной сети адаптирован подход, при котором входные данные представляются в виде многомерного тензора, а свёрточные слои позволяют выделять локальные признаки. В качестве функции активации использована ReLU, что ускоряет процесс обучения. На выходе – softmax, дающий распределение вероятностей принадлежности к тому или иному классу состояний.

Процесс обучения сводится к оптимизации параметров и гиперпараметров сети. Рассмотрены различные алгоритмы оптимизации – от классического градиентного спуска до более продвинутых методов. В работе приведены формулы для коррекции весов на разных слоях сети, включая вычисление локальных ошибок для скрытых слоёв.

Заключение

Интеграция гетерогенных данных в ЭИОС вуза – это не только техническая, а комплексная, междисциплинарная задача. Предпринята попытка подойти к её решению системно, разработав теоретические модели, охватывающие разные аспекты: от классификации данных и архитектуры систем до моделей взаимодействия пользователей и методов интеллектуального анализа.

Предложена иерархическая классификация гетерогенных данных ЭИОС, позволяющая системно подходить к выбору методов их обработки; разработана трёхуровневая модель интеграции данных, обеспечивающая семантическую совместимость через введение глобальной канонической схемы и реестра отображений; построены формализованные модели взаимодействия преподавателя и студента с информационными ресурсами, которые могут служить основой для персонализации образовательных сервисов; предложена онтологическая модель ЭИОС, позволяющая перейти от синтаксической к семантической интеграции данных; а также разработана методология адаптивного управления сбором и анализом данных, базирующаяся на нейросетевых классификаторах.

Список источники

1. Баранова Е.В., Швецов Г.В. Методы и инструменты для анализа цифрового следа студента при освоении образовательного маршрута // Перспективы науки и образования. — 2021. — № 2(50). — С. 415–430.
2. Голанова А.В., Голикова Е.И. Формирование электронной информационно-образовательной среды школы в современных условиях // Вестник Череповецкого государственного университета . — 2021. — № 1(100). — С. 165–179.
3. Король А.Д., Воротницкий Ю.И. Цифровая трансформация образования и вызовы XXI века // Высшее образование в России . — 2022. — Т. 31, № 6. — С. 48–61.
4. Лаптев К.А., Сулейманов Р.С., Лесин С.М., Куприянов Р.Б. Аналитика обучения как способ повышения эффективности системы управления образованием // Вестник Московского университета. Серия 20. Педагогическое образование. — 2020. — № 2. — С. 16–33.
5. Морозова И.В. Классификация информационных электронных образовательных ресурсов // Вестник Марийского государственного университета . — 2012. — № 9. — С. 46–47.
6. Паудяль Н.Ю., Флиндаш Л.В. Когнитивные аспекты образования в условиях массовой информационной культуры // Образование и право . — 2024. — № 5. — С. 462–465.
7. Плешкова А.Ю. Онтологии в управлении образовательным процессом // Онтология проектирования . — 2022. — Т. 12, № 4(46). — С. 506–517.
8. Полтавцева М.А., Калинин М.О. Анализ системы контроля доступа в гетерогенных системах больших данных // Труды Института системного программирования РАН . — 2023. — Т. 35, № 4. — С. 93–108. — DOI: 10.15514/ISPRAS-2023-35(4)-4.
9. Роберт И.В. Перспективные фундаментальные и прикладные научные исследования в области развития образования в условиях цифровой трансформации // Россия: тенденции и перспективы развития . — 2023. — № 18‑2. — С. 427–433.
10. Соловьева Р.А., Коврова С.Е. Электронная информационно-образовательная среда регионального вуза как фактор повышения качества обучения // Высшее образование сегодня . — 2018. — № 12. — С. 25–30.
11. Тарамова М.С., Гаматаева С.Х., Цечоева А.М. Интеграция цифровых технологий в образовательный процесс: опыт и проблемы педагогов // Проблемы современного педагогического образования . — 2024. — № 85‑2. — С. 339–342.
12. Томашевская В.С., Яковлев Д.А. Способы обработки неструктурированных данных // Russian Technological Journal . — 2021. — Т. 9, № 1. — С. 7–17. — DOI: 10.32362/2500-316X-2021-9-1-7-17.
13. Тютюнник В.М. Проблемы информационного поиска в сетевых ресурсах / В. М. Тютюнник, М. М. С. Альгузо, А. М. Поляков, А. Р. Жетев // Наука и Образование . — 2024. — Т. 7, № 2.
14. Тютюнник В. М., Старостин О. А. Оптимизация комплекса технических средств для информационного обеспечения научной деятельности вузов культуры: схема исследования // Информационные процессы, системы и технологии . — 2023. — Т. 4, № 4. — С. 4–26.
15. Чуприна С.И., Гимашева К.В. Методы и средства виртуальной семантической интеграции данных из распределенных разнородных источников // Вестник Пермского университета. Серия: Математика. Механика. Информатика . — 2025. — № 1(68). — С. 145–159.
16. Baker R., Siemens G. Educational Data Mining and Learning Analytics // The Cambridge Handbook of the Learning Sciences / ed. R.K. Sawyer. Cambridge: Cambridge University Press — P. 253–272.
17. Kleimola R., Leppisaari I. Learning analytics to develop future competences in higher education: a case study // International Journal of Educational Technology in Higher Education . — 2022. — Vol. 19. — Article 17.

Сведения об авторе

Жетев Андрей Романович - аспирант кафедры библиотечно-информационных наук Московского государственного института культуры

К оглавлению выпуска

information environment, Аналитика

28.04.2026, 32 просмотра.

© 2013-2019 Электронный научный журнал "Культура: теория и практика"
Свидетельство о регистрации ЭЛ № ФС 77 - 61646 от 07.05.2015
выдано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор)
Учредитель и издатель: Московский государственный институт культуры
141406, Московская область, г. Химки, ул. Библиотечная, д. 7
Журнал доступен по адресу theoryofculture.ru