Руководитель проекта: чл.-корр. РАН Д.П.Зегджа.

Исследование выполнено за счет гранта Российского научного фонда № 23-11-20003, https://rscf.ru/project/23-11-20003/, грант Санкт-Петербургского научного фонда (Соглашение №23-11-20003 о предоставлении регионального гранта).

За первый год выполнения проекта проведен комплексный анализ предметной области и разработаны теоретические основы технологии построения защищенных систем обработки и хранения больших данных, заключающиеся в разработке элементов согласованного представления данных и информационных процессов на основе принципов архитектуры ANSI/SPARC и консистентного похода к обеспечению защищенности данных.
За отчетный период систематизированы уязвимости систем управления данными и применяемые в них методы защиты, включая как относящиеся к традиционным СУБД, так и новые, возникшие в результате развития технологии больших данных. Выделены основные классы методов защиты и сформулирована специфика систем обработки и хранения больших данных с точки зрения защиты информации и консистентного подхода. Предложены уровни рассмотрения систем обработки и хранения больших данных, определена специфика каждого уровня и его роль в общей задаче обеспечения информационной безопасности. Сформулированы особенности технологии полихранилищ как ключевой новой технологии инженерии больших данных, выделены ее характерные уязвимости, связанные с межмодельным преобразованием данных и распределенной обработкой.
Проведен анализ классических моделей данных, на которых основаны современные системы управления данными. Выделены математические методы, на которых базируются известные модели данных, разработана классификация моделей данных с учетом математического базиса моделей, выделен общий для всех моделей теоретико-множественный аппарат. Разработана новая концептуальная модель данных на основе агрегатного подхода и математического аппарата теории множеств, включающая формализованные структуры данных, связи между ними, ограничения и операции.
Разработаны методики взаимного отображения разработанной модели данных с существующими реляционной, документо-ориентированной, «ключ-значение», «семейство столбцов» и графовой моделью. Методики включают включающая взаимное отображение структур данных, связей между данными, ограничений и операций, а также общий порядок проведения отображения моделей данных в прямом и обратном направлении.
Разработана модель информационного процесса в системах обработки и хранения больших данных, в соответствии с архитектурой ANSI/SPARC на основе двухуровневого представления и моделирования каждого уровня при помощи направленных графов. Разработаны правила взаимного отображения между разноуровневыми операциями над данными в модели процесса, включая отображение вершин моделирующих графов, отображение ребер моделирующих графов и правила соответствия между ними.
Полученные на данном этапе результаты проекта, связанные с исследованием технологий больших данных и систем обработки и хранения больших данных, включая область моделирования систем больших данных для решения задач обеспечения их безопасности, а также разработанные в рамках проекта модели данных и информационных процессов не имеют аналогов. Новизна результатов проекта заключается в преодолении противоречий между гетерогенными компонентами с различной грануляцией данных в условиях необходимости поддержки существующих специализированных инструментов структуризации и преобразования информации. Использование принципов консистентного подхода, подходов и методов моделирования данных и процессов, математических методов управления данными, теории баз данных и технологических принципов больших данных, теории и практики системного анализа и теории оптимизации в решении задач обеспечения безопасности систем обработки и хранения больших данных от кибербугроз определяет междисциплинарный характер исследования.
Результаты проекта за отчетный период отражены в 10 публикациях по теме исследования, в том числе 4 – в ведущих рецензируемых российских и зарубежных научных журналах, индексируемых в базах RSCI, WoS, Scopus, 1 – в научном журнале, индексируемом в РИНЦ и Перечне ВАК, 1- монография, 4 тезисы научных и научно-практических конференций. Результаты проекта также представлены на первой в России профессиональной конференции с фокусом на защите данных на всём их жизненном цикле «Защита данных: Сохранить всё» (Москва, Цифровое деловое пространство, https://ib-bank.ru/datasec/, трек «Новые технологии по защите данных»).
Результаты проекта предназначены для обеспечения защищенности гетерогенных систем обработки и хранения больших данных и полихранилищ в условиях действия киберугроз. Применение разработанной концептуальной модели данных на основе агрегатного подхода позволяет единым образом представить данные различной структуризации в системах больших данных, и, как следствие, проводить согласованный аудит больших данных и реализовывать консистентные меры защиты в рамках систем больших данных в целом. Применение результатов проекта делает возможным разработку оптимальной политики информационной безопасности, проведение анализа защищенности и повышение безопасности систем обработки и хранения больших данных в различных отраслях. Эффект от применения создаваемой технологии заключается в обеспечении разграничения и контроля доступа в системах больших данных на уровне фрагментов данных и потоков данных, реализации принципа минимизации доверия в распределенной гетерогенной среде обработки больших массивов информации, аудита и оценки защищенности в инженерии больших данных. Создаваемые решения применимы для различных отраслей экономики, включая государственные информационные системы, промышленные информационные системы, интеллектуальные дата-ориентированные системы принятия решений.