Руководитель проекта: чл.-корр. РАН Д.П.Зегджа.
Исследование выполнено за счет гранта Российского научного фонда №
23-11-20003, https://rscf.ru/project/23-11-20003/, грант
Санкт-Петербургского научного фонда (Соглашение №23-11-20003 о
предоставлении регионального гранта).
2023 год:
За первый год выполнения проекта проведен комплексный анализ предметной области и разработаны теоретические основы технологии построения защищенных систем обработки и хранения больших данных, заключающиеся в разработке элементов согласованного представления данных и информационных процессов на основе принципов архитектуры ANSI/SPARC и консистентного похода к обеспечению защищенности данных.
За отчетный период систематизированы уязвимости систем управления данными и применяемые в них методы защиты, включая как относящиеся к традиционным СУБД, так и новые, возникшие в результате развития технологии больших данных. Выделены основные классы методов защиты и сформулирована специфика систем обработки и хранения больших данных с точки зрения защиты информации и консистентного подхода. Предложены уровни рассмотрения систем обработки и
хранения больших данных, определена специфика каждого уровня и его роль в общей задаче обеспечения информационной безопасности. Сформулированы особенности технологии полихранилищ как ключевой новой технологии инженерии больших данных, выделены ее характерные уязвимости, связанные с межмодельным преобразованием данных и распределенной обработкой.
Проведен анализ классических моделей данных, на которых основаны современные системы управления данными. Выделены математические методы, на которых базируются известные модели данных, разработана классификация моделей данных с учетом математического базиса моделей, выделен общий для всех моделей теоретико-множественный аппарат. Разработана новая концептуальная модель данных на основе агрегатного подхода и математического аппарата теории множеств, включающая формализованные структуры данных, связи между ними,
ограничения и операции.
Разработаны методики взаимного отображения разработанной модели данных с существующими реляционной, документо-ориентированной, «ключ-значение», «семейство столбцов» и графовой моделью. Методики включают включающая взаимное отображение структур данных, связей между данными, ограничений и операций, а также общий порядок проведения отображения моделей данных в прямом и обратном направлении.
Разработана модель информационного процесса в системах обработки и хранения больших данных, в соответствии с архитектурой ANSI/SPARC на основе двухуровневого представления и моделирования каждого уровня при помощи направленных графов. Разработаны правила взаимного отображения между разноуровневыми операциями над данными в модели процесса, включая отображение вершин моделирующих графов, отображение ребер моделирующих графов и правила соответствия между ними.
Полученные на данном этапе результаты проекта, связанные с исследованием технологий больших данных и систем обработки и хранения больших данных, включая область моделирования систем больших данных для решения задач обеспечения их безопасности, а также разработанные в рамках проекта модели данных и информационных процессов не имеют аналогов. Новизна результатов проекта заключается в преодолении противоречий между гетерогенными компонентами с различной грануляцией данных в условиях необходимости поддержки существующих специализированных инструментов структуризации и преобразования информации. Использование принципов консистентного подхода,
подходов и методов моделирования данных и процессов, математических методов управления данными, теории баз данных и технологических принципов больших данных, теории и практики системного анализа и теории оптимизации в решении задач обеспечения безопасности систем обработки и хранения больших данных от кибербугроз определяет междисциплинарный характер исследования.
Результаты проекта за отчетный период отражены в 10 публикациях по теме исследования, в том числе 4 – в ведущих рецензируемых российских и зарубежных научных журналах, индексируемых в базах RSCI, WoS, Scopus, 1 – в научном журнале, индексируемом в РИНЦ и Перечне ВАК, 1- монография, 4 тезисы научных и научно-практических конференций. Результаты проекта также представлены на первой в России профессиональной конференции с фокусом на защите данных на всём их жизненном цикле «Защита данных: Сохранить всё»
(Москва, Цифровое деловое пространство, https://ib-bank.ru/datasec/, трек «Новые технологии по защите данных»).
2024 год:
В ходе второго года выполнения проекта развиты достижения первого этапа и получены следующие результаты.
Систематизированы методы контроля доступа применительно к системам обработки и хранения больших данных, включая методы на основе атрибутивного контроля доступа, построена классификация методов. Проанализированы методы контроля
доступа в полихранилищах и инструментах обработки больших данных. Разработан метод атрибутивного контроля доступа для построения верхнеуровневой модели контроля доступа и разработки унифицированной политики безопасности для реализации в системах обработки и хранения больших данных.
Разработан метод анализа политик безопасности отдельных инструментов обработки данных и реализованных в них моделей контроля доступа в контексте общей системы обработки и хранения больших данных. Проведена экспериментальная оценка предложенного метода. Формализована задача поиска оптимальной политики безопасности в системах обработки и хранения больших данных как задача дискретной многокритериальной оптимизации в условиях заданных ограничений.
Разработан метод формирования унифицированной политики безопасности в системе обработки и хранения больших данных на базе атрибутивного подхода.
Для этого использованы построенные в ходе проекта концептуальная модель данных, модель концептуального уровня процессов обработки данных и метод поиска оптимальной политики безопасности в системах обработки и хранения больших данных.
Разработан метод отображения унифицированной политики безопасности на базе атрибутивного подхода на инструменты разграничения доступа компонентов систем обработки и хранения больших данных путем установления взаимного соответствия между элементами унифицированной политики безопасности верхнего уровня и политиками безопасности, реализованными в рамках инструментов разграничения доступа компонентов систем обработки и хранения больших данных и отображения политики безопасности на базе атрибутивного подхода на иные модели безопасности инструментов разграничения доступа компонентов систем обработки и хранения больших данных.
Разработана систематизация типовых решений архитектур обеспечения безопасности для систем обработки и хранения больших данных. Выполнен сравнительный анализ путей реализации принципа минимизации доверия и уменьшения поверхности атаки со стороны инсайдера в системах обработки и хранения больших данных. Построена архитектура, реализующая принцип минимизации доверия и уменьшения поверхности атаки.
Разработан метод динамической классификации узлов-обработчиков данных на основе принципа минимизации доверия. Предложены правила динамической авторизации узлов-обработчиков, в т.ч. при процедурах поддержки доступности данных.
Во втором году результаты проведенного исследования опубликованы в 12 научных работах, в том числе 6 – в изданиях, индексируемых в базе Scopus.
Результаты также представлены на 8 российских и международных научно-практических конференциях. Зарегистрировано 2 РИД.
Результаты проекта предназначены для обеспечения защищенности гетерогенных систем обработки и хранения больших данных и полихранилищ в условиях действия киберугроз. Применение разработанной концептуальной модели данных на основе агрегатного подхода позволяет единым образом представить данные различной структуризации в системах больших данных, и, как следствие, проводить согласованный аудит больших данных и реализовывать консистентные меры защиты в рамках систем больших данных в целом. Применение результатов проекта делает возможным разработку оптимальной политики информационной безопасности, проведение анализа защищенности и повышение безопасности систем обработки и хранения больших данных в различных отраслях. Эффект от применения создаваемой технологии заключается в обеспечении разграничения и контроля доступа в системах больших данных на уровне фрагментов данных и потоков данных, реализации принципа минимизации доверия в распределенной гетерогенной среде обработки больших массивов информации, аудита и оценки защищенности в инженерии больших данных. Создаваемые решения применимы для различных отраслей экономики, включая государственные информационные системы, промышленные информационные системы, интеллектуальные дата-ориентированные системы принятия решений.