Руководитель проекта: чл.-корр. РАН Д.П.Зегджа.
Исследование выполнено за счет гранта Российского научного фонда №
23-11-20003, https://rscf.ru/project/23-11-20003/, грант
Санкт-Петербургского научного фонда (Соглашение №23-11-20003 о
предоставлении регионального гранта).
2023 год:
За первый год выполнения проекта проведен комплексный анализ предметной области и разработаны теоретические основы технологии построения защищенных систем обработки и хранения больших данных, заключающиеся в разработке элементов согласованного представления данных и информационных процессов на основе принципов архитектуры ANSI/SPARC и консистентного похода к обеспечению защищенности данных.
За отчетный период систематизированы уязвимости систем управления данными и применяемые в них методы защиты, включая как относящиеся к традиционным СУБД, так и новые, возникшие в результате развития технологии больших данных. Выделены основные классы методов защиты и сформулирована специфика систем обработки и хранения больших данных с точки зрения защиты информации и консистентного подхода. Предложены уровни рассмотрения систем обработки и
хранения больших данных, определена специфика каждого уровня и его роль в общей задаче обеспечения информационной безопасности. Сформулированы особенности технологии полихранилищ как ключевой новой технологии инженерии больших данных, выделены ее характерные уязвимости, связанные с межмодельным преобразованием данных и распределенной обработкой.
Проведен анализ классических моделей данных, на которых основаны современные системы управления данными. Выделены математические методы, на которых базируются известные модели данных, разработана классификация моделей данных с учетом математического базиса моделей, выделен общий для всех моделей теоретико-множественный аппарат. Разработана новая концептуальная модель данных на основе агрегатного подхода и математического аппарата теории множеств, включающая формализованные структуры данных, связи между ними,
ограничения и операции.
Разработаны методики взаимного отображения разработанной модели данных с существующими реляционной, документо-ориентированной, «ключ-значение», «семейство столбцов» и графовой моделью. Методики включают включающая взаимное отображение структур данных, связей между данными, ограничений и операций, а также общий порядок проведения отображения моделей данных в прямом и обратном направлении.
Разработана модель информационного процесса в системах обработки и хранения больших данных, в соответствии с архитектурой ANSI/SPARC на основе двухуровневого представления и моделирования каждого уровня при помощи направленных графов. Разработаны правила взаимного отображения между разноуровневыми операциями над данными в модели процесса, включая отображение вершин моделирующих графов, отображение ребер моделирующих графов и правила соответствия между ними.
Полученные на данном этапе результаты проекта, связанные с исследованием технологий больших данных и систем обработки и хранения больших данных, включая область моделирования систем больших данных для решения задач обеспечения их безопасности, а также разработанные в рамках проекта модели данных и информационных процессов не имеют аналогов. Новизна результатов проекта заключается в преодолении противоречий между гетерогенными компонентами с различной грануляцией данных в условиях необходимости поддержки существующих специализированных инструментов структуризации и преобразования информации. Использование принципов консистентного подхода,
подходов и методов моделирования данных и процессов, математических методов управления данными, теории баз данных и технологических принципов больших данных, теории и практики системного анализа и теории оптимизации в решении задач обеспечения безопасности систем обработки и хранения больших данных от кибербугроз определяет междисциплинарный характер исследования.
Результаты проекта за отчетный период отражены в 10 публикациях по теме исследования, в том числе 4 – в ведущих рецензируемых российских и зарубежных научных журналах, индексируемых в базах RSCI, WoS, Scopus, 1 – в научном журнале, индексируемом в РИНЦ и Перечне ВАК, 1- монография, 4 тезисы научных и научно-практических конференций. Результаты проекта также представлены на первой в России профессиональной конференции с фокусом на защите данных на всём их жизненном цикле «Защита данных: Сохранить всё»
(Москва, Цифровое деловое пространство, https://ib-bank.ru/datasec/, трек «Новые технологии по защите данных»).
2024 год:
В ходе второго года выполнения проекта развиты достижения первого этапа и получены следующие результаты.
Систематизированы методы контроля доступа применительно к системам обработки и хранения больших данных, включая методы на основе атрибутивного контроля доступа, построена классификация методов. Проанализированы методы контроля
доступа в полихранилищах и инструментах обработки больших данных. Разработан метод атрибутивного контроля доступа для построения верхнеуровневой модели контроля доступа и разработки унифицированной политики безопасности для реализации в системах обработки и хранения больших данных.
Разработан метод анализа политик безопасности отдельных инструментов обработки данных и реализованных в них моделей контроля доступа в контексте общей системы обработки и хранения больших данных. Проведена экспериментальная оценка предложенного метода. Формализована задача поиска оптимальной политики безопасности в системах обработки и хранения больших данных как задача дискретной многокритериальной оптимизации в условиях заданных ограничений.
Разработан метод формирования унифицированной политики безопасности в системе обработки и хранения больших данных на базе атрибутивного подхода.
Для этого использованы построенные в ходе проекта концептуальная модель данных, модель концептуального уровня процессов обработки данных и метод поиска оптимальной политики безопасности в системах обработки и хранения больших данных.
Разработан метод отображения унифицированной политики безопасности на базе атрибутивного подхода на инструменты разграничения доступа компонентов систем обработки и хранения больших данных путем установления взаимного соответствия между элементами унифицированной политики безопасности верхнего уровня и политиками безопасности, реализованными в рамках инструментов разграничения доступа компонентов систем обработки и хранения больших данных и отображения политики безопасности на базе атрибутивного подхода на иные модели безопасности инструментов разграничения доступа компонентов систем обработки и хранения больших данных.
Разработана систематизация типовых решений архитектур обеспечения безопасности для систем обработки и хранения больших данных. Выполнен сравнительный анализ путей реализации принципа минимизации доверия и уменьшения поверхности атаки со стороны инсайдера в системах обработки и хранения больших данных. Построена архитектура, реализующая принцип минимизации доверия и уменьшения поверхности атаки.
Разработан метод динамической классификации узлов-обработчиков данных на основе принципа минимизации доверия. Предложены правила динамической авторизации узлов-обработчиков, в т.ч. при процедурах поддержки доступности данных.
Во втором году результаты проведенного исследования опубликованы в 12 научных работах, в том числе 6 – в изданиях, индексируемых в базе Scopus.
Результаты также представлены на 8 российских и международных научно-практических конференциях. Зарегистрировано 2 РИД.
2025 год.
В ходе третьего года выполнения проекта разработки первого и второго года были дополнены и интегрированы в единую технологию построения защищенных систем обработки и хранения больших данных. На данном этапе был проведен разносторонний анализ требований защищенности, включая требования архитектур «нулевого доверия», применительно к системам обработки и хранения больших данных. Сформулированы минимально достаточные специфические требования защищенности систем обработки и хранения больших данных на базе принципов консистентного подхода. Оценена возможность выполнения этих требований на практике с учетом текущего технологического уровня инструментов обработки и хранения больших данных, разработаны практические рекомендации по реализации этих требований в реальных системах больших данных.
Систематизированы методы верификации процессов обработки данных применительно к системам обработки и хранения больших данных, выбрана и обоснована верификация на основе TLA+, на основе которой создан новый метод верификации процессов обработки данных. В отсутствии специализированных методик оценки защищенности систем обработки и хранения больших данных, выполнен анализ и систематизация методов оценки защищенности информационных систем применительно к целевому классу систем. Разработана интегральная метрика защищенности, сочетающая оценку безопасности «ведущий-ведомый», оценку согласованности гранулированного контроля доступа и оценку безопасности процессов обработки данных с учетом разработанной ранее классификации узлов-обработчиков данных. На основе всех проведенных разработок разработана новая методика оценки защищенности системы обработки и хранения больших данных.
В рамках работы по созданию обобщенной архитектуры защищенных систем обработки и хранения больших данных проанализированы методы обфускации (анонимизации) данных, построена их классификация. Поскольку эффективность анонимизации данных в общем случае зависит не только от характеристик метода, но и от характеристик данных, разработка универсального решения по обфускации данных невозможна, в связи с чем для поддержки принятия решения разработана методика автоматического выбора оптимального метода обфускации (анонимизации) данных для систем сбора и хранения больших данных. Все разработки проекта объединены в виде обобщенной архитектуры защищенной системы обработки и хранения больших данных на основе консистентного подхода.
Построена и детально описана архитектура системы защиты для систем обработки и хранения больших данных, интегрирующая разработанные в течение выполнения данного проекта модели, методы, модули и компоненты в единую систему защиты. Разработан программный прототип защищенной системы обработки и хранения больших данных и учебно-экспериментальный стенд, на котором он функционирует, а также учебные материалы для подготовки специалистов по информационной безопасности в данной области.
В третьем году результаты проведенного исследования опубликованы в 16 научных работах по теме проекта, в том числе 6 – в международных публикациях, индексируемых в базах цитирования WoS и Scopus, 1 – в научном журнале, индексируемом в RSCI. Подготовлено и издано 1 учебное пособие, индексированное в РИНЦ. Зарегистрированы 3 программы для ЭВМ, 1 заявка на выдачу патента РФ на изобретение. Результаты проекта также были широко представлены на российских и международных научно-практических конференциях.
Результаты проекта предназначены для обеспечения защищенности гетерогенных систем обработки и хранения больших данных и полихранилищ в условиях действия киберугроз. Применение разработанной концептуальной модели данных на основе агрегатного подхода позволяет единым образом представить данные различной структуризации в системах больших данных, и, как следствие, проводить согласованный аудит больших данных и реализовывать консистентные меры защиты в рамках систем больших данных в целом. Применение результатов проекта делает возможным разработку оптимальной политики информационной безопасности, проведение анализа защищенности и повышение безопасности систем обработки и хранения больших данных в различных отраслях. Эффект от применения создаваемой технологии заключается в обеспечении разграничения и контроля доступа в системах больших данных на уровне фрагментов данных и потоков данных, реализации принципа минимизации доверия в распределенной гетерогенной среде обработки больших массивов информации, аудита и оценки защищенности в инженерии больших данных. Создаваемые решения применимы для различных отраслей экономики, включая государственные информационные системы, промышленные информационные системы, интеллектуальные дата-ориентированные системы принятия решений.