Руководитель проекта: чл.-корр. РАН Зегжда Д.П., ФГАОУ ВО «СПбПУ»
Проект выполняется в рамках работ Центра компетенций НТИ «Технологии доверенного взаимодействия» (г. Томск) на средства гранта на государственную поддержку центров Национальной технологической инициативы на базе образовательных организаций высшего образования и научных организаций, Соглашение о предоставлении субсидии от 14.12.2021 г. № 70-2021-00246).
Этап 1 “Анализ и систематизация уязвимостей и дефектов систем ИИ и их вычислительных компонентов, связанных со снижением достоверности результатов и отказами вычислительных моделей”
Разработана модель угроз для систем ИИ, включающая описание типовой рабочей архитектуры (ключевые компоненты и процессы работы) системы ИИ, основанной на моделях представления знаний и вычислительного интеллекта; объекты воздействий угроз, влияющих на достоверность результатов работы системы ИИ; классы актуальных угроз, связанных со снижением достоверности результатов работы систем ИИ.
Разработанная модель угроз для систем ИИ соответствует базовой «Методике оценки угроз безопасности информации» ФСТЭК России (утв. 05.02.2021 г.) и позволяет рассматривать систему ИИ как объект защиты, понять ее основные уязвимые точки, определить ландшафт актуальных угроз, направленных на нее.
Модель угроз будет дополнена на следующем этапе моделью нарушителя и на их базе в ходе проекта запланировано впервые разработать систему защиты для систем ИИ от злонамеренных или случайных воздействий, влияющих на достоверность результатов их работы. Построенная модель угроз востребована потребителями, в первую очередь IT-компаниями, разработчиками средств защиты и создателями «умных» решений, при создании средств защиты ИИ, при проектировании частных моделей угроз, а также при проведении контроля защищенности систем ИИ.
В мире не существует полной, всесторонней и расширяемой модели угроз для систем ИИ. Единственный известный близкий аналог – Adversarial ML Threat Matrix («Матрица состязательных угроз машинному обучению», разработчик MITRE).
Ключевыми преимуществами построенной в рамках проекта модели угроз в сравнении с указанным решением являются:
-
полнота систематизации угроз: разработанная модель угроз базируется на системном подходе, направленном от описания архитектуры системы ИИ, объектов воздействия угроз, их недостатков к классам угроз, тогда как Adversarial ML Threat Matrix представляет собой реестр состязательных атак на системы ИИ;
-
расширяемость модели: разработанная модель угроз позволяет добавить новые классы/подклассы угроз, уязвимые точки, объекты и механизмы воздействий на системы ИИ, тогда как Adversarial ML Threat Matrix представляет собой фиксированную структуру матрицы, соответствующей этапам осуществления атак на ИИ, причем единственного типа – состязательных.
Дополнительными преимуществами построенной модели угроз являются: рассмотрение системы ИИ в общем виде, включая различные схемы обучения и разновидности решаемых интеллектуальных задач, а не только механизма обучения, подверженного состязательным атакам; согласованность с отечественными нормативными требованиями; анализ природы угроз и способов их реализации; систематизация возможных техник противодействия угрозам. В целом это позволяет в будущем как расширять данную модель новыми знаниями о системах ИИ, так и детализировать ее под конкретные системы ИИ, а также обоснованно проектировать схемы и способы защиты систем ИИ с учетом характера угроз.
Этап 2
На втором этапе проекта разработана модель нарушителя для систем ИИ и МО, которая включает характеристику антропогенных источников угроз (нарушителей) систем ИИ и МО, к которым относятся лица, осуществляющие реализацию угроз путем воздействия на компоненты систем ИИ и МО; описание уровня возможностей и категорий актуальных нарушителей для систем ИИ и МО, и описание связи способов реализации угроз, объектов воздействий, за счет которых они могут быть реализованы, видов и категорий нарушителей.
Определено, что наиболее опасными являются внутренние нарушители-разработчики интеллектуальных средств, поскольку для них система ИИ и МО является полностью открытой, а внутренняя вычислительная модель ИИ и МО является для них «белым ящиком» и, соответственно, подвержена всем видам деструктивного воздействия – угрозам отравления, искажения и исследования.
Выделены следующие объекты деструктивного воздействия нарушителей, которые свойственны системам МО и ИИ: данные, поступающие на вход модели; изъяны в объектах систем ИИ и МО, приводящие к осуществлению воздействий на функционирование компонентов (модулей) ИИ и МО; особенности и дефекты обучения. Наиболее сложным является воздействие через уязвимости обучения, в котором объектами воздействия являются обучающие данные, обученная модель или модуль обучения.
Установлено, что диапазон возможностей нарушителя в случае реализации угроз в рамках систем ИИ и МО определяется соответствием этапам жизненного цикла систем ИИ и МО: обучению и тестированию. С точки зрения вмешательства в атакуемую систему ИИ и МО нарушители подразделены на способных наблюдать за входами/выходами модели в процессе эксплуатации; воздействовать на процесс эксплуатации модели; воздействовать на процесс обучения (модифицировать либо добавлять входные данные в том числе, за счет атаки на алгоритмы получения признаков); вести исследование системы ИИ и МО.
Модель нарушителя позволяет не только полноценно представить образ нарушителя системы ИИ и МО, но и оперативно и точно применять возможные средства ее защиты. Уникальностью разработанной модели нарушителя является то, что она всесторонне описывает нарушителя систем ИИ и МО не только с точки зрения имеющихся у него данных о целевой модели ИИ и МО, но и позволяет конкретизировать основные возможные мотивы нарушителя, а также потенциальные цели, которые он перед собой может ставить, и возможности, которые он может использовать, чтобы воздействовать по определенным каналам на системы ИИ и МО с деструктивными целями.
Построенная модель нарушителя востребована потребителями, в первую очередь IT-компаниями, разработчиками средств защиты и создателями «умных» решений, при создании средств защиты ИИ, при проектировании частных моделей угроз и нарушителей, а также при проведении контроля защищенности систем ИИ.
Также на данном этапе проекта разработан имитационный программный полигон систем ИИ и МО, предназначенный для моделирования, визуализации и исследования специфических сценариев реализации угроз снижения достоверности результатов работы систем ИИ и МО. Полигон включает базу методов ИИ и МО, а также банк воздействий на механизмы вычислительного интеллекта. Уникальность построенного имитационного программного полигона систем ИИ и МО обеспечена реализацией широкого спектра методов МО и ИИ, поддержкой всех типов известных угроз системам ИИ и МО, наличием реальных примеров и сценариев воздействия угроз на результаты работы методов МО и ИИ, возможностью пополнения баз методов ИИ и МО и направленных на них угроз, визуальным сопровождением и кроссплатформенностью решения.
Результаты, достигнутые на данном этапе, планируется использовать и развивать на последующих этапах проекта.
Этап 3
«Разработка метода и алгоритма защиты от атак искажения вычислительных моделей в системах ИИ и машинного обучения»
На третьем этапе проекта разработан новый метод эшелонированной защиты вычислительных моделей ИИ и МО от атак искажения. Метод реализует двухэтапную защиту, осуществляя (1) обнаружение факта искажения с целью недопущения деструктивного воздействия состязательных образцов на защищаемую вычислительную модель интеллекта; (2) поддержание устойчивости (невосприимчивости) защищаемой вычислительной модели интеллекта к деструктивным искажениям со стороны нарушителя в случае, когда атаку-искажение не удалось обнаружить.
Обнаружение искажений выполняется путем поиска аномалий в тестовых данных с помощью порогового анализа. Поддержание устойчивого функционирования вычислительных моделей основано на механизме защитной дистилляции модели. Защитная дистилляция позволяет, не модифицируя исходную модель, поддерживать высокую точность выходных результатов модели в условиях воздействия атак искажения.
В среде имитационного программного полигона систем ИИ и машинного обучения (построен на этапе 2) проведены экспериментальная оценка и анализ эффективности разработанного решения по защите вычислительных моделей ИИ и МО от атак искажения. Исходная обученная экспериментальная вычислительная модель обеспечивает точность результатов более 97% на тестовом наборе данных. Деструктивное воздействие состязательных образцов приводит к падению точности результатов работы этой модели с 97 до 49%. Разработанный алгоритм обнаружения атак искажения обеспечивает выявление атак с точностью 98%, при этом для обнаружения состязательных образцов в среднем необходимо проанализировать 52 образца (при перемешанных «чистых» и состязательных образцах в выборке в соотношении 9:1). Алгоритм поддержания устойчивого функционирования вычислительных моделей позволяет удерживать уровень точности выходных результатов работы защищаемой вычислительной модели выше 91% при активно действующих атаках искажения.
Разработанные алгоритмы дополняют друг друга – в случае пропуска атаки искажения первым методом, второй защитный механизм обеспечивает достоверность результатов работы защищаемой вычислительной модели.
Уникальность разработанного решения по эшелонированной защите ИИ от атак искажения заключается в том, что впервые применен комплексный подход, сочетающий обнаружение искажений и дополнительный механизм защитной дистилляции модели. Механизмы дополняют друг друга, позволяя снизить общее число ложных срабатывай и объем вычислительных ресурсов, необходимых для работы защиты. Преимуществом решения также является то, что оно применимо для защиты вычислительных моделей любой архитектуры и назначения.
Результаты, достигнутые на данном этапе, планируется использовать и развивать на последующих этапах проекта.