Технологии защиты систем искусственного интеллекта от злонамеренных или случайных воздействий, влияющих на достоверность результатов их работы

Технологии защиты систем искусственного интеллекта от злонамеренных или случайных воздействий, влияющих на достоверность результатов их работы

Руководитель проекта: чл.-корр. РАН Зегжда Д.П., ФГАОУ ВО «СПбПУ»

Проект выполняется в рамках работ Центра компетенций НТИ «Технологии доверенного взаимодействия» (г. Томск) на средства гранта на государственную поддержку центров Национальной технологической инициативы на базе образовательных организаций высшего образования и научных организаций, Соглашение о предоставлении субсидии от 14.12.2021 г. № 70-2021-00246).

Этап 1 “Анализ и систематизация уязвимостей и дефектов систем ИИ и их вычислительных компонентов, связанных со снижением достоверности результатов и отказами вычислительных моделей”

Разработана модель угроз для систем ИИ, включающая описание типовой рабочей архитектуры (ключевые компоненты и процессы работы) системы ИИ, основанной на моделях представления знаний и вычислительного интеллекта; объекты воздействий угроз, влияющих на достоверность результатов работы системы ИИ; классы актуальных угроз, связанных со снижением достоверности результатов работы систем ИИ.

Разработанная модель угроз для систем ИИ соответствует базовой «Методике оценки угроз безопасности информации» ФСТЭК России (утв. 05.02.2021 г.) и позволяет рассматривать систему ИИ как объект защиты, понять ее основные уязвимые точки, определить ландшафт актуальных угроз, направленных на нее.

Модель угроз будет дополнена на следующем этапе моделью нарушителя и на их базе в ходе проекта запланировано впервые разработать систему защиты для систем ИИ от злонамеренных или случайных воздействий, влияющих на достоверность результатов их работы. Построенная модель угроз востребована потребителями, в первую очередь IT-компаниями, разработчиками средств защиты и создателями «умных» решений, при создании средств защиты ИИ, при проектировании частных моделей угроз, а также при проведении контроля защищенности систем ИИ.

В мире не существует полной, всесторонней и расширяемой модели угроз для систем ИИ. Единственный известный близкий аналог – Adversarial ML Threat Matrix («Матрица состязательных угроз машинному обучению», разработчик MITRE).

Ключевыми преимуществами построенной в рамках проекта модели угроз в сравнении с указанным решением являются:

  • полнота систематизации угроз: разработанная модель угроз базируется на системном подходе, направленном от описания архитектуры системы ИИ, объектов воздействия угроз, их недостатков к классам угроз, тогда как Adversarial ML Threat Matrix представляет собой реестр состязательных атак на системы ИИ;

  • расширяемость модели: разработанная модель угроз позволяет добавить новые классы/подклассы угроз, уязвимые точки, объекты и механизмы воздействий на системы ИИ, тогда как Adversarial ML Threat Matrix представляет собой фиксированную структуру матрицы, соответствующей этапам осуществления атак на ИИ, причем единственного типа – состязательных.

Дополнительными преимуществами построенной модели угроз являются: рассмотрение системы ИИ в общем виде, включая различные схемы обучения и разновидности решаемых интеллектуальных задач, а не только механизма обучения, подверженного состязательным атакам; согласованность с отечественными нормативными требованиями; анализ природы угроз и способов их реализации; систематизация возможных техник противодействия угрозам. В целом это позволяет в будущем как расширять данную модель новыми знаниями о системах ИИ, так и детализировать ее под конкретные системы ИИ, а также обоснованно проектировать схемы и способы защиты систем ИИ с учетом характера угроз.

 

Этап 2 “Анализ и систематизация возможностей нарушителя и каналов нарушений безопасности искусственного интеллекта (ИИ) и машинного обучения (МО) на всех этапах обработки знаний в системах ИИ и этапах жизненного цикла таких систем”

На втором этапе проекта разработана модель нарушителя для систем ИИ и МО, которая включает характеристику антропогенных источников угроз (нарушителей) систем ИИ и МО, к которым относятся лица, осуществляющие реализацию угроз путем воздействия на компоненты систем ИИ и МО; описание уровня возможностей и категорий актуальных нарушителей для систем ИИ и МО, и описание связи способов реализации угроз, объектов воздействий, за счет которых они могут быть реализованы, видов и категорий нарушителей.

Определено, что наиболее опасными являются внутренние нарушители-разработчики интеллектуальных средств, поскольку для них система ИИ и МО является полностью открытой, а внутренняя вычислительная модель ИИ и МО является для них «белым ящиком» и, соответственно, подвержена всем видам деструктивного воздействия – угрозам отравления, искажения и исследования.

Выделены следующие объекты деструктивного воздействия нарушителей, которые свойственны системам МО и ИИ: данные, поступающие на вход модели; изъяны в объектах систем ИИ и МО, приводящие к осуществлению воздействий на функционирование компонентов (модулей) ИИ и МО; особенности и дефекты обучения. Наиболее сложным является воздействие через уязвимости обучения, в котором объектами воздействия являются обучающие данные, обученная модель или модуль обучения.

Установлено, что диапазон возможностей нарушителя в случае реализации угроз в рамках систем ИИ и МО определяется соответствием этапам жизненного цикла систем ИИ и МО: обучению и тестированию. С точки зрения вмешательства в атакуемую систему ИИ и МО нарушители подразделены на способных наблюдать за входами/выходами модели в процессе эксплуатации; воздействовать на процесс эксплуатации модели; воздействовать на процесс обучения (модифицировать либо добавлять входные данные в том числе, за счет атаки на алгоритмы получения признаков); вести исследование системы ИИ и МО.

Модель нарушителя позволяет не только полноценно представить образ нарушителя системы ИИ и МО, но и оперативно и точно применять возможные средства ее защиты. Уникальностью разработанной модели нарушителя является то, что она всесторонне описывает нарушителя систем ИИ и МО не только с точки зрения имеющихся у него данных о целевой модели ИИ и МО, но и позволяет конкретизировать основные возможные мотивы нарушителя, а также потенциальные цели, которые он перед собой может ставить, и возможности, которые он может использовать, чтобы воздействовать по определенным каналам на системы ИИ и МО с деструктивными целями.

Построенная модель нарушителя востребована потребителями, в первую очередь IT-компаниями, разработчиками средств защиты и создателями «умных» решений, при создании средств защиты ИИ, при проектировании частных моделей угроз и нарушителей, а также при проведении контроля защищенности систем ИИ.

Также на данном этапе проекта разработан имитационный программный полигон систем ИИ и МО, предназначенный для моделирования, визуализации и исследования специфических сценариев реализации угроз снижения достоверности результатов работы систем ИИ и МО. Полигон включает базу методов ИИ и МО, а также банк воздействий на механизмы вычислительного интеллекта. Уникальность построенного имитационного программного полигона систем ИИ и МО обеспечена реализацией широкого спектра методов МО и ИИ, поддержкой всех типов известных угроз системам ИИ и МО, наличием реальных примеров и сценариев воздействия угроз на результаты работы методов МО и ИИ, возможностью пополнения баз методов ИИ и МО и направленных на них угроз, визуальным сопровождением и кроссплатформенностью решения.

Результаты, достигнутые на данном этапе, планируется использовать и развивать на последующих этапах проекта.

 

Этап 3«Разработка метода и алгоритма защиты от атак искажения вычислительных моделей в системах ИИ и машинного обучения»

На третьем этапе проекта разработан новый метод эшелонированной защиты вычислительных моделей ИИ и МО от атак искажения. Метод реализует двухэтапную защиту, осуществляя (1) обнаружение факта искажения с целью недопущения деструктивного воздействия состязательных образцов на защищаемую вычислительную модель интеллекта; (2) поддержание устойчивости (невосприимчивости) защищаемой вычислительной модели интеллекта к деструктивным искажениям со стороны нарушителя в случае, когда атаку-искажение не удалось обнаружить.

Обнаружение искажений выполняется путем поиска аномалий в тестовых данных с помощью порогового анализа. Поддержание устойчивого функционирования вычислительных моделей основано на механизме защитной дистилляции модели. Защитная дистилляция позволяет, не модифицируя исходную модель, поддерживать высокую точность выходных результатов модели в условиях воздействия атак искажения.

В среде имитационного программного полигона систем ИИ и машинного обучения (построен на этапе 2) проведены экспериментальная оценка и анализ эффективности разработанного решения по защите вычислительных моделей ИИ и МО от атак искажения. Исходная обученная экспериментальная вычислительная модель обеспечивает точность результатов более 97% на тестовом наборе данных. Деструктивное воздействие состязательных образцов приводит к падению точности результатов работы этой модели с 97 до 49%. Разработанный алгоритм обнаружения атак искажения обеспечивает выявление атак с точностью 98%, при этом для обнаружения состязательных образцов в среднем необходимо проанализировать 52 образца (при перемешанных «чистых» и состязательных образцах в выборке в соотношении 9:1). Алгоритм поддержания устойчивого функционирования вычислительных моделей позволяет удерживать уровень точности выходных результатов работы защищаемой вычислительной модели выше 91% при активно действующих атаках искажения.

Разработанные алгоритмы дополняют друг друга – в случае пропуска атаки искажения первым методом, второй защитный механизм обеспечивает достоверность результатов работы защищаемой вычислительной модели.
Уникальность разработанного решения по эшелонированной защите ИИ от атак искажения заключается в том, что впервые применен комплексный подход, сочетающий обнаружение искажений и дополнительный механизм защитной дистилляции модели. Механизмы дополняют друг друга, позволяя снизить общее число ложных срабатывай и объем вычислительных ресурсов, необходимых для работы защиты. Преимуществом решения также является то, что оно применимо для защиты вычислительных моделей любой архитектуры и назначения.
Результаты, достигнутые на данном этапе, планируется использовать и развивать на последующих этапах проекта.

Этап 4 «Разработка методов и алгоритмов защиты от атак на наборы данных и схемы обучения вычислительных моделей ИИ и машинного обучения»

На четвертом этапе проекта исследованы атаки на наборы данных и схемы обучения вычислительных моделей ИИ и машинного обучения. Деструктивное воздействие такого типа воздействий на ИИ заключаются в так называемом отравлении используемой вычислительной модели интеллекта, при котором злоумышленник вводит в набор данных ложные или искаженные данные, приводящие к недостоверному функционированию обученной модели. Отравление имеет целью достижение некорректного поведения модели, когда ранее обученная модель в рабочем режиме выдает неверные результаты при обработке реальных данных. Данная угроза опасна тем, что этапы обучения и реальной работы разнесены и в рабочем режиме не представляется возможным выявить недостоверные («отравленные») образцы в обучающем наборе данные, которые в итоге приводят к ошибкам вывода или отказам.
В ходе проекта, с целью построения эффективного метода защиты от атак на наборы данных и схемы обучения вычислительных моделей ИИ и машинного обучения, определены признаки отравления данных. Отравление в первую очередь влияет на статистические характеристики набора данных. Сделан вывод о необходимости анализа вносимых записей в наборы данных на предмет аномальности посредством разных алгоритмов, которые оценивают разное влияние вносимых разновидностей искажений на статистические характеристики выборки. Составлен набор критериев, в соответствии с которым тот или иной набор данных может считаться отравленным, в том числе неожиданные или необычные результаты при анализе данных, несоответствия в данных, необычные образцы данных. При определении отравляющих данных, критерии, в соответствии с которыми принимается решение об отравлении, должны рассматриваться совместно. Это связано с тем, что по отдельности критерии не позволяют отличить внесенное искажение (отравление) от аномалии, следующей из природы самих данных.
Разработан набор теоретико-множественных моделей атак отравления, которые позволяют строить конкретные алгоритмы устранения определенных разновидностей отравления. Формализация отравлений содержит описания реализации сценариев отравления не только на уровне кортежей данных, но и на уровне отношений. На моделях формально показано, как изменения в наборе данных приводят к изменению его исходных параметров – статистических характеристик и разнообразия. На базе построенных моделей разработан новый метод очистки обучающих наборов данных и алгоритмы его реализующие, которые соответствуют разработанным теоретико-множественным моделям атак отравления. Построенный новый метод очистки данных основан на симбиотических отношениях тандема нейромоделей, одна из которых – очищающая, вторая – верифицирующая. Очищающая нейромодель классифицирует тип отравления и в зависимости от результата классификации применяет один из созданных алгоритмов очистки данных и затем передает их в верифицирующую нейромодель. Вариативность и управляемость механизма поощрений, реализованного между обеими нейромоделями, позволяют динамически корректировать работу метода, что повышает эффективность защитного механизма.
Проведены экспериментальная оценка и анализ эффективности разработанного решения. При сравнении статистических характеристик отравленного и очищенного набора со статистическими характеристиками эталонного набора наблюдаются изменения, стремящиеся в очищенном наборе к значениям эталонной выборки. Более точное приближение к эталонным характеристикам достигнуто при задании более узких допустимых интервалов статистических характеристик, однако вместе с этим увеличится длительность работы метода в связи с большим количеством фрагментов, отправляемых верифицирующей нейромоделью на доработку.
Уникальность разработанного решения заключается в том, что оно представляет собой новую симбиотическую архитектуру взаимодействия нейромоделей, используемую для защитной очистки разнородных обучающих наборов данных, а формализация возможных сценариев атак отравления и разработанный метод верификации при помощи построенной нейромодели позволяют не только повысить уровень автоматизации, но и учитывать особенности синтаксиса и разнородности значений атрибутов набора данных. Механизм защиты идентифицирует и сохраняет значения в наборе данных, которые не требуют коррекции, и с учетом статистических характеристик набора данных вносит изменения, стремящиеся не убирать, а автоматически приближать отравленные данные к эталонным значениям.
Результаты, достигнутые на данном этапе, планируется использовать и развивать на последующих этапах проекта.