Технологии защиты систем искусственного интеллекта от злонамеренных или случайных воздействий, влияющих на достоверность результатов их работы
Руководитель проекта: чл.-корр. РАН Зегжда Д.П., ФГАОУ ВО «СПбПУ»
Проект выполняется в рамках работ Центра компетенций НТИ «Технологии доверенного взаимодействия» (г. Томск) на средства гранта на государственную поддержку центров Национальной технологической инициативы на базе образовательных организаций высшего образования и научных организаций, Соглашение о предоставлении субсидии от 14.12.2021 г. № 70-2021-00246).
Этап 1 “Анализ и систематизация уязвимостей и дефектов систем ИИ и их вычислительных компонентов, связанных со снижением достоверности результатов и отказами вычислительных моделей”
Разработана модель угроз для систем ИИ, включающая описание типовой рабочей архитектуры (ключевые компоненты и процессы работы) системы ИИ, основанной на моделях представления знаний и вычислительного интеллекта; объекты воздействий угроз, влияющих на достоверность результатов работы системы ИИ; классы актуальных угроз, связанных со снижением достоверности результатов работы систем ИИ.
Разработанная модель угроз для систем ИИ соответствует базовой «Методике оценки угроз безопасности информации» ФСТЭК России (утв. 05.02.2021 г.) и позволяет рассматривать систему ИИ как объект защиты, понять ее основные уязвимые точки, определить ландшафт актуальных угроз, направленных на нее.
Модель угроз будет дополнена на следующем этапе моделью нарушителя и на их базе в ходе проекта запланировано впервые разработать систему защиты для систем ИИ от злонамеренных или случайных воздействий, влияющих на достоверность результатов их работы. Построенная модель угроз востребована потребителями, в первую очередь IT-компаниями, разработчиками средств защиты и создателями «умных» решений, при создании средств защиты ИИ, при проектировании частных моделей угроз, а также при проведении контроля защищенности систем ИИ.
В мире не существует полной, всесторонней и расширяемой модели угроз для систем ИИ. Единственный известный близкий аналог – Adversarial ML Threat Matrix («Матрица состязательных угроз машинному обучению», разработчик MITRE).
Ключевыми преимуществами построенной в рамках проекта модели угроз в сравнении с указанным решением являются:
-
полнота систематизации угроз: разработанная модель угроз базируется на системном подходе, направленном от описания архитектуры системы ИИ, объектов воздействия угроз, их недостатков к классам угроз, тогда как Adversarial ML Threat Matrix представляет собой реестр состязательных атак на системы ИИ;
-
расширяемость модели: разработанная модель угроз позволяет добавить новые классы/подклассы угроз, уязвимые точки, объекты и механизмы воздействий на системы ИИ, тогда как Adversarial ML Threat Matrix представляет собой фиксированную структуру матрицы, соответствующей этапам осуществления атак на ИИ, причем единственного типа – состязательных.
Дополнительными преимуществами построенной модели угроз являются: рассмотрение системы ИИ в общем виде, включая различные схемы обучения и разновидности решаемых интеллектуальных задач, а не только механизма обучения, подверженного состязательным атакам; согласованность с отечественными нормативными требованиями; анализ природы угроз и способов их реализации; систематизация возможных техник противодействия угрозам. В целом это позволяет в будущем как расширять данную модель новыми знаниями о системах ИИ, так и детализировать ее под конкретные системы ИИ, а также обоснованно проектировать схемы и способы защиты систем ИИ с учетом характера угроз.
Этап 2 “Анализ и систематизация возможностей нарушителя и каналов нарушений безопасности искусственного интеллекта (ИИ) и машинного обучения (МО) на всех этапах обработки знаний в системах ИИ и этапах жизненного цикла таких систем”
На втором этапе проекта разработана модель нарушителя для систем ИИ и МО, которая включает характеристику антропогенных источников угроз (нарушителей) систем ИИ и МО, к которым относятся лица, осуществляющие реализацию угроз путем воздействия на компоненты систем ИИ и МО; описание уровня возможностей и категорий актуальных нарушителей для систем ИИ и МО, и описание связи способов реализации угроз, объектов воздействий, за счет которых они могут быть реализованы, видов и категорий нарушителей.
Определено, что наиболее опасными являются внутренние нарушители-разработчики интеллектуальных средств, поскольку для них система ИИ и МО является полностью открытой, а внутренняя вычислительная модель ИИ и МО является для них «белым ящиком» и, соответственно, подвержена всем видам деструктивного воздействия – угрозам отравления, искажения и исследования.
Выделены следующие объекты деструктивного воздействия нарушителей, которые свойственны системам МО и ИИ: данные, поступающие на вход модели; изъяны в объектах систем ИИ и МО, приводящие к осуществлению воздействий на функционирование компонентов (модулей) ИИ и МО; особенности и дефекты обучения. Наиболее сложным является воздействие через уязвимости обучения, в котором объектами воздействия являются обучающие данные, обученная модель или модуль обучения.
Установлено, что диапазон возможностей нарушителя в случае реализации угроз в рамках систем ИИ и МО определяется соответствием этапам жизненного цикла систем ИИ и МО: обучению и тестированию. С точки зрения вмешательства в атакуемую систему ИИ и МО нарушители подразделены на способных наблюдать за входами/выходами модели в процессе эксплуатации; воздействовать на процесс эксплуатации модели; воздействовать на процесс обучения (модифицировать либо добавлять входные данные в том числе, за счет атаки на алгоритмы получения признаков); вести исследование системы ИИ и МО.
Модель нарушителя позволяет не только полноценно представить образ нарушителя системы ИИ и МО, но и оперативно и точно применять возможные средства ее защиты. Уникальностью разработанной модели нарушителя является то, что она всесторонне описывает нарушителя систем ИИ и МО не только с точки зрения имеющихся у него данных о целевой модели ИИ и МО, но и позволяет конкретизировать основные возможные мотивы нарушителя, а также потенциальные цели, которые он перед собой может ставить, и возможности, которые он может использовать, чтобы воздействовать по определенным каналам на системы ИИ и МО с деструктивными целями.
Построенная модель нарушителя востребована потребителями, в первую очередь IT-компаниями, разработчиками средств защиты и создателями «умных» решений, при создании средств защиты ИИ, при проектировании частных моделей угроз и нарушителей, а также при проведении контроля защищенности систем ИИ.
Также на данном этапе проекта разработан имитационный программный полигон систем ИИ и МО, предназначенный для моделирования, визуализации и исследования специфических сценариев реализации угроз снижения достоверности результатов работы систем ИИ и МО. Полигон включает базу методов ИИ и МО, а также банк воздействий на механизмы вычислительного интеллекта. Уникальность построенного имитационного программного полигона систем ИИ и МО обеспечена реализацией широкого спектра методов МО и ИИ, поддержкой всех типов известных угроз системам ИИ и МО, наличием реальных примеров и сценариев воздействия угроз на результаты работы методов МО и ИИ, возможностью пополнения баз методов ИИ и МО и направленных на них угроз, визуальным сопровождением и кроссплатформенностью решения.
Результаты, достигнутые на данном этапе, планируется использовать и развивать на последующих этапах проекта.
Этап 3«Разработка метода и алгоритма защиты от атак искажения вычислительных моделей в системах ИИ и машинного обучения»
На третьем этапе проекта разработан новый метод эшелонированной защиты вычислительных моделей ИИ и МО от атак искажения. Метод реализует двухэтапную защиту, осуществляя (1) обнаружение факта искажения с целью недопущения деструктивного воздействия состязательных образцов на защищаемую вычислительную модель интеллекта; (2) поддержание устойчивости (невосприимчивости) защищаемой вычислительной модели интеллекта к деструктивным искажениям со стороны нарушителя в случае, когда атаку-искажение не удалось обнаружить.
Обнаружение искажений выполняется путем поиска аномалий в тестовых данных с помощью порогового анализа. Поддержание устойчивого функционирования вычислительных моделей основано на механизме защитной дистилляции модели. Защитная дистилляция позволяет, не модифицируя исходную модель, поддерживать высокую точность выходных результатов модели в условиях воздействия атак искажения.
В среде имитационного программного полигона систем ИИ и машинного обучения (построен на этапе 2) проведены экспериментальная оценка и анализ эффективности разработанного решения по защите вычислительных моделей ИИ и МО от атак искажения. Исходная обученная экспериментальная вычислительная модель обеспечивает точность результатов более 97% на тестовом наборе данных. Деструктивное воздействие состязательных образцов приводит к падению точности результатов работы этой модели с 97 до 49%. Разработанный алгоритм обнаружения атак искажения обеспечивает выявление атак с точностью 98%, при этом для обнаружения состязательных образцов в среднем необходимо проанализировать 52 образца (при перемешанных «чистых» и состязательных образцах в выборке в соотношении 9:1). Алгоритм поддержания устойчивого функционирования вычислительных моделей позволяет удерживать уровень точности выходных результатов работы защищаемой вычислительной модели выше 91% при активно действующих атаках искажения.
Разработанные алгоритмы дополняют друг друга – в случае пропуска атаки искажения первым методом, второй защитный механизм обеспечивает достоверность результатов работы защищаемой вычислительной модели.
Уникальность разработанного решения по эшелонированной защите ИИ от атак искажения заключается в том, что впервые применен комплексный подход, сочетающий обнаружение искажений и дополнительный механизм защитной дистилляции модели. Механизмы дополняют друг друга, позволяя снизить общее число ложных срабатывай и объем вычислительных ресурсов, необходимых для работы защиты. Преимуществом решения также является то, что оно применимо для защиты вычислительных моделей любой архитектуры и назначения.
Результаты, достигнутые на данном этапе, планируется использовать и развивать на последующих этапах проекта.
Этап 4 «Разработка методов и алгоритмов защиты от атак на наборы данных и схемы обучения вычислительных моделей ИИ и машинного обучения»
На четвертом этапе проекта исследованы атаки на наборы данных и схемы обучения вычислительных моделей ИИ и машинного обучения. Деструктивное воздействие такого типа воздействий на ИИ заключаются в так называемом отравлении используемой вычислительной модели интеллекта, при котором злоумышленник вводит в набор данных ложные или искаженные данные, приводящие к недостоверному функционированию обученной модели. Отравление имеет целью достижение некорректного поведения модели, когда ранее обученная модель в рабочем режиме выдает неверные результаты при обработке реальных данных. Данная угроза опасна тем, что этапы обучения и реальной работы разнесены и в рабочем режиме не представляется возможным выявить недостоверные («отравленные») образцы в обучающем наборе данные, которые в итоге приводят к ошибкам вывода или отказам.
В ходе проекта, с целью построения эффективного метода защиты от атак на наборы данных и схемы обучения вычислительных моделей ИИ и машинного обучения, определены признаки отравления данных. Отравление в первую очередь влияет на статистические характеристики набора данных. Сделан вывод о необходимости анализа вносимых записей в наборы данных на предмет аномальности посредством разных алгоритмов, которые оценивают разное влияние вносимых разновидностей искажений на статистические характеристики выборки. Составлен набор критериев, в соответствии с которым тот или иной набор данных может считаться отравленным, в том числе неожиданные или необычные результаты при анализе данных, несоответствия в данных, необычные образцы данных. При определении отравляющих данных, критерии, в соответствии с которыми принимается решение об отравлении, должны рассматриваться совместно. Это связано с тем, что по отдельности критерии не позволяют отличить внесенное искажение (отравление) от аномалии, следующей из природы самих данных.
Разработан набор теоретико-множественных моделей атак отравления, которые позволяют строить конкретные алгоритмы устранения определенных разновидностей отравления. Формализация отравлений содержит описания реализации сценариев отравления не только на уровне кортежей данных, но и на уровне отношений. На моделях формально показано, как изменения в наборе данных приводят к изменению его исходных параметров – статистических характеристик и разнообразия. На базе построенных моделей разработан новый метод очистки обучающих наборов данных и алгоритмы его реализующие, которые соответствуют разработанным теоретико-множественным моделям атак отравления. Построенный новый метод очистки данных основан на симбиотических отношениях тандема нейромоделей, одна из которых – очищающая, вторая – верифицирующая. Очищающая нейромодель классифицирует тип отравления и в зависимости от результата классификации применяет один из созданных алгоритмов очистки данных и затем передает их в верифицирующую нейромодель. Вариативность и управляемость механизма поощрений, реализованного между обеими нейромоделями, позволяют динамически корректировать работу метода, что повышает эффективность защитного механизма.
Проведены экспериментальная оценка и анализ эффективности разработанного решения. При сравнении статистических характеристик отравленного и очищенного набора со статистическими характеристиками эталонного набора наблюдаются изменения, стремящиеся в очищенном наборе к значениям эталонной выборки. Более точное приближение к эталонным характеристикам достигнуто при задании более узких допустимых интервалов статистических характеристик, однако вместе с этим увеличится длительность работы метода в связи с большим количеством фрагментов, отправляемых верифицирующей нейромоделью на доработку.
Уникальность разработанного решения заключается в том, что оно представляет собой новую симбиотическую архитектуру взаимодействия нейромоделей, используемую для защитной очистки разнородных обучающих наборов данных, а формализация возможных сценариев атак отравления и разработанный метод верификации при помощи построенной нейромодели позволяют не только повысить уровень автоматизации, но и учитывать особенности синтаксиса и разнородности значений атрибутов набора данных. Механизм защиты идентифицирует и сохраняет значения в наборе данных, которые не требуют коррекции, и с учетом статистических характеристик набора данных вносит изменения, стремящиеся не убирать, а автоматически приближать отравленные данные к эталонным значениям.
Результаты, достигнутые на данном этапе, планируется использовать и развивать на последующих этапах проекта.
Этап 5 «Разработка метода и алгоритма защиты от нарушений работы вычислительных моделей ИИ и машинного обучения посредством реализации угроз доступности (увеличения доли ложноположительных результатов) моделей»
На данном этапе выполнен анализ известных методов реализации атак на доступность моделей ИИ и машинного обучения. Показано, что во всех известных механизмах атак действия атакующего, направленные на нарушение работы вычислительных моделей ИИ и машинного обучения посредством реализации угроз доступности (увеличения доли ложноположительных результатов) моделей, производятся в виде добавления отравленных примеров в обучающий набор на стадии эксплуатации модели. Отличие от классической атаки отравления модели заключается в том, что обычное отравление модели приводит к единичному сбою в работе модели, а в случае оналайн-дообучения модель становится полностью непригодна к работе, поскольку она меняет свое поведение («алгоритм») настолько, что начинает постоянно выдавать недостоверные результаты. В итоге, для потребителей исходная, «верная», модель интеллекта становится недоступна. Определено, что метод защиты от угроз доступности должен обеспечивать предотвращение атак, нацеленных на эксплуатацию онлайн-обучения модели путем отравления дополнительными данными в процессе эксплуатации и учитывать особенность реализации атаки способом генерации большой серии образцов с очень маленькими, но правдоподобными отклонениями, постепенно выключающими атакуемую модель.
В результате проведенного анализа современных методов защиты от атак на доступность вычислительных моделей ИИ и машинного обучения показано, что существующий арсенал методов довольно разнообразен, но малоэффективен, поскольку методы либо требуют от защищающейся стороны разрабатывать сложные детекторы «отравлений», работающие в реальном времени, что трудо- и ресурсозатаратно, либо приводят к снижению точности защищаемой модели, что по сути эквивалентно деструктивному воздействию нарушителя, от которого методы должны были бы защищать. Поэтому были выдвинуты определённые требования к создаваемому методу защиты, который должен быть универсальным, минимально воздействовать на сами данные для сохранения точности результатов и не требовать больших накладных расходов
Разработан новый метод защиты от атак на доступность моделей ИИ и машинного обучения, комбинирующий регуляризацию и разбавление данных. Построен алгоритм, реализующий данный метод. Сама по себе L2-регуляризация имеет алгоритмическое ограничение и действует «слепо», уменьшая значение каждого обучающего примера и «чистого», и отравленного, что приводит к снижению эффективности данного одиночного механизма защиты. Но, как было экспериментально подтверждено, L2-регуляризация хорошо себя проявляет в сочетании с разбавлением данных, так как расширение выборки сосредоточено на увеличении доли доверенных данных и позволяет улучшить точность результатов модели за счет добавления в набор для дообучения большего количества достоверных данных и тем самым снижения влияния отравленных данных и компенсации снижения эффективности регуляризации. Оба метода работают в балансе, дополняя друг друга. Разработанный комплексный метод защиты относится к типу повышения устойчивости модели.
Уникальность разработанного решения заключается в том, что применение разработанного метода защиты не снижает точность защищаемой модели ниже уровня 79%, что является очень важным условием для бизнес-задач. При этом, это значение достигнуто в такой конфигурации модели, при которой сохраняется продолжительность ее обучения – если длительность обучения увеличить, то и значение точности защищенной также модели увеличится.
Результаты, достигнутые на данном этапе, планируется использовать и развивать на последующих этапах проекта.
Комплекс технологических решений по защите систем искусственного интеллекта и машинного обучения от компрометации результатов их работы
Руководитель проекта: чл.-корр. РАН Зегжда Д.П., ФГАОУ ВО «СПбПУ»
Проект выполняется в рамках работ Центра компетенций НТИ «Технологии доверенного взаимодействия» (г. Томск) на средства гранта на государственную поддержку центров Национальной технологической инициативы на базе образовательных организаций высшего образования и научных организаций, Соглашение о предоставлении субсидии от 14.12.2021 г. № 70-2021-00246).
Этап 1 «Разработка методов защиты от атак исследования вычислительных моделей ИИ и машинного обучения, направленных на воссоздание у нарушителя обучающих наборов и извлечение моделей»
В ходе этапа выполнен анализ известных методов реализации атак исследования. Злоумышленник при осуществлении любой атаки исследования должен иметь доступ к дискретному выводу атакуемой модели. При этом нарушитель при осуществлении атаки типа «извлечения модели» должен всегда предварительно осуществить атаку типа «вывод членства». Все эти угрозы возможны по причине переобучения моделей.
Выполненный анализ методов защиты от атак исследования типа «вывод членства» и «извлечение модели» позволил систематизировать известные защитные механизмы. Сопоставление функциональных свойств методов защиты показало, что большинство из существующих методов снижают точность результатов на выходе защищаемых вычислительных моделей интеллекта, не обеспечивая приемлемого уровня безопасности, требуя индивидуального подхода по реализации защиты в зависимости от архитектуры защищаемой модели. Разработаны требования к новым методам защиты от атак исследования.
Разработан новый метод защиты от атак исследования типа «вывод членства» и «извлечение модели». Уникальность предложенного метода заключается в ограничении количества шума, налагаемого на выходной вектор, и использовании градиентного шага для оптимизации шума. Проведенная экспериментальная оценка метода на разработанном макете средств защиты нейросетей показала, что точность проведения атаки злоумышленником упала до 50% (случайный результат предсказания нарушителя), при этом точность защищаемой модели не снижается.
Также разработан новый метод защиты от атак исследования типа «вывод членства» и «извлечение модели» на базе контроля расстояний в запросах, обрабатывающий входные данные модели. Метод позволяет, не воздействуя на механизмы защищаемой модели, выявлять поток данных от нарушителя на основе контроля отклонения от нормального распределения запросов, характерного для поведения легитимных пользователей, что позволяет практически со 100%-ной точностью выявлять действия нарушителя.
Уникальность построенных новых методов защиты от атак исследования заключается в том, что оба метода влияют на механизм получения знания нарушителя о модели и на его запросы, а не на саму защищаемую модель. В этой связи применение разработанных методов защиты не сказывается на точности результатов защищаемой модели.
Результаты, достигнутые на данном этапе, планируется использовать и развивать на последующих этапах проекта.