Коллектив авторов

Риски цифровизации: виды, характеристика, уголовно-правовая оценка


Скачать книгу

использованных во время обучения (являющихся интеллектуальной собственностью), данных обучения. Это разведывательные атаки, backdoor, trojans и др.

      Классификация по типу вызываемой ошибки. Когда атакующий ставит себе цель добиться гарантированно ошибочной классификации, атака называется non-targeted. Например, если на дорожный знак нанести определенную краску, модель распознавания уже не сможет отреагировать на знак.

      Атака относится к типу targeted если цель атакующего отнести какой-либо экземпляр к определенному классу даже если это и не так. Например, рекламный плакат может содержать в себе паттерн, воспринимаемый моделью как дорожный знак и инициировать соответствующее поведение управляемой системой. Существенной проблемой является то, что человек визуально обнаружить проводимые таким образом атаки не сможет.

      Классификация по осведомленности атакующего. Успешность атаки во многом зависит от того, сколько информации у атакующего о модели. Если атакующему известны модель, алгоритм, данные обучения, тип нейронной сети, количество ее слоев, то это атака называется атакой «белого ящика». Если атакующий обладает минимальными (общедоступными) знаниями о модели, данными обучения и алгоритмами, такие атаки называют атаками «черного ящика». Атаку, в которой используются частичные знания о модели, называют атакой «серого ящика».

      Классификация по типу атаки. Среди атак на модели глубокого обучения выделяют три основных типа: состязательные атаки, «отравление» данных и исследовательские атаки. Кроме основных проводятся такие атаки как backdoors, trojans и др.

      Состязательные атаки. Атаки реализуются посредством того, что входные данные изменяют таким образом, чтобы модель переобучилась и стала допускать ошибки в классификации. Угрозы от такого типа атак высока, поскольку подобные атаки очень эффективны, просты в реализации и масштабируемы – один и тот же метод атаки применим к различным моделям, построенным на одном алгоритме обучения.

      «Отравление» данных. Такая атака проводится на этапе первичного обучения модели, когда злоумышленник вводит данные или манипулирует данными обучения, либо чтобы создать «черный ход» для использования во время эксплуатации (без ущерба для производительности модели при обычных входных данных), либо с целью добиться последующего генерирования произвольных ошибок искажая предназначение модели в процессе обучения.

      В зависимости от цели злоумышленника это нарушает свойства целостности или доступности модели. Типичный пример создания «черного хода» – атака на распознавание лиц, когда злоумышленник вводит в набор обучающих образцов данные определенного объекта. Цель состоит в том, чтобы заставить модель связать конкретный объект (допустим, кепку) с целевым пользователем, например, пользователя, имеющего право доступа не территорию. Впоследствии любое изображение лица человека в кепке будет классифицироваться как пользователь, имеющих право доступа, даже если оно принадлежит не зарегистрированному