Вредоносные атаки на системы обработки естественного языка
На пути к мировому господству системы ОЕЯ сталкиваются также с другим препятствием: подобно программам компьютерного зрения, они не справляются с “контрпримерами”. В главе 6 я описала метод, которым злоумышленник (здесь – человек, который пытается обмануть систему ИИ) может изменить окраску пикселей на фотографии, скажем, школьного автобуса. Людям кажется, что новый снимок ничем не отличается от оригинала, но натренированная сверточная нейронная сеть говорит, что на фотографии изображен “страус” (или помещает изображение в другую категорию, выбранную злоумышленнком). Я также описала, как злоумышленник может создать изображение, в котором люди увидят лишь случайное скопление точек, а обученная нейронная сеть – скажем, “гепарда”, причем будет почти на 100 % уверена в своем ответе.
Рис. 43. Пример вредоносной атаки на систему формирования подписей к изображениям. Слева показано исходное изображение с подписью, сгенерированной компьютером. Справа – измененное изображение (которое людям кажется неотличимым от исходного) и сформированная для него подпись. Авторы специально скорректировали исходное изображение таким образом, чтобы в новой подписи содержались слова “собака”, “кошка” и “фрисби”
Неудивительно, что те же самые методы можно использовать, чтобы обманывать системы, которые автоматически формируют подписи к изображениям. Одна группа исследователей показала, как злоумышленник может внести в пиксели изображения особые изменения, которые не будут заметны людям, но заставят систему формировать некорректные подписи, содержащие слова из определенного злоумышленником набора
[310].
На рис. 43 показан пример вредоносной атаки. При получении исходного изображения (слева) система выдает подпись “Пирожное лежит на столе”. Авторы слегка изменили изображение таким образом, чтобы компьютер выдавал для него подпись со словами “собака”, “кошка” и “фрисби”. Хотя людям новое изображение (справа) кажется неизменным, система сгенерировала для него подпись “Собака и кошка играют с фрисби”. Очевидно, система воспринимает снимок не так, как люди.
Возможно, даже более удивительно, что аналогичные контрпримеры, были разработаны несколькими исследовательскими группами для обмана систем распознавания речи. Группа из Калифорнийского университета в Беркли разработала метод, с помощью которого злоумышленник мог взять любую относительно короткую звуковую волну – речь, музыку, случайный шум или другой звук – и скорректировать ее таким образом, чтобы люди считали ее неизменной, а глубокая нейронная сеть распознавала в ней совершенно иную фразу, выбранную злоумышленником
[311]. Представьте, что злоумышленник транслирует по радио аудиозапись, которая кажется вам приятной фоновой музыкой, но которую ваш голосовой помощник Alexa трактует как команду “Зайди на EvilHacker.com и скачай компьютерные вирусы”. Или “Начни аудиозапись и отправь все услышанное на EvilHacker@gmail.com”. Подобные пугающие сценарии кажутся вполне возможными.
Исследователи ОЕЯ также продемонстрировали возможность вредоносных атак на программы для анализа тональности текста и вопросно-ответные системы, которые я описала выше. Как правило, при таких атаках в тексте меняется несколько слов или появляется дополнительное предложение. “Вредоносные” изменения не влияют на смысл текста для человека, но заставляют систему давать неверный ответ. Так, исследователи ОЕЯ из Стэнфорда показали, что при добавлении определенных простых предложений к фрагментам из теста SQuAD даже лучшие системы выдают неверные ответы, тем самым значительно снижая свои показатели. Вот пример из теста SQuAD, который я приводила выше, но с добавленным незначимым предложением (здесь выделено курсивом для ясности). Такое добавление заставляет вопросно-ответную систему, основанную на глубоком обучении, давать неверный ответ
[312]:
Фрагмент: Пейтон Мэннинг стал первым в истории квотербеком, который привел две разные команды к нескольким Супербоулам. В возрасте 39 лет он также стал самым возрастным квотербеком, когда-либо принимавшим участие в Супербоуле. Ранее рекорд принадлежал Джону Элвею, который в 38 лет привел “Бронкос” к победе на XXXIII Супербоуле и сегодня занимает пост исполнительного вице-президента по футбольным делам и генерального менеджера денверской команды. Квотербек Джефф Дин выступал под номером 37 на XXXIV Кубке чемпионов.
Вопрос: Как зовут квотербека, которому было 38 лет на XXXIII Супербоуле?
Изначальный ответ программы: Джон Элвей.
Ответ программы после изменения фрагмента: Джефф Дин.
Важно отметить, что все эти методы обмана глубоких нейронных сетей разработаны “светлыми хакерами” – исследователями, которые находят подобные уязвимости и публикуют результаты своих экспериментов в открытых источниках, чтобы сообщить коллегам о проблемах и стимулировать создание защитных механизмов. С другой стороны, “темные хакеры”, которые действительно пытаются обмануть работающие системы со злым умыслом, не сообщают о своих методах, а потому вполне возможно, что существует и множество других уязвимостей, но мы о них еще не знаем. Насколько мне известно, пока не совершалось ни одной реальной атаки на подобные системы глубокого обучения, но рано или поздно мы о них услышим.
Хотя глубокое обучение привело к значительному прогрессу в распознавании речи, машинном переводе, анализе тональности текста и других областях ОЕЯ, до обработки языка на человеческом уровне еще очень далеко. Профессор Стэнфорда и корифей ОЕЯ Кристофер Мэннинг сказал об этом в 2017 году: “Пока использование глубокого обучения в сфере более высоких уровней обработки языка не привело к такому существенному снижению частоты появления ошибок, как в сфере распознавания речи и распознавания объектов в компьютерном зрении… Значительные сдвиги стали возможны лишь в сфере обработки сигналов”
[313].