КЕЙС В Китае широко внедряется ASR-система, разработанная компанией iFlytek, которая может не только самообучаться на основе запросов пользователей, но и позволяет в считаные секунды идентифицировать говорящих, одновременно прослушивая около 200 образцов речи. Данная система в числе прочего используется в применяемых в продукции iFlytek голосовых помощниках, которые дополняют национальные системы слежки за людьми, находящимися в Китае
[1146].
Устройства, оборудованные микрофонами, несут в себе и другие опасности. К примеру, такое IoT-устройство (так же как и смартфоны или планшеты) может записывать окружающие звуки и передавать записи на серверы злоумышленников. Это происходит, если оно работает под управлением вредоносного кода или RAT-инструмента либо его трафик перехватывается в ходе MiTM-атаки
[1147]. В этом случае могут быть перехвачены, например, номера банковских карт или кодов подтверждения, если жертва в процессе ввода называет их вслух; похищение такой информации чрезвычайно опасно
[1148].
В целях безопасности любой разговор с голосовыми помощниками различных устройств и вблизи от таких устройств следует расценивать как публичный. Хотя голосовой помощник настроен на запись и передачу на сервер команды после фразы-триггера, например «Слушай, Алиса», микрофон такого устройства включен постоянно в ожидании команды. Вредоносное программное обеспечение, учитывающее такую особенность, потенциально может позволить злоумышленнику подслушивать владельца устройства, если устройство должным образом не защищено.
Кроме того, в некоторых странах трафик с IoT-устройств, передаваемый через интернет, может анализироваться с помощью государственного программного и аппаратного обеспечения. Это угрожает безопасности пользователей, если доступ к таким данным имеют лица, превышающие должностные полномочия, или данные компрометируются в ходе хакерской атаки
[1149].
Следует упомянуть, что уязвимы не только ASR-системы, входящие в состав голосовых помощников. Аналогичные модули есть и в другой «умной» технике, например в смарт-телевизорах. В некоторых моделях телевизоров, имеющих доступ к интернету, есть опция голосового управления, и они в процессе работы передают записанный голосовой трафик (а иногда – и снимки изображения на экране
[1150]) на серверы производителей и рекламных компаний для улучшения работы ASR-алгоритмов и анализа предпочтений телезрителей.
Скрытые инструкции
Устройства, оборудованные голосовыми помощниками, могут подвергаться атакам с применением скрытых команд. Такие команды могут быть неслышными (ультразвук) или слышимыми, но спрятанными в аудиофайлах, например содержащих музыку или рекламу.
КЕЙС В 2017 г. исследователи из Университета Беркли обнаружили, что встроенные голосовые помощники, в частности Apple Siri, реагируют на не воспринимаемые человеческим слухом команды, скрытые, например, в музыке (ультразвук с частотой колебаний выше 25 кГц). С помощью таких команд удалось открывать веб-ссылки и совершать телефонные звонки
[1151]. Короткое наглядное видео опубликовано на странице https://youtu.be/21HjF4A3WE4. Исследователям из Принстонского университета удалось достичь аналогичных результатов с Google Assistant, в том числе с помощью скрытых команд заставить смартфон фотографировать и включать режим «В самолете»
[1152]. На скрытые команды могут реагировать и другие устройства, поддерживающие голосовой ввод, например телевизоры или оборудование «умного» дома. Подробно схема потенциальной атаки рассматривается в докладе Шень Шена из Иллинойсского университета
[1153].
К примеру, по ссылке https://youtu.be/z_qtSTNt_p0 можно прослушать модифицированную запись, в которой на фоне речи человека звучит скрытая команда «Отключить камеру наблюдения и открыть входную дверь». В случае этой атаки на устройство Amazon Echo скрытая команда звучит как тихий случайный шум, практически неразличимый на фоне громкой речи, но на нее реагирует голосовой помощник.
Вероятны еще менее заметные атаки с помощью ультразвуковых команд, воспринимаемых ASR-системами. В одном случае ультразвуковой трафик направляется на устройство (например, «умную» колонку или смартфон) по воздуху. Этот способ не слишком удобен: устройство, излучающее ультразвук (динамик), имеет большие габариты; атаке могут помешать преграды на пути от излучателя к микрофону IoT-девайса. Другой способ не связан с такими проблемами. Производится так называемая SurfingAttack, в процессе которой ультразвуковые команды передаются через твердые материалы. Например, злоумышленник может закрепить небольшое устройство-излучатель с оборотной стороны стола и воздействовать на девайс жертвы, когда та положит его на стол. Переданные таким образом команды позволяют управлять голосовым помощником в устройстве жертвы, если настройки ASR-системы это допускают.
Кроме того, как выяснилось
[1154], микрофоны ASR-систем, работающих под управлением Amazon Alexa, Apple Siri и Google Assistant, реагируют на команды, переданные с помощью лазерного луча. Исследователи из США и Японии смогли открыть гараж с помощью «умной» колонки, передав ей соответствующую команду из соседнего здания. Атака оказалась успешной, так как в результате фотоакустического эффекта волны, создаваемые лазерным лучом, воздействуют на тончайшую мембрану микрофона девайса. С помощью мерцания лазера можно передавать любые инструкции для голосового помощника. Атака возможна, если микрофон атакуемого устройства (колонки, смартфона, планшета и т. п.) находится в прямой видимости от источника лазерного излучения на расстоянии от 5 до 110 м
[1155].
Злоумышленники, инструктируя ASR-систему IoT-устройства или смартфона, потенциально могут, к примеру, читать сообщения и звонить на транслируемые в ходе атаки номера телефонов. Из-за технических сложностей массовая атака на множество устройств, по крайней мере в ближайшее время, вряд ли возможна. Но злоумышленники могут вести SurfingAttack на конкретного человека
[1156].