Книга Зачем мы говорим, страница 48. Автор книги Тревор Кокс

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Зачем мы говорим»

Cтраница 48

Умные помощники и другие современные устройства, передающие данные пользователей технологическим компаниям, поднимают и вопросы конфиденциальности. Зайдите в интернет и поищите новую стиральную машину – и в следующие несколько дней вас забросают целевыми рекламными объявлениями. Сколько времени у нас осталось до того, как нас начнет преследовать реклама, учитывающая то, что мы сказали вблизи умного динамика? А ведь это может стать причиной разногласий между супругами. Если вы хотите заменить стиральную машину, скажите об этом вблизи умной колонки, и ваш супруг будет получать бесконечные рекламные сообщения о новых стиральных машинах. Притянуто за уши? Отнюдь. Когда в 2017 году один телевизионный канал показал фильм о контролируемых голосом умных помощниках, помогающих совершать покупки, не выходя из дома, звуковая дорожка передачи запустила ряд Amazon Echoes в домах у зрителей, что привело к случайным заказам товаров [29].

Подобные устройства интересны также и властям. Полиция США уже попыталась извлечь данные, собранные Amazon Echo на месте убийства. Сначала Amazon пыталась сохранять секретность всех записей, но человек, обвиняемый в убийстве, дал разрешение на передачу улик [30]. Считалось, что устройство передает информацию на серверы Amazon только после произнесения пароля, например «Алекса», но ни одна система не бывает безупречной. Конечно, могут иметь место ложные положительные решения, когда устройство ошибочно принимает за пароль какой-то шум и начинает передавать данные серверам. Если это что-то вам напоминает, возможно, вы читали роман «1984», в котором Джордж Оруэлл писал:

Монитор был одновременно приемником и передатчиком, который улавливал любой звук, кроме очень тихого шепота. Более того, пока Уинстон оставался в поле зрения монитора, его можно было не только слышать, но и видеть. Конечно, никогда нельзя знать наверняка, наблюдают за тобой сейчас или нет. Можно только гадать, как часто и в каком порядке Полиция Мысли подключается к той или иной квартире^[36].

Даже если мы доверяем властям, стоит подумать о том, какие возможности такие системы предоставляют хакерам. Конечно, технологические гиганты имеют большой опыт работы по обеспечению безопасности, но ведь и многие мелкие компании, у которых такого опыта нет, добавляют функции распознавания речи к бытовым устройствам. В 2016 году Департамент защиты прав потребителей в Нью-Йорке выпустил предупреждение для родителей, касающееся безопасности радионянь, подсоединенных к интернету. Это была реакция на письма испуганных родителей, обнаруживших, что с их детьми разговаривали незнакомые люди, которые просто взломали устройства. Уполномоченный Управления связи Министерства обороны США сообщил корреспонденту NBC: «Назначение видеомониторов – дать родителям возможность чувствовать себя в безопасности, когда они не находятся рядом с детьми, но реальность действительно пугает: если эти устройства недостаточно защищены, они без труда могут позволить злоумышленникам получить доступ к камере, чтобы наблюдать за детьми или даже начать с ними общаться» [31]. Сегодня большой интерес представляет интернет вещей, но без соответствующей защиты фразу «не при детях» нужно будет использовать по отношению ко всем умным устройствам, которыми мы пользуемся.

Использование голоса для управления устройствами помогает избежать неудобств сенсорных дисплеев или кнопок. 20 % поисковых запросов в Google через мобильные телефоны осуществляются голосом, потому что быстрее произнести запрос, чем использовать крошечную клавиатуру телефона. Но для некоторых людей новые технологии обработки речи становятся жизненно необходимыми для общения.

Болезнь двигательных нейронов (БДН) поражает нейроны в головном и спинном мозге и постепенно лишает человека возможности контролировать мышцы. К сожалению, у большинства людей с этим заболеванием возникают проблемы с речью, и попытки общения приводят к отчаянию и изоляции. По мере развития этого неврологического заболевания человек постепенно теряет контроль над мышцами, отвечающими за артикуляцию, что нарушает плавность речи. Координация разных частей речевой анатомии затрудняется, и речь сначала становится похожей на речь пьяного. Окружающим становится все труднее понимать такого больного, особенно незнакомым людям, уши которых не приучены к такому голосу. Постепенно это может привести к полной утрате говорения. Карен Пирс, руководитель отделения по уходу за такими больными в Ассоциации БДН, как никто другой знает, насколько важными для самосознания человека являются произношение и манера речи: «Я не могу даже представить что-нибудь более важное, чем возможность сказать своей жене, своему мужу или детям, что ты их любишь» [32].

Эта проблема привела Саймона Кинга и его коллег из Эдинбургского университета к совместной работе с Ассоциацией БДН над созданием синтезаторов, которые могли бы сохранить хотя бы некоторые особенности голоса человека. До этого больные БДН были вынуждены использовать стандартный аппарат «Искусственный голос», голос на котором мог быть другого пола или имел иное произношение. Но создание персонализированного голоса ставит перед разработчиками целый ряд вопросов. В идеале для создания синтетического голоса нужно иметь большое количество записей речи еще здорового человека. Но у людей редко бывает такое количество аудиозаписей. К тому времени, когда у них диагностируют БДН, голос, как правило, уже изменился, поскольку ухудшение речи часто является одним из первых признаков этой неврологической проблемы.

Решение можно найти в создании смешанного голоса: основные вокальные характеристики будут принадлежать больному, а остальное – здоровым голосам доноров. Но рецепт, использованный в вокодере, предписывает тщательно отбирать, какие ингредиенты брать из голоса больного, а какие дополнять донором. Здесь необходим компромисс, ведь чем большее количество частей взято у здорового голоса, тем более плавной и членораздельной будет искусственная речь. Но это и отдаляет искусственный голос от настоящего голоса больного.

Сначала создается базовый голос, который будет взят за основу речи. Это может быть голос родственника или донора голоса, примерно того же возраста, пола и с таким же акцентом [33]. Затем базовый голос настраивается так, чтобы включать как можно больше аспектов речи больного. Например, некоторые параметры, которые загружаются в вокодер, обозначают длительность разных частей слова. По мере того как контролировать мускулы становится все труднее, поскольку болезнь прогрессирует, артикуляция становится замедленной. Следовательно, при персонализации базового голоса можно проигнорировать настоящую длительность частей слов, но другие ингредиенты, например высоту тона, сохранить.

Такие персонализированные голоса несовершенны, но они демонстрируют прогресс в создании искусственных голосов, которые могут передавать некоторые черты характера. Качества пока немножко не хватает для того, чтобы робот-актер мог сыграть серьезную роль, но уже достаточно для исполнения сатиры. Мэтью Эйлет – научный сотрудник в Эдинбургском университете, а также главный научный сотрудник в CereProc, компании, производящей системы синтеза речи. Как и многим другим ученым, ему нравится играть идеями и технологиями. Он создал искусственный голос Барака Обамы, собранный из огромного количества записей обращений президента [34]. На одном из звуковых образцов Обама говорит: «Люди Америки должны обладать великолепной технологией синтезирования речи, и CereProc делает лучшие системы в мире. Поверьте мне, я президент Соединенных Штатов Америки». Синтетический голос звучит немного механически, но, если сказать, что Обама говорит по мобильному телефону, слушатели, возможно, припишут проблемы со звуком телефону, а не голосу. Раньше для такой хитрости потребовался бы опытный пародист, но сегодня специалисты по синтезу речи могут сами играть в подобные игры.

Вернуться к просмотру книги Перейти к Оглавлению Перейти к Примечанию

Вход

Регистрация | Забыли пароль?

Поиск по сайту

Календарь

Навигация