До сих пор голосовые помощники в первую очередь идентифицировали слова, а затем их смысл. Теперь целью стало объединение этих двух этапов.
Желание говорить с объектом, который не реагирует или реагирует неестественно, может показаться странным; в общем, разговор с машиной – это не что-то само собой разумеющееся. Но привычки меняются, искусственные голоса все больше похожи на настоящие, и взаимодействие с объектами, подключенными к интернету, этими «умными» объектами без экрана и клавиатуры, практически разработано.
Помимо того что власть голоса влияет на наш внутренний комфорт и повседневную жизнь, его роль в ближайшем будущем уже давно изучается Институтом исследования и координации акустики и музыки (Ircam): там умеют не только трансформировать пропетый звук, но и синтезировать голос.
Цель синтеза речи состоит в том, чтобы получить голос, максимально похожий на человеческий. Здесь работают с понятием «голосовой идентичности», другими словами, с вокальным автографом человека.
В связи с этим актер Андре Дюссолье любезно согласился ради эксперимента лишиться на время своего прекрасного голоса! Для того чтобы синтезировать голос, понадобились многие часы звукозаписи. Затем его фонограмму разрезали на слова, слоги, фонемы, а их характеристики были проанализированы и собраны таким образом, чтобы, оказавшись вместе, они могли создать любое слово и любое произношение, сохранив естественное звучание первоначального голоса. Вокальный автограф человека – это его просодия: комбинация ритма, паузы и интонации. Эта технология позволила смоделировать манеру речи Андре Дюссолье. Меняя тембр, мы добились большей выразительности и эмоций. Таким образом, мы услышали синтетический голос Дюссолье, читающий «Красную Шапочку». Пораженный результатом, актер признался, что даже его близкие не смогли бы различить, кто говорит – он сам или машина…
Гениальный Стивен Хокинг, которого болезнь уже давно лишила способности говорить, пользуется речевым синтезатором. Несмотря на то что сегодня он мог бы сменить его на синтезированный голос, похожий на человеческий, он предпочитает говорить голосом робота, который стал его «фирменным знаком». Что меня совершенно не удивляет, ведь этот исключительный пример отражает наше сложное, неоднозначное, глубоко личное и трепетное отношение к тому, что можно назвать речевой идентичностью.
Сегодня стало возможным преобразовать голос одного человека в голос другого, то есть примерить на него что-то вроде цифровой маски, которая соответствует принципам синтезированной речи и дает поразительную имитацию, только быстрее и эффективнее. Эта технология позволила, например, реконструировать голос маршала Петена для фильма Филиппа Саада «Суд над Петеном». В наличии имелись немые съемки и поминутная запись судебного процесса. Достаточно было наложить эту цифровую маску на анонимный голос, чтобы получить голос Петена. Точно так же для инсталляции художника Филиппа Паррено Ircam создал великолепную иллюзию Мэрилин Монро, читающей свои дневники, которые она, разумеется, никогда не записывала на пленку.
Процесс становится головокружительным. И если голос – один из ключей от нашей идентичности, то его нельзя отдавать случайным людям. Идентичность голоса нельзя рассматривать отдельно от этических вопросов.
Аналогичным образом трудно говорить о «вокальном автографе» как аналоге отпечатка пальца. В криминалистике иногда приходится прибегать к анализу голоса, и тогда приглашают экспертов, которые прослушивают записи, представленные в качестве улик. Однако техника распознавания голоса не позволяет идентифицировать его однозначно. И в особенно тяжелых судебных процессах это порождает серьезные проблемы. Есть пределы, которые переходить нельзя.
С помощью голосовых манипуляций возможно реализовать любые фантазии, и такие попытки мы встречаем в научной фантастике. Фильм Стэнли Кубрика «2001 год: Космическая одиссея» возник как размышление об отклонениях, которые мог бы породить искусственный интеллект. В фильме Спайка Джонза «Она» показаны любовные отношения человека с компьютерной программой. Это своего рода вариации на тему «Человеческого голоса», но в отличие от книги Кокто, перенесенной на экран Роберто Росселини, где объект желания для зрителя не только невидим, но и неслышим, здесь мы слышим голос той, в которую влюблен мужской персонаж (этот синтезированный голос тем более пленителен, что принадлежит Скарлет Йоханссон). В недалеком будущем, которое описывает этот фильм, герой Хоакина Феникса работает на одном интернет-сайте, где пишет для клиентов любовные письма, поскольку чувства и переписка в этом мире находятся под угрозой исчезновения. Он сам, находясь в депрессии после расставания с женщиной, покупает себе операционную систему. Между ним и женским голосом, с которым он разговаривает по телефону, возникает любовь, в которую зрителю очень хочется верить. Развязка этой истории в фильме не показана, но она очевидна. Однажды он узнает, что у единственного объекта его фантазий есть кроме него еще тысяча таких же абонентов. Конец прекрасной истории любви. Будем ли мы страдать, если однажды наш робот потеряет голос? Не придется ли нам завтра признать, что искусственные голоса существуют на самом деле? Возможно, действительность превзойдет научную фантастику.
После эксперимента, оставившего моего друга Андре Дюссолье без голоса, он наконец задумывается о творчестве: «Все-таки частичка человека пока остается», – констатирует он улыбаясь.
В самом деле, даже если появление искусственного голоса заставляет задуматься о возможностях человека и их пределах, то он все равно никогда не сравнится (мне хочется в это верить!) с голосом человека, который бьется изо всех сил, чтобы достичь чистого звука и совершенной интонации.
С первых страниц этой книги я говорил об эмоциональной составляющей голоса. Эмоции – это универсальный язык, не требующий перевода, эти вибрации, передающиеся человеческим голосом, то, что остается, что впитывают другие люди. Наше ухо всегда будет слышать эмоциональную, уникальную и неповторимую музыку Мартина Лютера Кинга и его завета любви и мира. Наверное, тот, кто его убил, страдал глухотой.
Может, вам доводилось видеть телепередачу, в которой журналисты показали аборигенам фильм, где было собрано все лучшее и худшее, что изобрела западная цивилизация, и предложили им описать свои впечатления? Аборигены увидели первых людей на Луне, французские регулярные сады, кадры военных действий, снегопад и т. д. В основном они не проявляли интереса к нашей жизни – но только до того момента, пока на экране не появилась Мария Каллас, исполняющая на одном из концертов «Casta Diva», божественную арию из «Нормы», оперы Беллини. Полуголые, с разрисованными телами, привыкшие жить в хижинах, они откликнулись на голос Каллас, это воплощение вокального совершенства нашей цивилизации. Опровергая идею о том, что голос неотделим от культурного контекста, участники исследования заявили: «Эта музыка – не наша культура, мы не понимаем, что она значит, мы можем только смотреть и слушать, но она волнует нас». А один из них добавил: «Это потрясающе, я не понимаю, но чувствую, что в этом есть какая-то тайна». Тайна голоса – это то, что превращает человеческое существо в Человека и позволяет ему превзойти самого себя. Если власть голоса существует, то искать ее надо там, в области еще непознанного и магического.