Две недавно созданные компьютерные платформы иллюстрируют начало сдвигов в концепции интерфейса. И Amazon Echo, и поддержанная платформой Indiegogo новинка Jibo вышли на рынок как персональные устройства для дома. Обе технологии встроены в дом, умеют слушать, учиться и откликаться на сигналы окружающего мира в реальном времени. Jibo даже позиционируется как личный помощник семьи. С ними в дом приходят и встраиваются технологии Google Voice, Siri от Apple или Cortana от Microsoft, с доступом к почти бесконечным информационным ресурсам, которые предоставляет интернет.
Начать работать с этими помощниками очень просто. Вы спрашиваете что-нибудь у Echo или Jibo – например, будет ли завтра дождь, купить ли молока, – или просите напомнить на следующей неделе, что надо заказать отель для отпуска. Jibo дает тут большие возможности, потому что он мобилен, а встроенная камера позволяет, например, сделать мгновенное фото вашей семьи. На экране, входящем в интерфейс Jibo, даже появляются разные персонажи, в зависимости от того, с кем из членов семьи он взаимодействует.
Первое поколение домашних помощников еще ограничивается выдачей информации по запросу, но в скором будущем мы начнем использовать эти технологии дома и на работе, чтобы составлять и соблюдать расписания, делать покупки и принимать повседневные решения.
Рисунок 3.11. Семейный робот Jibo – личный помощник и средство коммуникации (фото: Jibo)
За 20 лет эти устройства превратятся в различные версии искусственного интеллекта, достаточно мощные, чтобы обеспечивать те из наших потребностей, которые можно удовлетворить с помощью цифровой техники, соединять нас с нашими личными панелями управления, «облаками», сетями датчиков, давать советы, касающиеся здоровья, финансового благополучия и многих других областей, в которых мы привыкли получать консультации от людей.
Как понять, что говоришь с компьютером?
В декабре 2013 года журнал Time опубликовал статью под названием «Знакомьтесь: робот из телемаркетинга, которая не признается, что она робот»
[159], где рассказывалось о рекламном телефонном звонке главе вашингтонского офиса Time Майклу Шереру Шерер, уловив что-то не то, спросил робота, человек она или компьютер. В ответ она эмоционально, с очаровательным смехом сообщила, что настоящая. Но когда Шерер спросил, какой овощ кладут в томатный суп, сказала, что не понимает вопроса. Робот представилась Самантой Вест.
Цель подобных алгоритмов – подготовить адресата звонка прежде, чем переключить его на человека, чтобы завершить продажу. Эти алгоритмы стали возможными благодаря технологиям распознавания голоса. Современные инструменты, такие как Siri и Cortana, неплохо распознают речь без акцента, но было время, когда это казалось научной фантастикой.
Еще в 1932 году ученые из Bell Laboratories
[160] работали над проблемой машинного «восприятия речи». К 1952 году они создали систему Audrey для распознавания называемых цифр, правда с очень ограниченными возможностями. Однако в 1969 году Джон Пирс, один из ведущих инженеров компании, обратился к Акустическому обществу Америки с открытым письмом, в котором критиковал распознавание и сравнивал его со «схемами превращения воды в бензин, добычи золота из морской воды, лечения от рака и полета на Луну». По иронии судьбы, через месяц после того, как Пирс опубликовал свое письмо, Нил Армстронг высадился на Луну. Тем не менее вскоре финансирование работ по распознаванию речи в Bell Laboratories прекратилось.
К 1993 году системы, созданные Рэем Курцвейлом, умели распознавать 20 000 слов (произносимых по отдельности), но точность не поднималась выше примерно 10 %. В 1997 году Билл Гейтс довольно дерзко предсказывал: «Я уверен, что через 10 лет для взаимодействия с компьютером мы будем использовать не только клавиатуру и мышь, но и получим системы распознавания речи, достаточно совершенные, чтобы они сделались стандартной частью интерфейса»
[161]. В 2000 году до этого по-прежнему оставалось 10 лет. Прорыв произошел, когда начали использовать модели Маркова
[162] и глубинного обучения
[163] нейронных сетей, принципиально выросла компьютерная производительность и увеличились объемы накопленных данных. Однако существующие сегодня системы все еще несовершенны, потому что они до сих пор не умеют обучаться языку. Их алгоритмы усваивают языки не так, как люди: они идентифицируют фразу через распознавание, ищут ее в базе данных и отвечают подходящим образом.
Распознавать речь и уметь поддержать разговор – это совершенно разные вещи. Что нужно сделать компьютеру, чтобы притвориться перед своим собеседником человеком?
Тест Тьюринга: нужен или нет?
В 1950 году Алан Тьюринг опубликовал знаменитую статью под названием «Вычислительные машины и разум». В ней он ставил вопрос не только о том, можно ли считать, что компьютер или машина «думают», но и конкретнее: можно ли вообразить цифровое устройство, которое хорошо справляется с игрой в имитацию?
[164] Тьюринг предположил, что такой проверкой машинного интеллекта, которую он называл «игра в имитацию», может быть обмен вопросами и ответами между человеком и машиной. Далее в его статье сказано, что, если не получится за пять минут отличить человека от машины, следует признать машину достаточно «человекоподобной», чтобы пройти тест на основы сознания и мышления.
Автономной машине без водителя не нужно проходить тест Тьюринга, чтобы оставить таксиста без работы.