Если вы пользовались технологией распознавания речи до и после 2012 года, то наверняка заметили ее резкое улучшение. Распознавание речи, которое до 2012 года часто оборачивалось огромным разочарованием и лишь изредка приносило умеренную пользу, вдруг стало демонстрировать почти идеальные результаты в определенных обстоятельствах. Теперь я могу диктовать тексты и письма приложению для распознавания речи, установленному на моем телефоне: всего несколько минут назад я прочитала телефону историю о ресторане на обычной для себя скорости, и он верно транскрибировал каждое слово.
Меня поражает, что системы распознавания речи добиваются этого, не понимая смысла транскрибируемых слов. Хотя система распознавания речи моего телефона может транскрибировать каждое слово истории о ресторане, я гарантирую вам, что она не понимает ни саму историю, ни что-либо еще. Многие специалисты по ИИ, включая меня, ранее полагали, что распознавание речи в рамках ИИ не добьется таких прекрасных результатов, пока не научится понимать язык. Мы оказались неправы.
При этом автоматическое распознавание речи – вопреки некоторым сообщениям прессы – еще не вышло на “человеческий уровень”. Фоновый шум по-прежнему существенно снижает точность работы систем: в движущемся автомобиле они гораздо менее эффективны, чем в тихой комнате. Кроме того, эти системы периодически спотыкаются о необычные слова и фразы, тем самым наглядно демонстрируя, что не понимают транскрибируемую речь. Например, я сказала: Mousse is my favorite dessert (“Мусс – мой любимый десерт”), – но мой телефон (на Android) записал: Moose is my favorite dessert (“Лось – мой любимый десерт”). Я сказала: The bareheaded man needed a hat (“Мужчине с непокрытой головой нужна была шапка”), – но телефон записал: The bear headed man needed a hat (“Мужчине с головой медведя нужна была шапка”). Нетрудно найти предложения, которые приведут систему в замешательство. Но при распознавании обиходной речи в тихой среде точность подобных систем, на мой взгляд, составляет примерно 90–95 % от человеческой
[231]. Шум и другие осложнения значительно ухудшают показатели.
Как известно, в любом сложном инженерном проекте действует правило: на первые 90 % проекта уходит 10 % времени, а на последние 10 % – 90 % времени. Думаю, в некотором виде это правило применимо ко многим областям ИИ (привет, беспилотные автомобили!) и оправдает себя также в сфере распознавания речи. Последние 10 % – это не только работа с шумом, непривычными акцентами и незнакомыми словами, но и решение проблемы неоднозначности и контекстуальности языка, которая осложняет интерпретацию речи. Что нужно, чтобы справиться с этими последними 10 %, которые не желают поддаваться исследователям? Больше данных? Больше сетевых слоев? Или же, осмелюсь спросить, эти последние 10 % потребуют истинного понимания речи говорящего? Я склоняюсь к последнему, хотя и знаю, что уже ошибалась раньше.
Системы распознавания речи довольно сложны: чтобы пройти путь от звуковых волн к предложениям, нужно провести несколько этапов обработки данных. В современных передовых системах распознавания речи используется несколько различных компонентов, включая ряд глубоких нейронных сетей
[232]. Другие задачи ОЕЯ, например перевод текстов или создание вопросно-ответных систем, на первый взгляд кажутся проще: входные и выходные сигналы в них состоят из слов. И все же в этих сферах основанный на данных метод глубокого обучения не привел к такому прогрессу, как в распознавании речи. Почему? Чтобы ответить на этот вопрос, давайте рассмотрим несколько примеров применения глубокого обучения к важным задачам ОЕЯ.
Классификация тональности
В первую очередь обратим внимание на область, называемую классификацией тональности текста. Прочтите несколько коротких отзывов на фильм “Индиана Джонс и храм судьбы”
[233]:
“Сюжет тяжел, и очень не хватает юмора”.
“На мой вкус, немного мрачновато”.
“Кажется, продюсеры старались сделать фильм как можно более тревожным и жутким”.
“Развитие персонажей и юмор в «Храме судьбы» весьма посредственны”.
“Тон странноват, и многие шутки меня не зацепили”.
“Ни шарма, ни остроумия, в отличие от других фильмов серии”.
Понравился ли фильм авторам отзывов?
Использование машин для ответа на такой вопрос сулит большие деньги. Система ИИ, способная точно распознать эмоциональную окраску предложения (или абзаца) – положительную, отрицательную или любую другую, – принесет огромные прибыли компаниям, которые хотят анализировать отзывы клиентов о своих продуктах, находить новых потенциальных покупателей, автоматизировать рекомендации (“людям, которым понравился X, также понравится Y”) и наладить таргетирование онлайн-рекламы. Данные о предпочтениях человека в кино, литературе и других сферах на удивление полезны для прогнозирования покупок этого человека (и это даже пугает). Более того, на основе этой информации можно прогнозировать и другие аспекты жизни человека, например его поведение на выборах и реакцию на определенные типы новостей и политической рекламы
[234]. Также были попытки (порой успешные) с помощью “анализа эмоций”, скажем, твитов, связанных с экономикой, прогнозировать цены акций и исход выборов.
Не затрагивая вопросы этичности подобного применения анализа тональности текстов, давайте рассмотрим, как системы ИИ могут классифицировать тональность таких предложений, как приведены выше. Хотя людям не составляет труда понять, что все мини-отзывы негативны, научить программу такой классификации гораздо сложнее, чем может показаться на первый взгляд.