Книга Зачем мы говорим, страница 52. Автор книги Тревор Кокс

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Зачем мы говорим»

Cтраница 52

Но если полиграф недостаточно надежен, возможно, мы сможем научить компьютер анализировать речь? Анализ стресса по голосу – это сомнительный метод, используемый страховыми фирмами, полицией и правительственными департаментами для выявления у людей признаков лжи. ABC News утверждает, что этот метод использовался в заливе Гуантанамо и в Ираке, после чего был запрещен Пентагоном [3]. Компании, которые продают такие системы, не раскрывают секретов их работы, но научные исследования подвергли сомнению их эффективность. Напротив, существуют стандартные способы использования компьютера для восприятия голоса и его последующей интерпретации, и эти способы подробно описаны. Основные подходы уже используются в различных ситуациях – например, автомобиль по затрудненной речи определяет, что водитель пьян, или мобильное приложение предупреждает людей с биполярным расстройством об изменении настроения.

Научить компьютер слушать и понимать речь можно с помощью машинного обучения, когда компьютерную программу учат анализировать запись и извлекать из нее полезную информацию. Некоторые важные вычисления в науке о речи основаны на простых математических формулировках. Если вы хотите узнать, с какой частотой открываются и закрываются голосовые связки, существуют специальные уравнения для получения этой информации по форме звуковой волны. Но если вы хотите узнать о чем-то менее определенном, например не тревожится ли человек о чем-то, то маловероятно, что математические рассуждения принесут результат. В таких случаях компьютерная программа должна на собственном опыте «научиться» опознавать явные признаки тревоги.

Машинное обучение в случае с аудиозаписями может использоваться не только для распознавания речи. Оно применяется при анализе музыки, например для определения жанра – является ли произведение классическим, джазовым, представляет рок-музыку и т. д. В корпорации BBC R&D я занимался исследованием эмоций, которые вызывают музыкальные заставки теле- и радиопрограмм. В архивах BBC хранятся миллионы записей, и корпорация хотела, чтобы каждой из них была присвоена метка с указанием настроения (веселая ли запись, печальная или, наоборот, заряжает энергией), чтобы можно было легко сориентироваться в архиве, отыскивая записи с определенным настроением. Может ли в этом помочь анализ музыкальной заставки? Когда звучат первые радостные аккорды музыкальной заставки к американскому ситкому «Друзья», вы можете догадаться, что это оптимистическая комедия, даже если никогда не смотрели этот сериал. Многие новостные сводки начинаются торжественно, чтобы настроить на серьезный лад. Мы хотели узнать, сможет ли компьютер определять характер музыкальной темы: радостная она или грустная, забавная или серьезная?

Люди научаются соотносить определенные музыкальные характеристики с конкретными настроениями. Темп веселых мелодий, скорее всего, будет более быстрым, и в западной музыке в них часто используется мажорная тональность. Печальная музыка обычно бывает в миноре, в ней музыкальные фразы «стекают вниз», повторяя нисходящую интонацию, которую мы используем, когда сообщаем печальные новости [4]. Мы накапливаем подобные ассоциации в течение всей своей жизни, когда слушаем музыку. Алгоритм машинного обучения тоже должен прийти к такому «пониманию», прослушивая огромное количество аудиопримеров. В настоящее время второе рождение переживает один из методов машинного обучения, известный как искусственные нейронные сети. Принцип действия этого метода в общих чертах имитирует структуры мозга.

Человеческий мозг – это идеальная обучающаяся машина. Мозг младенца состоит примерно из 100 миллиардов нейронов, и каждый нейрон связан приблизительно с 10 000 других. Перед каждым нейроном стоит относительно простая задача. Информация проходит через него в форме электрических импульсов, которые принимаются дендритами – отростками клетки с короткими ответвлениями. Импульсы сочетаются путем сложения или вычитания, в зависимости от того, возбуждающей или тормозящей является связь. Если сложный сигнал превышает определенный порог, нейрон срабатывает и посылает еще один электрический импульс, который стремительно пробегает по нервному волокну, или аксону. Затем этот импульс передается другим нейронам. Именно слаженная работа этих простых нейронов в обширной и сложной сети и делает мозг поразительно мощным.

Ребенок вырабатывает новый навык посредством обучения. Когда отец сидит рядом с дочерью и читает ей книгу, мозг девочки пытается связать звуки, которые она слышит, со словами, которые она видит на странице. Когда малышка начинает читать книгу сама, отец обеспечивает обратную связь, сообщая ей, как она справляется, хвалит ее, если слово прочитано правильно, и деликатно исправляет в случае ошибки. Такое научение вызывает изменение силы, скорости и числа связей между нейронами в мозге девочки. Ребенок учится на успехах и ошибках, так что, когда он будет читать книгу в следующий раз, у него будет больше шансов сделать это правильно.


Зачем мы говорим

Два нейрона


Зачем мы говорим

Искусственная нейронная сеть


Искусственные нейронные сети пытаются скопировать этот тип поведения. Они тоже сконструированы из большого количества «нейронов», которые способны выполнять простые математические операции. Каждый искусственный нейрон представляет собой несколько строк компьютерного кода, который, подобно своему биологическому эквиваленту, суммирует и обрабатывает входящие сигналы, перед тем как послать результаты другим нейронам сети. Однако эти нейроны не являются точными репликами нейронов мозга, и количество их связей значительно меньше.

Как и ребенок, искусственная нейронная сеть нуждается в обучении. Ученый-компьютерщик выступает в роли суррогатного родителя, снабжая сеть примерами и обеспечивая обратную связь относительно правильности или неправильности принятия решения алгоритмом. Для того чтобы обучить сеть определять настроение в мелодии музыкальной заставки, можно загружать в нее записи, уже четко отмеченные в зависимости от того, какие чувства, радостные или печальные, эта мелодия вызвала у среднего слушателя. Можно догадаться, что пометить вручную тысячи записей – это утомительное занятие. Поэтому мы обратились за помощью к людям и провели онлайн-эксперимент, в котором 15 000 человек прослушивали 144 музыкальные заставки за 60 лет и сообщали нам, какое настроение создавало у них каждое произведение. В процессе обучения компьютер использует обратную связь и оценивает, насколько верно было определено настроение, чтобы изменить силу связей между нейронами. Таким образом, компьютер постепенно улучшает свои расчеты. Обработав достаточное количество примеров, он постепенно научается более точно определять эмоцию, передаваемую музыкальной записью [5].

Поскольку искусственная нейронная сеть несравнима по мощности с человеческим мозгом, то загрузка сырого аудиоматериала может ее переполнить. У человека миллиарды нейронов, но даже у самых крупных искусственных сетей их только тысячи. Следовательно, способность компьютера к самообучению тоже ограничена, и поэтому ему лучше упростить задачу. В нашем случае мы загрузили несколько тщательно отобранных характеристик, извлеченных из звуков, а не сырой аудиоматериал [6]. Зная, что веселая музыка будет, скорее всего, более быстрой, вы можете применить математические формулы для вычисления темпа и ввести эти данные в искусственную нейронную сеть. Еще одним приемом может стать определение аккордов, которые выделяются в произведении, что поможет понять, мажор это или минор, и таким образом, предугадать, будет оно радостным или печальным.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация