Книга Архитекторы интеллекта. Вся правда об искусственном интеллекте от его создателей, страница 14. Автор книги Мартин Форд

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Архитекторы интеллекта. Вся правда об искусственном интеллекте от его создателей»

Cтраница 14

В результате работа сети оценивается для каждого веса, причем на ряде примеров. Каждый вес должен обновляться несколько раз. Это медленно, но результат гарантирован.

Метод обратного распространения ошибки, по сути, позволяет получить такой же результат намного быстрее. Скорость его работы зависит от количества связей. Для сети с миллиардом связей метод обратного распространения сработает в миллиард раз быстрее, чем описанный выше алгоритм.

Прямой алгоритм имитирует процесс эволюции, ведь то, как заложенная в генах информация реализуется в конкретном индивиде, зависит от среды, в которой он находится. По генотипу невозможно точно предсказать, как будет выглядеть фенотип или насколько он будет успешным, потому что на это влияет множество внешних факторов.

Поскольку корректность результатов определяется только весами, которые нам известны, процесс прохождения данных можно контролировать с помощью метода обратного распространения. Его суть состоит в передаче сигналов ошибки от выхода к входу. В процессе их прохождения вычисляется, как следует поменять вес каждой связи, чтобы улучшить выводимый результат.

Вместо того чтобы измерять эффект от внесенных изменений, метод обратного распространения ошибки вычисляет, что получится после внесения изменений, причем для всех весов одновременно. Настройка весов выполняется быстро: сети предоставляется сразу несколько примеров, рассчитывается разность между требуемым выходом и результатами сети, после чего эта информация передается в обратном направлении. Процесс выполняется несколько раз, но все равно работает быстрее эволюционного алгоритма.

М. Ф.: Метод обратного распространения ошибки изобрел Дэвид Румельхарт, а вы развили его?

Дж. Х.: Версии этого метода предлагались еще до Румельхарта. В основном к этой идее приходили независимо друг от друга, поэтому меня всегда смущает, когда в СМИ меня называют автором этого метода. Я главным образом продемонстрировал, как использовать этот метод для изучения распределенных представлений.

В 1981 г. после получения докторской степени я начал работать в городе Сан-Диего, штат Калифорния. Идею метода обратного распространения ошибки предложил Дэвид Румельхарт, а мы с Рональдом Уильямсом помогли в поиске правильных формулировок. Ничего впечатляющего с этим методом мы тогда не сделали. Не было и никаких публикаций. После этого я отправился в Университет Карнеги – Меллона, где работал над машиной Больцмана. Эта идея казалась более интересной, хотя она и не сработала. В 1984 г. я вернулся в Сан-Диего, чтобы сравнить метод обратного распространения с машиной Больцмана. Оказалось, что он дает более убедительные результаты, поэтому я снова начал общаться с Дэвидом Румельхартом.

Но по-настоящему меня восхитила возможность на примере формирования генеалогического древа применить метод обратного распространения к изучению распределенных представлений. На вход подавалось два слова, а возвращалось третье, связанное с обоими. То есть нейросеть как бы улавливала значения слов.

Например, если мать Шарлотты зовут Виктория, то корректным выводом для слов Шарлотта и мать было Виктория. А для слов Шарлотта и отец корректным был ответ Джеймс. Если взять генеалогическое древо, в котором нет разводов, то стандартный ИИ, используя свои знания о семейных отношениях, может сделать вывод, что Виктория – супруга Джеймса. К такому же выводу может прийти нейронная сеть, причем не пользуясь логическими правилами, а просто изучив множество признаков каждого человека. В этом случае Виктория и Шарлотта – это наборы отдельных признаков. Результат взаимодействия двух векторов дает признаки корректного ответа. Потрясает, как сеть изучает векторы признаков и распределенные представления для разных слов.

В 1986 г. мы описали это в статье для журнала Nature. Тема сильно заинтересовала одного из рецензентов. Как психолог, он понимал, что алгоритм, обучающий представлению о вещах, станет огромным прорывом. Так что мой вклад заключается не в открытии алгоритма обратного распространения, а в том, что я смог показать, как этот метод может применяться для обучения распределенным представлениям. Именно это оказалось интересно психологам и, в конечном итоге, людям, которые занимались вопросами ИИ.

В начале 1990-х Иошуа Бенджио перенес этот метод на более быстрые компьютеры. Он применил нейронную сеть к естественному языку. Сеть брала из текста несколько слов в качестве контекста и могла предсказать следующее слово. Ян Лекун, который в это время занимался компьютерным зрением, показал, что метод обратного распространения хорошо обучает фильтры обработки визуального входа. Это не стало особым открытием, так как примерно такие же вещи делает человеческий мозг. А вот то, что метод обратного распространения позволил машине уловить значения слов и синтаксис, стало большим прорывом.

М. Ф.: Правильно ли я понимаю, что в то время работа с нейронными сетями еще не была основным направлением в исследованиях ИИ?

Дж. Х.: До некоторой степени да, но тут нужно отдельно рассматривать ИИ и машинное обучение, с одной стороны, и психологию – с другой. В 1986 г., когда метод обратного распространения стал популярным, им заинтересовались психологи. Это был устойчивый интерес, хотя алгоритм не копировал происходящие в мозге процессы. А в конце 1980-х гг. Ян Лекун получил впечатляющие результаты по распознаванию рукописных цифр. Метод обратного распространения хорошо себя показал и в других областях, таких как контроль мошенничества с кредитными картами. Но ожидания тех, кто считал, что теперь нам будут доступны настоящие чудеса, не оправдались.

В начале 1990-х гг. оказалось, что на небольших наборах данных лучше себя показывают другие методы машинного обучения. Например, метод опорных векторов с меньшими усилиями распознавал рукописные цифры. И интерес к обратному распространению затух.

Идея метода обратного распространения состояла в обучении множества слоев, но обучить удалось только не очень глубокие сети. С точки зрения специалистов по статистике и ИИ мы были мечтателями, которые надеялись получить информацию обо всех весах только по входным и выходным данным. На тот момент нам не хватало знаний, чтобы заставить все это работать.

До 2012 г. большинство специалистов по компьютерному зрению считали все это сумасбродством, хотя системы Яна Лекуна иногда работали лучше, чем их собственные. Ян написал статью, но ее не приняли, так как считалось, что этот способ не даст результатов. Даже в мире науки альтернативные подходы отвергаются.

Но внезапно крупный конкурс выиграли двое моих учеников. Они применили комбинацию методов, разработанных в лаборатории Лекуна, и наших собственных техник и получили в два раза меньше ошибок, чем лучшие системы компьютерного зрения.

М. Ф.: Речь идет о проекте ImageNet?

Дж. Х.: Да. Там случилось то, что периодически происходит в науке. Метод, который привыкли считать полной бессмыслицей, превзошел метод, в который все верили. За следующие два года все переключились на сверточные нейронные сети. Сейчас никто даже не думает о классификации объектов без использования нейронной сети.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация