Книга Код креативности. Как искусственный интеллект учится писать, рисовать и думать, страница 8. Автор книги Маркус Дю Сотой

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Код креативности. Как искусственный интеллект учится писать, рисовать и думать»

Cтраница 8

Его идея состояла вот в чем: нужно попытаться написать не саму программу, способную играть в го, а некую метапрограмму, которая, в свою очередь, будет писать программу, играющую в го. Идея эта казалась безумной, но суть ее сводилась к тому, что метапрограмма должна быть создана таким образом, чтобы она могла учиться на своих собственных ошибках по мере того, как играющая программа проводит все больше партий.

Хассабис узнал о реализации похожей идеи в 1960-х годах исследователем искусственного интеллекта Дональдом Мики. Мики написал алгоритм под названием MENACE [19], который, начав с нуля, научился оптимальной стратегии игры в крестики-нолики. Название MENACE было акронимом слов Matchbox Educable Noughts And Crosses Engine – «Обучаемое устройство из спичечных коробков для игры в крестики-нолики». Для демонстрации работы своего алгоритма Мики собрал систему из 304 спичечных коробков, представлявших все возможные расположения крестиков и ноликов, встречающиеся в процессе игры. В каждом коробке были разноцветные бусины, представляющие возможные ходы. По окончании каждой партии бусины, соответствующие сделанным ходам, вынимались из коробков в случае проигрыша или добавлялись в них в случае победы. По мере увеличения числа партий, сыгранных алгоритмом, распределение бусин по коробкам все больше соответствовало почти совершенной стратегии игры. Именно эту идею обучения на собственных ошибках Хассабис и хотел использовать для тренировки алгоритма в игре в го.

У Хассабиса была хорошая модель, которую можно было положить в основу такой стратегии. Мозг новорожденного младенца не запрограммирован на преодоление всех препятствий, которые встретятся ему в жизни. Вместо этого он запрограммирован на обучение при взаимодействии с окружающей средой.

Если Хассабис собирался использовать в осуществлении своей мечты о создании программы, играющей в го, тот метод, которым мозг обучается решать задачи, ему явно могло помочь знание о том, как работает мозг. Поэтому он решил поступить в аспирантуру по нейробиологии при Университетском колледже Лондона. Именно там, во время перерывов на кофе в процессе лабораторной работы, Хассабис начал обсуждать свои планы создания компании для испытания своих идей с нейробиологом Шейном Леггом. То обстоятельство, что они никогда не рассказывали своим преподавателям о мечте посвятить свою жизнь разработкам искусственного интеллекта, показывает, насколько незавидной была репутация искусственного интеллекта еще лет десять назад. Но они чувствовали, что идут по верному следу, и в сентябре 2010 года двое ученых решили создать вместе с Мустафой Сулейманом, другом детства Хассабиса, свою фирму. Так явилась на свет компания DeepMind.

Компании нужны были деньги, но поначалу Хассабису никак не удавалось привлечь хоть какие-нибудь капиталы. Большинству инвесторов идея компании, посвященной играм и исследованиям интеллекта, казалась недостаточно серьезной. Однако нашлись и такие, кто поверил в эту идею. Среди инвесторов, с самого начала вложивших средства в этот проект, были Илон Маск и Питер Тиль. Тиль никогда не инвестировал за пределами Кремниевой долины и пытался уговорить Хассабиса перебраться на Западное побережье США. Но Хассабис, родившийся и выросший в Лондоне, упорно стоял на своем, утверждая, что в Лондоне гораздо больше невостребованных талантов, которых можно привлечь к делу. Хассабис вспоминает абсурдный разговор, случившийся у него с юристом Тиля. «“А в Лондоне есть законы об интеллектуальной собственности?” – невинным тоном спросила она. По-моему, им казалось, что мы из какого-нибудь Тимбукту!» Основателям компании пришлось отдать инвесторам огромную часть ее акций, но зато они получили деньги, позволявшие приступить к решению задачи ИИ.

Создание машины, способной научиться играть в го, все еще казалось отдаленной мечтой. Сперва они взялись за решение задачи, которая представлялась менее заумной: освоение игр Atari 1980-х годов. Вероятно, компания Atari виновата во множестве прогулов уроков учениками конца 1970-х и начала 1980-х. Я лично хорошо помню, как много времени я потратил, играя на приставке Atari 2600 одного своего друга в Pong, Space Invaders и Asteroids. Эта приставка была одним из первых устройств, конструкция которых позволяла играть не в одну, а в несколько разных игр, которые загружались на кассетах. Такая система открыла возможность создать с течением времени целый спектр разнообразных игр. Более ранние приставки позволяли играть только в одну игру, которая была физически встроена в них.

Одна из моих любимых игр на Atari называлась Breakout. Параллельно верхней кромке экрана шла стена из разноцветных кирпичиков, а игрок управлял расположенной внизу ракеткой, которую можно было двигать влево или вправо при помощи джойстика. Шарик отскакивал от ракетки и летел в сторону кирпичиков. Каждый раз, когда он попадал в какой-нибудь кирпичик, кирпичик исчезал. Целью игры было убрать с экрана все кирпичики. За попадание в один из желтых кирпичиков, из которых состояла нижняя часть стены, начислялось одно очко. Красные кирпичики в верхней части приносили по семь очков. По мере исчезновения кирпичиков ракетка становилась все меньше, а шарик летал все быстрее, что делало игру труднее.

Особенное удовольствие мы испытали однажды, когда придумали хитрый способ взломать эту игру. Нужно было пробить сквозь кирпичики на краю экрана туннель; тогда, если шарик пролетал сквозь него и оказывался сверху от стены, он начинал скакать, отражаясь от верхней кромки экрана и верхних, «дорогих», кирпичиков и постепенно уничтожая стену. Игрок мог расслабиться и просто смотреть за этим процессом, пока шарик в конце концов не прилетал сквозь стену обратно вниз. Нужно было только держать ракетку наготове, чтобы снова отбить шарик вверх. Очень приятная была стратегия!

Хассабис и другие члены группы, которую он собирал в это время, также много играли в молодости в компьютерные игры. Возможно, их родителям было приятно узнать, что время и силы, потраченные на эти игры, не были растрачены впустую. Игра Breakout оказалась идеальным полигоном для проверки способности коллектива DeepMind запрограммировать компьютер на обучение играм. Написать программу для каждой отдельной игры было бы работой сравнительно несложной. Но Хассабис и его коллеги ставили перед собой гораздо более трудную задачу.

Они хотели написать программу, которая получала бы на входе состояние пикселей экрана и текущий счет и играла так, чтобы максимизировать счет. Правила игры программе не сообщаются: она должна случайным образом экспериментировать, двигая в разные стороны ракетку в Breakout или по-всякому стреляя из лазерной пушки по снижающимся кораблям пришельцев в Space Invaders. Каждый раз, когда программа делает ход, она может оценить, привел ли он к увеличению счета или не произвел никакого эффекта.

Эта программа реализует возникшую еще в 1990-е годы концепцию обучения с подкреплением, которая предполагает корректировку вероятности определенных действий в зависимости от воздействия на функцию вознаграждения или счет. Например, в игре Breakout можно принять только одно-единственное решение – сдвинуть ракетку, расположенную внизу экрана, влево или вправо. Изначально выбор делается с вероятностью 50: 50. Но если случайное перемещение ракетки приводит к попаданию по шарику, то через короткое время после этого счет увеличивается. Тогда программа производит пере-калибровку вероятности смещения влево или вправо с учетом этой новой информации. Это увеличивает вероятность смещения в том же направлении, в котором движется шарик. Новшеством было совмещение такого обучения с нейронными сетями, которые должны были оценивать состояние пикселей и решать, какие именно элементы коррелируют с ростом счета.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация