Как объясняют Стив Омохундро, Ник Бостром и другие ученые, несовпадение ценностей и все более эффективные системы принятия решений в сочетании способны вызвать ряд проблем, возможно даже таких, которые приведут к исчезновению целого вида, если машины окажутся более эффективны, чем люди. Некоторые утверждают, будто человечеству ничто не угрожает в ближайшие несколько веков, забывая при этом, что временной интервал между уверенным заявлением Эрнеста Резерфорда о том, что энергию атома высвободить невозможно, и открытием Лео Силардом цепной реакции, инициируемой воздействием нейтронов, составил менее 24 часов.
По этой причине, а также по более насущным соображениям — ведь бытовым роботам и беспилотным автомобилям нужно будет разделять значительную часть человеческой системы ценностей — исследования в области согласования ценностей стоит продолжать. Один из вариантов — обратное обучение с подкреплением: машина определяет функцию вознаграждения, наблюдая за неким субъектом, в отношении которого предполагается, что он действует в соответствии с такой функцией. Бытовой робот, наблюдая, как его владелец утром варит кофе, узнает об уместности кофе в определенных обстоятельствах, тогда как робот, принадлежащий англичанину, узнает, что при любых обстоятельствах уместен чай. Робот не учится хотеть кофе или чаю; он учится играть определенную роль в мультисубъектной задаче принятия решений, в которой максимальное значение имеют человеческие ценности.
На практике эта задача будет непростой. Люди непоследовательны, иррациональны и слабовольны, а человеческие ценности демонстрируют, скажем так, региональную изменчивость. Кроме того, мы пока не вполне понимаем, не сделают ли усовершенствованные механизмы принятия решений более опасными маленькие сбои в согласовании ценностей человека и машины. Тем не менее есть основания для оптимизма.
Во-первых, у нас полно данных о действиях человека — большая часть из того, что было написано, снято или наблюдается непосредственно, — и, что важнее всего, у нас полно данных об отношении к этим действиям. (На той же идее базируется понятие обычного международного права: оно основано на том, что традиционно делают государства, когда руководствуются чувством долга.) Во-вторых, разделяя человеческие ценности, машины могут и даже должны делиться друг с другом тем, что о них узнаю́т. В-третьих, есть веские экономические стимулы для решения этих задач, поскольку машины все больше входят в окружение человека. В-четвертых, проблема не выглядит принципиально более сложной, чем выяснение того, как устроен весь остальной мир. В-пятых, если определить очень широкие априорные суждения о том, какими бывают человеческие ценности, и сделать системы искусственного интеллекта не склонными к риску, то можно вызвать как раз такое поведение, которого мы хотим: прежде чем предпринять какое-либо серьезное действие, влияющее на мир, машина вступает в разговор с нами и подробно исследует нашу литературу и историю, с тем чтобы выяснить, чего мы хотим — чего мы на самом деле хотим.
Полагаю, это равносильно смене целей: вместо чистого разума нам надо построить разум, в отношении которого доказано, что он соотнесен с человеческими ценностями. Это делает философию морали главной отраслью промышленности. Результаты могут оказаться весьма поучительны для человечества, да и для роботов тоже.
Проблема загрузки ценностей
Элиезер Юдковски
Теоретик искусственного интеллекта; научный сотрудник и соучредитель Исследовательского института машинного интеллекта
Говорят, что известный грабитель Вилли Саттон, когда его спросили, почему он грабит банки, ответил: «Потому что там деньги». Когда заходит речь об ИИ, самые важные проблемы касаются чрезвычайно сильного, сверхчеловеческого искусственного интеллекта (или сверхинтеллекта), потому что utilon
[89] именно там, — такова ставка. Разумы, обладающие большей силой, сильнее влияют на физический мир.
К этому наблюдению полагается замечание: то, что я задумываюсь о сверхинтеллекте, не означает того, что я считаю, будто он скоро появится. Наоборот, то, что контраргументы по поводу сверхинтеллекта были выдвинуты несколько десятилетий назад, а нынешние алгоритмы ИИ не идут прямым путем к универсальности, не опровергает того факта, что выигрыш (или проигрыш) в основном зависит от создания сверхчеловеческого интеллекта и того, когда он будет создан. (Как отметил Стюарт Рассел, если бы мы получили радиосигнал от представителей более развитой внеземной цивилизации, в котором они сообщали бы, что прибудут через шестьдесят лет, вы бы не стали пожимать плечами со словами: «А, еще целых шестьдесят лет!», особенно если у вас есть дети.)
На мой взгляд, наиболее важную из проблем могущественного интеллекта (опять же следуя принципу Саттона) Ник Бостром обозначил как «проблему загрузки ценностей»: как сконструировать сверхразумы, чтобы они стремились к таким исходам, которые ценны, нормативны и выгодны для разумной жизни в долгосрочной перспективе, то есть, говоря короче, к хорошим, поскольку, если появляется субъект с сильной познавательной способностью, то, чего он захочет, скорее всего, и произойдет.
Вот несколько аргументов в пользу того, что создание искусственных интеллектов, которые предпочитают хорошие исходы, важно и, скорее всего, технически сложно реализуемо.
Во-первых, почему важно создать сверхинтеллект с определенными целями? Он что, не может сам разобраться со своими целями?
Еще в 1739 году Дэвид Юм обнаружил разрыв между вопросами с «есть» и вопросами с «должен», обратив особое внимание на резкий переход между ними, когда философ говорит о том, каков мир есть, а потом начинает использовать слова вроде «следует», «должно» или «не должно». С современной точки зрения мы бы сказали, что субъективная функция полезности (цели, предпочтения, результата) содержит дополнительную информацию, которая не дана в субъективном распределении вероятностей (убеждения, модель мира, карта реальности).
Если через 100 миллионов лет мы увидим (а) межгалактическую цивилизацию, состоящую из разнообразных, совершенно непохожих друг на друга разумов, которые активно взаимодействуют между собой, и они главным образом счастливы большую часть времени, это будет лучше или хуже, чем то, что (b) большая часть доступной материи Вселенной окажется превращена в канцелярские скрепки? Согласно закону Юма, если вы задаете разум с предпочтением (а) > (b), то можно проследить, где > (упорядочивание предпочтений) было впервые введено в систему, и представить себе иной алгоритм, который, наоборот, вычисляет (a) < (b). Покажите мне разум, который придет в ужас от явно безумной мысли превратить все сущее в скрепки, и я смогу проследить регрессию Юма и обнаружить немного иной разум, который вычисляет <, а не > для того же показателя.
Я не думаю, что разум, основанный на кремнии, должен всегда оставаться рабом разума, основанного на углероде. Но, если мы хотим получить разностороннюю космополитическую цивилизацию вместо, к примеру, скрепок, первый достаточно развитый искусственный интеллект, возможно, следует построить с такой функцией полезности, которая точно определяет этот исход. Если нам нужен ИИ, который будет сам выводить свои моральные суждения, то нам, согласно закону Юма, необходимо сначала определить общие принципы таких суждений. Для этого нужно что-то еще, помимо наличия у искусственного интеллекта точной модели мира и превосходной способности планировать.