Книга Совместимость. Как контролировать искусственный интеллект, страница 78. Автор книги Стюарт Рассел

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Совместимость. Как контролировать искусственный интеллект»

Cтраница 78

Тот факт, что вы можете пребывать в неопределенности о собственных предпочтениях, не вызывает особых проблем для подхода на основе предпочтений к созданию доказуемо полезного ИИ. В действительности уже существуют некоторые алгоритмы, учитывающие неопределенность как Робби, так и Гарриет, в отношении предпочтений Гарриет и допускающие возможность того, что Гарриет может узнавать о своих предпочтениях одновременно с Робби [319]. Как неуверенность Робби в смысле предпочтений Гарриет можно уменьшить путем наблюдения за поведением Гарриет, так и ее неопределенность в отношении собственных предпочтений можно уменьшить, наблюдая ее реакции на то, что она испытывает. Два типа неопределенности необязательно должны быть непосредственно связаны, и Робби необязательно испытывает большую неопределенность, чем Гарриет, в вопросе о ее предпочтениях. Например, Робби может быть способен обнаружить, что Гарриет имеет сильную генетическую предрасположенность к тому, чтобы отвергнуть вкус дуриана. В этом случае он вряд ли будет сомневаться в ее предпочтениях в отношении дуриана, несмотря на то что сама она пребывает в полном неведении.

Если Гарриет может быть не уверена в собственных предпочтениях относительно будущих событий, то весьма вероятно, что она может и ошибаться. Например, она убеждена, что ей не понравится дуриан (или, скажем, зеленые яйца и ветчина ), и поэтому всеми силами избегает его пробовать, но, если однажды кто-то добавит немного мякоти в ее фруктовый салат, он покажется ей восхитительным. Таким образом, Робби не может предполагать, что действия Гарриет отражают точное знание о ее собственных предпочтениях: одни могут всецело опираться на опыт, а другие — главным образом на догадки, предубеждения, страх неизвестности или необоснованные обобщения [320]. Достаточно тактичный Робби мог бы очень существенно помочь Гарриет, предупреждая ее о подобных ситуациях.

Опыт и память

Некоторые психологи поставили под сомнение саму идею о едином «я», чьи предпочтения доминируют в том смысле, который подразумевает сформулированный Харсаньи принцип автономии предпочтений. Самым видным из этих психологов является мой бывший коллега по Беркли Даниэль Канеман. Получивший в 2002 г. Нобелевскую премию за работу по поведенческой экономике, Канеман является одним из самых влиятельных мыслителей в сфере изучения человеческих предпочтений. Его недавняя книга «Думай медленно… решай быстро» довольно подробно описывает серию экспериментов, убедивших его, что существует два «я» — экспериментирующее «я» и запоминающее «я», — предпочтения которых конфликтуют [321].

Экспериментирующее «я» измеряется гедонометром, в представлении британского экономиста XIX в. Фрэнсиса Эджворта, «идеально точным инструментом, психофизической машиной, постоянно регистрирующей степень удовольствия, испытываемого индивидом, в точном соответствии с вердиктом его сознания» [322]. Согласно гедонистическому утилитаризму, совокупная ценность любого опыта для индивида сводится к сумме гедонистических ценностей каждого мгновения этого опыта. Это представление одинаково подходит к смакованию мороженого и к проживанию целой жизни.

Напротив, запоминающее «я» «распоряжается» принятием решений. Это «я» выбирает новый опыт на основе памяти о прошлом опыте и его желательности. Эксперименты Канемана свидетельствуют, что представления запоминающего и экспериментирующего «я» очень сильно различаются.

Простейший эксперимент, позволяющий это понять, состоит в погружении руки испытуемого в холодную воду. Он проводится в двух разных режимах: при первом рука погружается на 60 секунд в воду температурой 14 °C, во втором за погружением на 60 секунд в воду при 14 °C следует погружение на 30 секунд в воду с температурой 15 °C (это температура океанской воды в Северной Калифорнии — достаточно холодно, чтобы практически никто не заходил в воду без гидрокостюма). Все испытуемые называют опыт неприятным. Испытав оба режима (в любом порядке с интервалом в 7 минут), участники эксперимента отвечают на вопрос, какой режим они предпочли бы повторить. Подавляющее большинство предпочитают повторить схему 60 + 30, а не погружение только на 60 секунд.

Канеман предполагает, что с точки зрения экспериментирующего «я» 60 + 30 должно быть строго хуже, чем 60, поскольку включает 60 и еще один неприятный опыт. Тем не менее запоминающее «я» выбирает 60 + 30. Почему?

Объяснение Канемана заключается в том, что запоминающее «я» смотрит на прошлое через весьма причудливые розовые очки, обращая внимание главным образом на «пиковую» ценность (наибольшую или наименьшую гедонистическую ценность) и на «конечную» ценность (гедонистическую ценность в конце опыта). Продолжительность разных частей опыта по большей части не учитывается. Пиковые уровни дискомфорта в схемах 60 и 60 + 30 одинаковы, но конечные уровни разные: в случае 60 + 30 вода на один градус теплее. Если запоминающее «я» оценивает опыт по пиковой и конечной ценности, а не путем суммирования гедонистических ценностей на промежутке времени, то 60 + 30 лучше, что и было обнаружено. Модель «пиковой — конечной ценности» объясняет многие другие, столь же странные наблюдения, описанные в литературе о предпочтениях.

Судя по всему, Канеман (вероятно, справедливо) относится к собственным открытиям двояко. Он предполагает, что запоминающее «я» «попросту ошиблось» и выбрало не тот опыт, потому что его память является дефектной и неполной; он считает это «плохой новостью для верящих в рациональность выбора». В то же время он пишет: «Теория благополучия, игнорирующая желания людей, не может быть надежной». Предположим, к примеру, что Гарриет попробовала пепси и колу и теперь уверенно предпочитает пепси; было бы абсурдом заставлять ее пить колу, исходя из суммы показаний секретного гедонометра, собираемых при каждой пробе.

Дело в том, что никакой закон не требует, чтобы наши предпочтения в отношении того или иного опыта определялись как сумма гедонистических ценностей в отдельные моменты времени. Действительно, стандартные математические модели сосредоточиваются на максимизации суммы вознаграждений [323], но исходным мотивом для этого является математическое удобство. Подтверждения появились позже в виде допущений, согласно которым рационально принимать решения, суммируя вознаграждения [324], но эти допущения необязательно выполняются в реальности. Допустим, Гарриет выбирает одну из двух последовательностей гедонистических ценностей: [10, 10, 10, 10, 10] и [0, 0, 40, 0, 0]. Вполне возможно, что она просто предпочтет вторую последовательность; никакой математический закон не заставит ее делать выбор, исходя из суммы, а не, скажем, максимума.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация