* * *
Важно помнить, что, помимо математических причин, по которым можно распознать ложные корреляции, есть еще наблюдение за данными, позволяющее найти ложные паттерны. Некоторые из когнитивных смещений, заставляющие нас видеть соотношение несвязанных факторов, также сходны с ошибкой отбора. К примеру, предвзятость подтверждения заставляет искать доказательства в пользу определенного убеждения. Иными словами, если вы верите, что лекарство вызывает некий побочный эффект, вы приметесь читать в интернете отзывы тех, кто уже принимал его и наблюдал это действие. Но таким образом вы игнорируете весь набор данных, не поддерживающих вашу гипотезу, вместо того чтобы искать свидетельства, которые, возможно, заставят ее переоценить. Предвзятость подтверждения также может заставить вас отказаться от свидетельств, противоречащих вашей гипотезе; вы можете предположить, что источник сведений ненадежен или что исследование основывалось на ошибочных экспериментальных методах.
Помимо предвзятости с точки зрения доказательств, может случиться ошибка интерпретации аргументов. Если в ходе «неслепого» тестирования нового лекарства доктор помнит, что пациент принимает это средство и считает, что оно ему помогает, то может начать искать признаки его эффективности. Поскольку многие параметры субъективны (например, подвижность или усталость), это может привести к отклонениям в оценке данных индикаторов и логическим заключениям о наличии несуществующих кореляций
[118]. Этот пример взят из реального исследования, где доктора, выведенные из слепого метода, сделали вывод об эффективности препарата (мы подробнее обсудим ситуацию в главе 7). Таким образом, интерпретация данных может различаться в зависимости от убеждений, что приводит к отличиям в результатах
[119].
Есть и специфическая форма предвзятости подтверждения – иллюзорная корреляция. Она означает поиск соотношения там, где его нет. Возможная взаимосвязь симптомов артрита и погоды настолько широко разрекламирована, что считается доказанной. Однако знание о ней может привести к тому, что пациенты будут говорить о корреляции просто из ожидания ее увидеть. Когда ученые попытались проанализировать эту проблему, взяв за основу обращения пациентов, клинические анализы и объективные показатели, то не обнаружили абсолютно никакой связи (а другие выяснили, что истинным виновником могла быть сырость, хотя и этот вывод не окончателен)
[120]. А когда студентам колледжей показали данные из анкет пациентов, где отмечались одновременно болевые симптомы и атмосферное давление, те не только увидели корреляции там, где их не было, но и представили разные интерпретации одних и тех же последовательностей как положительно или отрицательно соотносящихся.
Это подобно ошибке отбора, поскольку одной из причин выявления неверной корреляции может быть концентрация на одном сегменте информации. Если вы прогнозируете отрицательное соотношение переменных, легко сосредоточите внимание на небольших сегментах целого, подтверждающих ваш прогноз. И такой случай относится к предвзятости подтверждения: можно сфокусировать внимание на определенных данных, повинуясь сформированным убеждениям. В случае с артритом и погодой люди, возможно, придают слишком большое значение определенным фактам (отбрасывая проявившиеся симптомы при хорошей погоде и придавая особое значение таким же при плохой) или видят доказательства там, где их нет (по-разному отмечают заболевание в зависимости от погоды и от ожидаемой связи того и другого).
Как пользоваться корреляциями
Скажем, мы действительно обнаружили соотношение между сроком представления заявки на грант и его получением. Действительно, чем раньше подана заявка, тем выше она будет оценена, поэтому коэффициент корреляции здесь и вправду будет равен единице. Значит, можно безошибочно предсказать, что некто получит грант, если подаст заявку за неделю, да?
Именно на это рассчитывают многие ретейлеры, пытаясь выявить индикаторы, которые спрогнозируют поведение покупателей. Реклама компании Target не сходила с газетных полос, когда ее представители заявили, что «узнали» о беременности девочки-подростка раньше, чем ее семья
[121]. Разумеется, в Target на самом деле понятия не имели об этом; просто воспользовались огромным пулом сведений, собранных от других покупателей (и из других источников), чтобы выяснить, какие факторы коррелируют с разными стадиями беременности. На основе приличного объема наблюдений компания смогла, например, выяснить, что покупка либо лосьона, либо ватных шариков сама по себе не значимый факт, но беременные женщины часто выбирают оба эти предмета вместе с определенными витаминными добавками. Имея достаточно данных о покупательных паттернах и соответствующих сроках (это можно выяснить из записей о рождениях или спрогнозировать на основе информации о приобретении тестов на беременность), компания может определить вероятность беременности покупательницы и даже оценить, на каком она сроке. Даже если просто знать, что девушка приобрела два теста один за другим, это позволит сделать вывод, что первый оказался положительным.
Корреляции используют, например, Amazon, Netflix и LinkedIn, предлагая дополнительные товары, фильмы, которые могут вам понравиться, или потенциальные контакты.
Netflix, к примеру, может найти людей, которым нравятся те же фильмы, что и вам, и предложить вам киноленты, на которые эти люди дали хорошие отзывы. Именно это позволило ученым повторно идентифицировать людей в деидентифицированном наборе данных Netflix, воспользовавшись информацией из другого источника – IMDb
[122],
[123]. Алгоритмы вообще-то сложнее, чем те, о которых мы рассказали, но основная идея именно такова. Правда, эти компании не обязательно волнуют причины, по которым вы совершаете некие действия. Netflix может порекомендовать достаточно фильмов, которые вам понравятся, не потрудившись выяснить, что после напряженного дня вы смотрите только сериалы.
Есть, однако, немало примеров, когда предсказания, основанные на корреляциях, не оправдываются – даже если не уточнять, соответствуют ли соотношения причинным зависимостям. Одна из опасностей в том, что для любой корреляции между двумя переменными можно с большой вероятностью придумать ситуацию, когда такая взаимосвязь возникнет, а это ведет к ложной вере в результат.
Известен пример из области анализа данных, когда сведения о продажах в бакалейном магазине помогли выяснить, что люди часто покупают пиво и подгузники одновременно. Так возник миф, что мужчины, которые накануне выходных запасаются подгузниками, обязательно купят хоть немного пива в качестве награды за поход в магазин. Но, вернувшись в 2002 году к истокам этого случая, Дэниел Пауэр обнаружил, что изначальная корреляция ничего не говорила о гендерной принадлежности покупателей или в какой день недели совершались покупки. К тому же никогда не предпринимались попытки использовать ее для повышения прибыли – передвинув товары на полке магазина ближе друг к другу. Купленными товарами могли с тем же успехом оказаться попкорн и бумажные салфетки (для вечера перед телевизором) или яйца и таблетки от головной боли (для лечения похмелья).