Это называется проблемой упущенных данных. К искажению могут приводить упущенные переменные, но и упущенные измерения действуют аналогично, формируя нерепрезентативные распределения относительно истинного базового распределения. Упущенные значения, как правило, не результат случайного их удаления из набора данных, скорее, они зависят от других измеренных и неизмеренных переменных.
К примеру, в больнице для проведения медицинской процедуры у пациента нужно отключить несколько мониторов (что приведет к пробелу в регистрации сведений), или данные не зафиксируются из-за сбоя аппаратуры. Возможно, сахар в крови будет замеряться с меньшими интервалами, если этот показатель выходит за пределы нормы, поэтому большие пробелы в измерениях не окажутся независимыми от фактических значений, а существующие значения могут отклоняться вплоть до экстремумов. Данные, упущенные из-за скрытой причины, способны вести к искажениям, в то время как сбой аппаратуры может означать, что и другие близкие измерения также ложны (и могут искажать результаты).
В действительности мы только допускаем, что распределения отражают истинную структуру, поскольку размер выборки становится достаточно большим. Если я звоню другу и в этот момент раздается звонок в дверь, трудно сказать, повторится ли снова эта ситуация. Но что если это случается 5 или 15 раз? В общем, мы допускаем, что по мере увеличения массива данных мы все ближе подходим к наблюдению истинного распределения событий. Если бросить монетку всего несколько раз, можно не увидеть равного распределения орлов и решек; но по мере того, как число бросков будет стремиться к бесконечности, распределение приблизится к соотношению 50/50. Здесь увеличение массива данных означает снижение вероятности необычной цепочки событий, которая не будет отражать истинные базовые вероятности (такие как последовательность бросков игральных костей, когда выпадают одни шестерки).
Мы делаем аналогичное допущение для причинного осмысления: у нас достаточно данных, и мы можем усмотреть реальную вероятность (а не аномалию) того, что следствие наступает после причины. Нетрудно возразить, что для некоторых систем, например нестационарных, даже бесконечно большой набор данных может не удовлетворять этому допущению, и стоит исходить из предположения, что со временем отношения останутся стабильными. Вспомним: термин «нестационарные» означает, что свойства (например, средняя дневная прибыль от ценной бумаги) со временем меняются. На рис. 6.3 скидки (временные ряды обозначены пунктиром) и покупки горячего шоколада (сплошные линии) фактически не коррелируют по составным временным рядам, однако сильно взаимосвязаны в период, показанный серым цветом (который обозначает зимний сезон).
Рис. 6.3. Зависимость между двумя переменными со временем меняется, и они связаны только в период, обозначенный серым
Итак, если бы мы использовали все данные, то не выяснили бы, что скидки ведут к росту продаж горячего шоколада. Но, если бы воспользовались только сведениями по зимнему сезону, могли бы найти сильную зависимость. Стоит отметить, что увеличение объема данных не решает проблему – делать это нужно другими способами, о которых мы говорили в главе 4
[234].
Правильная переменная
Задача большинства методов, основанных на логических выводах, – найти зависимости между переменными. Если вы располагаете данными по финансовым рынкам, переменными будут отдельные ценные бумаги. В политологии ими могут быть дневные пожертвования в фонд политической кампании или количество телефонных звонков.
Мы можем либо начать с набора уже измеренных факторов, либо провести некоторые измерения, и обычно мы считаем каждый измеренный фактор переменной. Однако есть некоторая неопределенность: нужно не только измерить правильные вещи, но и быть уверенными в их верном описании.
Помимо простого решения, включить в массив некие данные или нет, придется сделать множество выборов относительно организации самой информации. В рамках некоторых исследований обычное ожирение и патологическое (морбидное) могут входить в одну категорию понятий (и мы просто фиксируем, истинны эти состояния или нет для каждого человека). Но в исследованиях, посвященных лечению пациентов с ожирением, различие может оказаться критическим
[235].
Измерение веса дает набор численных значений, которые заносятся на карту категорий. Возможно, самое важное здесь не вес, а то, меняется ли он, и если да, как быстро. Тогда вместо использования первичных данных о весе можно вычислить дневные или недельные отличия. Каково бы ни было решение, оно изменит результаты, поскольку они всегда относительны с точки зрения набора переменных. Если удалить некоторые переменные, может оказаться, что другие причины приобретут видимую значимость (например, снятие резервной причины может придать оставшейся больше видимой силы), а если добавить, то значимость других может снизиться (например, дополнительная общая причина может удалить ошибочную зависимость между следствиями такой причины).
Вернемся к примеру из начала главы, когда два медикамента по отдельности не повышали содержание сахара в крови, но иногда, принятые вместе, оказывали значительное воздействие на этот показатель. Вывод о причинной зависимости между отдельными переменными и разнообразными физиологическими измерениями, к примеру глюкозы, может помешать выявлению связи, но, если взять пару переменных вместе, удастся обнаружить неблагоприятное следствие. В этом случае правильная переменная – наличие двух медикаментов. Ее определение может быть проблематичным, но это единственная причина, по которой можно упустить из виду важные логические выводы, сделанные на основе определенного набора данных.
Графические модели
Нередко, пытаясь описать причинные взаимосвязи кому-то другому или понять, как вещи работают вместе, мы рисуем картинки. Такие изображения можно соотнести с вероятностными теориями причинности, которые разрабатывают философы. Взглянем на рисунок ниже, где показано, как вероятность одной переменной зависит от другой.
Прежде всего видно, что между рекламными объявлениями и покупательским поведением есть взаимосвязь. Мы знаем, что эта взаимосвязь действует в одном направлении – реклама влияет на покупки, а не наоборот.