Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных – страница 61 | Дэвид Хэнд

Наконец, ненаблюдаемые значения могут быть из категории UDD, и отсутствие возраста жен будет зависеть от самого этого возраста. Это вполне резонно: еще не так давно в западном мире считалось неприличным спрашивать даму о ее возрасте, а если вопрос все же задавался, то отвечали на него крайне неохотно. Вот отрывок из рассказа «Сват» британского писателя Саки, опубликованного в книге «Хроники Кловиса» (The Chronicles of Clovis) в 1911 г.^[149]:

«Кризис наступил, – ответил Кловис, – когда она внезапно двинула теорию, что негоже ей по ночам сидеть дома одной, и потребовала, чтобы к часу я всегда возвращался. Только представь себе! А ведь мне восемнадцать, по крайней мере было в мой последний день рождения».

«В твои последние два дня рождения, если уж быть математически точным».

«Ну, это не моя вина. Я не собираюсь становиться 19-летним, поскольку моей матери должно быть 37 и не больше. Возраст все-таки влияет на внешний вид».

Эта условность может объяснить недостающие значения: возможно, пожилые женщины были менее склонны отвечать на вопрос о возрасте.

Наши действия в первом случае просты, как и сама категория NDD. Поскольку недостающие наблюдения не связаны с какими-либо фактическими значениями данных, мы можем игнорировать любые пары, для которых отсутствует возраст жены, и оценить средний возраст жен в Великобритании по другим имеющимся парам. Это означает, что выборка станет несколько меньше, чем те 200 пар, на которые мы рассчитывали, но само по себе это не вносит каких-либо смещений или системных искажений в оценку. Конечно, если будет отсутствовать слишком много значений и размер выборки значительно уменьшится, то повысится недостоверность наших выводов, но это уже другой вопрос.

А что насчет категории SDD? Вероятность того, что жена скажет, сколько ей лет, зависит от возраста ее мужа, поэтому мы можем получить искаженную выборку возрастов жен. Например, мы можем обнаружить, что значения возрастов пожилых жен, которые, как правило, состоят в браке с мужьями старше их, будут представлены недостаточно. Если игнорировать такую вероятность, то мы занизим средний возраст жен.

Ситуация сама показывает нам, как справиться с проблемой. Хотя для мужей любого конкретного возраста не все жены могут сказать, сколько им лет, те, кто сообщает это, являются просто случайной выборкой всех жен для мужей этого возраста (напомню, мы предположили, что их желание отвечать не зависит ни от чего другого, кроме как от возраста мужа). Это означает, что средний возраст тех жен, которые сообщили его, можно использовать как оценку среднего возраста всех жен для мужей этого возраста. Кроме того, это означает, что мы можем изучать соотношения возраста мужа и возраста жены, используя только те возрастные пары, которые у нас есть. И после того, как мы оценим эти соотношения, можно использовать их для получения ожидаемого возраста всех жен для мужей конкретных возрастов. Теперь не составит труда оценить общий средний возраст всех жен: мы просто вычисляем среднее значение, используя возраст тех, кто ответил на вопрос, и ожидаемый возраст тех, кто этого не сделал.

Наконец, данные могут относиться к категории UDD. Если отсутствие возраста жены зависит от самого этого возраста (например, если его не указали те из жен, кто старше), то мы снова получаем искаженную выборку возрастов. Но теперь уже нельзя игнорировать неполные пары, как мы делали это в случаях NDD и SDD. Для мужей всех возрастов жены, которые не сообщили свой возраст, оказываются, как правило, старше тех, кто его сообщил, но у нас нет никакой информации о том кто из них кто. Любой анализ без учета такого искажения может содержать серьезные ошибки. В случае с категорией UDD нам нужно искать решение в другом месте.

Первоначально большинство исследований, посвященных тому, как справляться с проблемой недостающих данных, проводились экономистами. Это вполне ожидаемо: экономика является особенно сложной в данном отношении областью, поскольку люди в экономике не просто пассивные объекты для измерения; они реагируют на само проведение измерений и, возможно, даже отказываются от них. В частности, они могут отказываться отвечать на вопросы в зависимости от ответов, которые предстоит дать.

Важность темных данных в экономике иллюстрируется тем фактом, что в 2000 г. американский экономист Джеймс Хекман был удостоен Нобелевской премии «за разработку теории и методов анализа селективных выборок», которой он занимался в 1970-х гг. Понятие «селективные выборки» – это еще один способ показать, что у вас не хватает данных, а есть только отдельные выборки, сделанные из имеющихся значений. Подход Хекмана известен как «двухшаговый метод». Он заключается в том, что при обработке данных SDD сначала создается модель, в которой намеренно отсутствуют некоторые данные, а затем она используется для корректировки общей модели – аналогично тому, как это было в примере с Кэти Марш. Самого Хекмана интересовали такие вещи, как продолжительность рабочего дня и рыночная заработная плата. Пример, который он использовал, стал уже классическим: значение заработной платы, которую получает женщина, связанное с другими переменными, но отсутствующее, если женщина увольняется (все то же самое относится и к мужчинам!).

Мы уже сталкивались с экономическими примерами, особенно из категории SDD, когда в главе 2 рассматривали финансовые показатели. Например, индекс Dow Jones Industrial Average представляет собой сумму цен акций 30 крупнейших публичных компаний США, разделенную на поправочный коэффициент Доу. Но компании приходят и уходят – состав индекса Dow Jones менялся более 50 раз с момента его запуска в 1896 г. В частности, компании могут быть исключены из индекса, если начинают испытывать финансовые трудности или в силу изменений в экономике. Это означает, что индекс отражает результаты только тех компаний, которые достаточно успешны. Но признаки ухудшения результатов или экономических изменений должны предшествовать решению об исключении компании из индекса – это данные категории SDD.

Аналогичным образом из-за ухудшившихся результатов компании исключаются из индекса S&P 500 – средневзвешенного индекса акций, куда входят 500 компаний с высокой рыночной капитализацией. Решение о том, какие компании исключить, должно приниматься на основе данных, доступных до исключения (при условии, что это не ретроспективные данные!). Поэтому и здесь данные, описывающие исключенные компании, отсутствуют в расчете индекса и могут быть отнесены к категории SDD.

В качестве последнего примера с финансовыми индексами давайте вспомним, как в главе 2 мы обнаружили, что ошибка выжившего затронула не только индексы Dow Jones и S&P 500, но и индексы хедж-фондов. Например, Barclay Hedge Fund Index основан на среднем арифметическом чистой доходности хедж-фондов, составляющих базу данных Barclay. Но фонды, показатели которых ухудшились до такой степени, что они были закрыты, туда не включаются. Однако, повторюсь, ухудшение показателей должно стать очевидным до того, как фонд будет закрыт, поэтому эти данные также представляют собой категорию SDD.

Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных, страница 61 – Дэвид Хэнд

Онлайн книга «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»