Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных, страница 12. Автор книги Дэвид Хэнд

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»

Cтраница 12

Предположим, мы хотим определить средний возраст людей в стране. Это значимая информация, позволяющая понять, например, достаточно ли в стране людей трудоспособного возраста (и будет ли их достаточно по мере старения населения), чтобы собранные с них налоги могли обеспечить пенсию старшему поколению. Важность и потенциальное влияние среднего возраста становится очевидным, если взглянуть на два государства, занимающих крайние противоположные позиции на этой шкале: западноафриканский Нигер, где 40 % населения не достигло возраста 15 лет, и Японию, в которой всего 13 % населения приходится на эту возрастную группу.

Представим, что у нас нет записей о рождении, что мы не можем позволить себе провести перепись и узнать возраст каждого, а базы данных, собранные различными службами и сервисами, которые просят указать при регистрации дату рождения, не внушают доверия из-за наличия темных данных. Опросы позволяют получить достаточно точную оценку, задавая лишь некоторым людям вопрос об их возрасте. Вы, должно быть, сразу сообразили, что существует очевидный риск возникновения темных данных, поскольку мы не узнаем возраст всех тех, кто не попал в наш опрос. Но закон больших чисел говорит о том, что узнать это вполне возможно при условии репрезентативности выборки. Более того, математика, лежащая в основе этого закона, утверждает, что выборка необязательно должна быть огромной – тысячи человек для средних размеров страны может оказаться достаточно. Согласитесь, это совсем не то, что опрашивать миллионы.

Обычно к выборке прилагается крайне важное пояснение, которое описывает ее как сформированную либо «случайно», либо «должным образом». Если мы включим в выборку только посетителей ночных клубов или только обитателей домов престарелых, то вряд ли сможем точно определить средний возраст населения. Нам нужно быть уверенными, насколько это возможно, в том, что выборка должным образом представляет исследуемое население. Лучший способ достичь этого – начать с составления списка всех интересующих нас представителей населения (такой список называется рамкой выборки), затем случайным образом выбрать людей из этого списка и спросить их о возрасте. Такие детальные списки часто создают на основе административных данных, например списков избирателей или результатов последней переписи.

Поначалу случайный выбор тех, кого спрашивать о возрасте, может показаться странным. Конечно, каждый такой опрос может давать разный результат. Однако, хотя он не гарантирует того, что выборка свободна от негативного влияния темных данных (например, что доля молодых людей в ней не выше, чем в популяции), вероятность таких искажений поддается контролю. Это означает, что мы можем утверждать, например, следующее: «Почти для всех (то есть для 95 %) сформированных выборок среднее значение может отклоняться не более чем на два года от среднего возраста населения». Увеличивая размер выборки, мы можем увеличить и уверенность с 95 %, скажем, до 99 %, и уменьшить диапазон отклонений на год или любую другую величину. А если вас беспокоит отсутствие абсолютной достоверности выводов, сделанных по результатам такого процесса, напомним, что ничто в этой жизни не является абсолютно достоверным (разве что смерть и налоги).

Один из любопытных аспектов закона больших чисел состоит в том, что точность оценки существенно не зависит от того, насколько большую долю населения составляет выборка, во всяком случае если популяция большая, а выборка относительно невелика. Точность, как ни странно, зависит просто от численности выборки. При прочих равных условиях выборка численностью тысячу человек для населения в миллион обычно дает такую же точность, как и для населения в миллиард. Это верно, несмотря на то, что отношение выборки к совокупности в первом случае будет один к тысяче, а во втором – один к миллиону.

К сожалению, эта стратегия выборочного опроса не является волшебной палочкой. Как и во всем остальном в жизни (или почти во всем остальном?), у опросов есть и обратная сторона, а именно то, что они обычно подразумевают добровольное участие. Это означает, что люди могут отвечать на одни вопросы и не отвечать на другие или даже отказаться от участия в принципе. И тут мы входим в область темных данных DD-тип 4: самоотбор.

Пример такого отсутствия ответа приведен в табл. 1, где показаны данные с некоторыми отсутствующими значениями. Они обозначены вопросительным знаком (часто для этого используется аббревиатура NA, что означает not available или «нет данных»). В таблице приведены 10 записей с маркетинговыми данными, взятых с сайта данных для машинного обучения [21]. Данные были собраны из анкет, выданных посетителям торгового центра в районе залива Сан-Франциско. Цель исследования заключалась в построении модели прогнозирования доходов в зависимости от переменных. Вот эти переменные: A – пол, B – семейное положение, C – возраст, D – образование, E – род занятий, F – сколько лет проживает в Сан-Франциско, G – число работающих в семье, H – численность семьи, I – число членов семьи младше 18 лет, J – статус домохозяйства, K – тип жилой недвижимости, L – этническая группа, M – язык и, наконец, последняя переменная, которая должна была быть спрогнозирована, N – доход (на сайте дается более подробная информация о значении и диапазоне каждой из переменных, я же для удобства обозначил их буквами). Весь набор данных содержит 8993 строки, подобных тем, что показаны в таблице, но в 2117 из них есть отсутствующие значения – так же, как и в трех строках приведенного фрагмента. При этом в одной из этих трех строк отсутствует два значения. Эти отсутствующие значения явно относятся к DD-типу 1: данные, о которых мы знаем, что они отсутствуют, поскольку мы отчетливо видим, что в ячейках не хватает чисел.


Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Столбец таблицы, обозначенный буквой «М», показывает ответы на вопрос «На каком языке чаще всего говорят в вашем доме?». Есть три варианта ответов: 1 – на английском, 2 – на испанском и 3 – на любом другом языке. Поскольку только одна из этих категорий может быть верной для каждого домохозяйства, а вместе они включают в себя все возможные языки, то мы знаем, что для каждой строки существует только один из трех предложенных вариантов ответа. Но по какой-то причине два человека в нашей выборке просто не стали отвечать.

Иногда, впрочем, записи являются неполными по причине того, что подходящих значений просто нет – ответа не существует. Например, поле, в котором указывается возраст супруга респондента, должно остаться пустым, если респондент не состоит в браке. Это порождает интересный вопрос о том, как мы должны относиться к таким недостающим значениям. Ситуация явно отличается от того, если бы кто-то, состоящий в браке, просто не заполнил это поле. Но имеет ли это различие значение? Если два типа отсутствия ответа будут рассматриваться нами одинаково, приведет ли это к ошибочным выводам?

Вход
Поиск по сайту
Ищем:
Календарь
Навигация