Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных, страница 26. Автор книги Дэвид Хэнд

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»

Cтраница 26

Когда данные собираются непосредственно людьми, их затемнение, вызванное округлением значений, может быть особенно коварным и даже привести к ошибочным решениям и действиям. Симон де Лузиньян и его коллеги изучили 85 000 зарегистрированных значений артериального давления [51]. Нет никакой разумной причины для того, чтобы эти реальные значения оканчивались на какую-то одну цифру чаще, чем на другие. Иначе говоря, мы должны ожидать, что около 10 % всех значений будут оканчиваться на 0, 10 % – на 1, 10 % – на 2 и т. д. Однако исследователи обнаружили, что 64 % всех показаний систолического артериального давления (в момент, когда сердце сокращается) и 59 % показаний диастолического давления (когда сердечная мышца расслабляется между ударами) оканчивались на 0. Кроме того, они обнаружили, что среди остальных значений было значительно больше четных чисел, нежели нечетных, а среди нечетных самой распространенной последней цифрой была цифра 5. Но реальные показатели кровяного давления не имеют этой странной тенденции группироваться вокруг определенных чисел! Значит, зарегистрированные значения искажены стремлением людей все округлять до удобных чисел.

Так ли это важно? Британский норматив по гипертонии указывает пороговые значения артериального давления, выше которых рекомендуется медикаментозное лечение [52]. В частности, для систолического давления это значение равно 140 мм рт. ст. или выше. Но склонность к округлению до значений, оканчивающихся на ноль (например, округление 137 до 140), означает, что у значительной части пациентов, у которых зарегистрировано это пороговое значение, реальное систолическое давление ниже 140 мм рт. ст.

Стоит отметить, что в этом примере округление является следствием конструктивных особенностей измерительного прибора. Если показания считываются с градуированной шкалы, такой, как на измерительной линейке, возникает естественное стремление округлить их до ближайшего удобного значения. Однако, если показания выводятся в цифровом виде на дисплей, они с большей вероятностью будут зарегистрированы точно или по крайней мере с бо́льшим количеством десятичных знаков. Это внушает оптимизм, поскольку автоматизация современных приборов оказывается полезной с точки зрения противодействия темным данным.

Последний пример подсказывает, что быть особенно внимательными нам следует, когда люди считывают значения с градуированной шкалы измерительного прибора, такой как на линейках, транспортирах или циферблатах. Но то же самое относится и к подсчетам, которые делают сами респонденты в процессе опроса. Джон Робертс-младший и Девон Брюер опросили потребителей наркотиков, со сколькими партнерами им довелось делить наркотики в течение предыдущих шести месяцев [53]. Хотя только два человека сказали, что имели девять партнеров, и четыре человека, что имели 11 партнеров, колоссальное число респондентов, равное 39, заявило, что у каждого из них было по 10 партнеров. Точно так же, у 21 респондента было по 20 партнеров, никто не сказал, что делил наркотики с 19 или 21 партнером. Все это выглядит весьма подозрительно. Было бы очень странно, если бы люди тяготели к такому конкретному количеству партнеров, и не менее странно, если бы эти пиковые значения просто случайно попали в выборку. Куда вероятнее то, что респонденты давали приблизительные ответы, округляя их до ближайшего десятка.

Я называю этот феномен округлением, но когда он является результатом человеческого фактора в процессе сбора данных, то может иметь и другое название: аккумуляция, скопление, образование максимумов, дискретизация или предпочтение определенных чисел.

Он также может принимать форму преднамеренного приближения максимальных и минимальных пределов к наблюдаемым значениям. Например, опросы на тему заработной платы часто включают формулировки типа «$100 000 и более», чтобы побудить ответить тех, кого предоставление подробной информации просто оттолкнуло бы от участия в опросе. При такой стратегии устанавливают верхний предел избыточности наряду с нижним пределом избыточности, когда отсекают нижние значения.

Игнорирование такого усечения может привести к серьезным ошибкам. Например, средняя заработная плата, рассчитанная на основе таких данных, может быть далека от действительности, если вы не учли тот факт, что «$100 000 или более» может означать намного больше, возможно, на десятки миллионов долларов. Более того, отсечение наибольших значений и обработка их как значений интервальных, безусловно, приведет к недооценке дисперсии данных.

Обобщение

Как правило, пытаться понять смысл большой таблицы данных, просто разглядывая ее, занятие малопродуктивное. Чтобы облегчить задачу, нужно сначала обобщить значения. Другими словами, мы анализируем данные, сжатые до формата сводок, который нам удобнее воспринимать. Например, мы вычисляем средние значения и диапазоны значений, а также более сложные статистические обобщения, такие как коэффициенты корреляции, коэффициенты регрессии и факторные нагрузки. Однако, по определению, любое обобщение означает жертвование деталями или, что то же самое, затемнение данных (DD-тип 9: обобщение данных).

Если я скажу вам, что средний вес американских мужчин старше 20 лет составляет 88,8 кг, то вы наверняка сочтете эту информацию потенциально полезной [54]. И действительно, можно сравнить это значение со значениями предыдущих лет, чтобы узнать, изменяется ли средний вес. Но вот что вы не сможете сделать, так это определить число мужчин, вес которых выше той или иной величины. Вы не сможете сказать, является ли это среднее результатом существования небольшого числа чрезмерно тяжелых мужчин и очень худых или же есть много таких, у кого вес чуть выше среднего. Вы не сможете сказать, для скольких мужчин среднее значение показывает их вес с точностью до килограмма. На эти и другие вопросы невозможно ответить, потому что само понятие среднего исключает индивидуальные значения, затемняя данные.

Из этого мы можем сделать несколько выводов. Один из них состоит в том, что разные статистические сводки, обобщая данные разными способами (например, по среднему значению, по разбросу значений, по степени отклонения значений от среднего), не сообщают нам всех данных. Затемняя данные, сводки могут скрывать важную информацию, и мы всегда должны быть начеку.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация