Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных, страница 20. Автор книги Дэвид Хэнд

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»

Cтраница 20

Различия в характере этих процессов сбора информации непосредственно влияют на возникновение темных данных. Поскольку обзор CSE & W призван выяснить, жертвами каких преступлений становились респонденты, то он по определению не дает никакой информации, скажем, об убийствах или хранении наркотиков. Он также не затрагивает людей в местах коллективного проживания, таких как дома престарелых или студенческие общежития, и не распространяется на преступления против коммерческих организаций или государственных органов. Это говорит о большом потенциале для темных данных, хотя когда мы четко определяем охватываемую обзором область, то делаем этот риск видимым.

Статистика PRC также содержит темные данные, но они отличаются от темных данных обзора CSE & W. По определению, статистика PRC не включает в себя преступления, о которых не сообщают полиции, например, потому, что жертвы порой не рассчитывают на ее помощь. Это существенный момент, поскольку, согласно оценкам, в полицию сообщают в среднем только о 4 из 10 преступлений, хотя и очевидно, что это число различно для разных видов преступности. Более того, в полицейской статистике отражаются в основном так называемые регистрируемые преступления, которые могут быть рассмотрены судом присяжных. Дополнительные сложности возникают из-за механизмов обратной связи (DD-тип 11: искажения обратной связи и уловки). Например, число преступлений, связанных с хранением наркотиков, зависит от активности самой полиции, а эта активность зависит от предполагаемого объема наркотиков, имеющихся у людей, на который влияет число зафиксированных преступлений, связанных с хранением наркотиков, в прошлом.

Использование разных определений объясняет расхождения между уровнями преступности, которые публикуют эти два источника. Например, в 1997 г., по данным PRC, было совершено 4,6 млн правонарушений, в то время как, по оценкам CSE & W, их было 16,5 млн. Различия в определениях также объясняют крайне озадачивший экспертов и читателей факт, состоящий в том, что, согласно PRC, число преступлений в период с 1997 по 2003 г. возросло (с 4,6 млн до 5,5 млн, в то время как обзор показал сокращение их количества (с 16,5 млн до 12,4 млн) [41]. Так все-таки, растет или сокращается преступность? Несложно догадаться, чьи данные выбрало большинство СМИ для публикации.

Медицина

Число областей, в которых определения могут порождать темные данные по причине того, что они не включают те виды данных, которые мы хотели бы получить, огромно. Иногда последствия таких ситуаций бывают просто поразительными. Например, именно проблема несоответствия определений лежит в основе того факта, что сегодня от болезни Альцгеймера умирает больше людей, чем в прошлом.

Болезнь Альцгеймера представляет собой наиболее распространенную форму деменции. Она носит прогрессирующий характер, когда на ранней стадии появляется незначительная забывчивость, которая на более поздних стадиях перерастает в дезориентацию, неспособность понимать происходящее вокруг и изменение личности. Считается, что болезнь в ближайшее время затронет около 50 млн человек во всем мире и со временем этот показатель будет только расти, достигнув, по прогнозам, к 2030 г. 75 млн. И темные данные могут объяснить такой рост как минимум двумя способами.

Во-первых, никто не умирал от этой болезни до 1901 г., поскольку именно тогда немецкий психиатр Алоис Альцгеймер впервые описал случай заболевания, которое впоследствии было названо его именем. Кроме того, первое время диагноз ставили только людям в возрасте от 45 до 65 лет с симптомами деменции и лишь позже, уже в последней четверти XX в., было снято ограничение по возрастному диапазону. Очевидно, что такое расширенное определение изменило число диагностированных людей. Данные, которые ранее рассматривались как несущественные, попали в поле зрения.

Во-вторых (и это объяснение роста смертности от болезни Альцгеймера может показаться парадоксальным), во всем виноват прогресс медицинской науки. Благодаря ему люди, которые раньше бы умерли молодыми, теперь могут прожить достаточно долго, чтобы стать потенциально уязвимыми для таких медленно развивающихся недугов, как болезнь Альцгеймера. Это заставляет задуматься, действительно ли продление жизни является абсолютным благом.

Тот факт, что число диагностируемых случаев аутизма в Соединенных Штатах удвоилось с 2000 г., также может быть в значительной степени объяснен темными данными (DD-тип 8: неверно определяемые данные) [42]. В главе 2 мы уже рассмотрели одну из причин этого – эвристику доступности, когда сам факт аутизма все более осознается обществом. Но есть и другая серьезная причина такого роста, которая состоит в том, что изменения претерпел сам подход к определению и диагностике аутизма. В частности, хотя в 1980 г. аутизм был включен в «Диагностическое и статистическое руководство по психическим расстройствам», в 1987 и в 1994 гг. метод его диагностики был существенно изменен, при этом критерии были ослаблены. Такое ослабление диагностических критериев соответствия означает, что им удовлетворяет большее число людей.

Вдобавок к этому в 1991 г. министерство образования США постановило, что диагноз «аутизм» дает право ребенку на специальные образовательные услуги, а в 2006 г. Американская академия педиатрии рекомендовала педиатрам проверять всех детей на аутизм во время стандартных визитов на дом. Если меняется сам подход к определенным данным, то вполне логично ожидать, что и поведение людей при сборе этих данных тоже будет меняться (это явление обратной связи мы подробно рассмотрим в главе 5). Такой же эффект можно проследить на примере запуска в Англии в феврале 2009 г. сразу нескольких кампаний национального масштаба по профилактике деменции среди населения в соответствии с Национальной стратегией по деменции, направленной на улучшение качества диагностики и медицинской помощи. Неудивительно, что по сравнению с 2009 г. частота выявления деменции увеличилась примерно на 4 % в 2010 г. и на 12 % в 2011 г. [43]

Экономика

В целом можно заключить, что изменение определений с течением времени часто меняет и характер собираемых данных. Это не только затрудняет ретроспективные сравнения, но также может вызвать обвинения в нечестности. Ярким примером служит определение безработицы: достаточно слегка изменить его и, о чудо, результаты работы правительства начинают выглядеть намного лучше.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация