Странный феномен, заставляющий нас ожидать того, что хорошие показатели должны ухудшиться, а плохие улучшиться, даже если процесс остался неизменным, называется возвратом к среднему. Это проявление темных данных DD-тип 3: выборочные факты. Как только вы осознаете существование этого явления, вы начнете замечать его на каждом шагу. Давайте разберем на примере.
В 1970 и 1973 гг. в 12 сельхозугодьях Великобритании была зарегистрирована урожайность пшеницы в килограммах
[50]. В табл. 5 показано, увеличивалась или уменьшалась урожайность за эти годы. Мы видим, что из шести участков с самой низкой урожайностью в 1970 г. пять имели наибольшую урожайность в 1973 г. И наоборот, из шести участков с самой высокой урожайностью в 1970 г. пять показали снижение в 1973 г. Закономерность очевидна, и вот что она означает: если бы в 1970 г. мы выбрали участки с высокой урожайностью, ожидая от них аналогичных результатов в 1973 г., мы были бы разочарованы.
Чтобы понять, откуда берется такая закономерность, предположим, что у нас есть условная группа студентов с одинаковыми способностями и трудолюбием. Несмотря на это, каждый раз по результатам тестирования одни добиваются больших успехов, чем другие. Это обусловлено изменчивостью сопутствующих обстоятельств – хорошо ли человек спал прошлой ночью, не была ли его голова занята чем-то посторонним, верно ли он представлял себе содержание теста и т. д. Да, мы можем оценить студентов в соответствии с результатами теста и тех, кто набрал больше баллов, отнести к лучшим. Но какие сюрпризы нам может преподнести следующий тест?
Поскольку у всех наших студентов одинаковые способности, то набравшие больше баллов в первом тесте добились этого благодаря удачному стечению обстоятельств. Эти обстоятельства, равно как и другие, которые сопутствовали менее успешным студентам, вряд ли повторятся. Поэтому, скорее всего, студенты с самыми высокими показателями справятся хуже со следующим тестом, а студенты с самыми низкими показателями вполне могут выглядеть лучше.
Проблема кроется в том, что результаты первого теста, то есть исторические данные, показывают нам не сами способности ученика, а их комбинацию со случайными факторами. Случайность как бы скрывает от нас истинные способности.
Конечно, в реальности мы вряд ли найдем группу студентов с одинаковыми способностями и трудолюбием. Каждый из них будет отличаться уникальным набором качеств. Но даже в этом случае всегда будет вероятность, что те студенты, которые отличились во время первого теста, проявят себя хуже при прохождении второго, поскольку как минимум некоторые из лучших результатов первого теста могли быть банальной удачей. Отсюда следует, что, отобрав наиболее успешных студентов, например, на работу в компанию или на дипломный проект, в будущем мы можем столкнуться с тем, что их успеваемость не столь хороша.
Какой практический смысл есть в этом примере? Означает ли он, что мы должны избегать тех, кто добился лучших результатов? Ответ, как правило, отрицательный, поскольку в будущем они все еще могут преуспеть, просто не в той степени, какую можно было бы ожидать на основе исторических данных. В целом степень ухудшения показателей лучших студентов (или улучшения показателей отстающих) зависит от соотношения величины случайного аспекта измерения и реальных способностей. Если диапазон неопределенности, возникающей из-за случайных аспектов, достаточно велик по сравнению с диапазоном способностей, то эффект будет ярко выраженным. Обратите внимание, что степень неопределенности нам неизвестна – все, чем мы располагаем, это сочетание неопределенности и способностей. По этой причине и неопределенность, и способности являются темными данными.
Сам термин «возврат к среднему» был введен блестящим эрудитом викторианской эпохи Фрэнсисом Гальтоном. Он заметил, что (в среднем) дети высоких людей хотя и оказывались выше среднего роста, но при этом не были настолько же высокими, как их родители, а дети, рожденные невысокими людьми, хотя и были ниже среднего роста, но все-таки превосходили своих родителей в росте.
В этой главе мы рассмотрели некоторые пути, которыми темные данные вводят нас в заблуждение, если мы недостаточно внимательны или не вполне понимаем то, что собираемся выяснить. Следующая глава посвящена тому, как мы попадаемся на удочку, даже если точно понимаем, что именно мы хотим узнать.
Глава 4
Непреднамеренные темные данные
Видим одно, регистрируем другое
Общая картина
Не все измерения абсолютно точны. Подсчет детей в семье или кораблей в море ведется в удобных целых числах, но такие измерения, как, например, длина, будут неизбежно округляться до некоторого уровня. Это может быть сантиметр, миллиметр, микрон (миллионная доля метра), десятая доля микрона, но не бесконечное число знаков после запятой. Иными словами, мы не можем определить детали дальше какого-то уровня приближения и вынуждены ограничиваться общей картиной (хотя сама по себе она может быть просто малюсенькой!). А это означает, что детали остаются во мраке.
Мы видим округление всякий раз, когда смотрим на табличные данные, например 70,3, или 0,04, или 41,325, или значения вроде 76,2±0,2, где ±0,2 – диапазон точности, в пределах которого значение можно считать истинным. Такая запись наглядно демонстрирует тот факт, что мы имеем дело с темными данными.
Округление необходимо и стало настолько привычным, что подчас мы просто не замечаем, что оно скрывает данные. Например, возраст людей часто записывается с точностью до ближайшего года, несмотря на тот факт, что на самом деле понятие возраста включает в себя число дней, часов, минут и т. д., а также на то, что присущая данному параметру погрешность, связанная с разной продолжительностью самих родов, означает, что более высокая точность не может быть достигнута. Общее правило округления возраста до ближайшего меньшего целого числа лет означает, во-первых, что возраст стремится к целому числу и, во-вторых, что его значение всегда меньше, чем фактическое время, которое прожил человек.
Иногда возраст округляют до ближайших пяти лет или вообще классифицируют как «младший», «средний» или «старший» с границами на уровне 25 и 65 лет. Хотя для некоторых целей этого бывает достаточно, мы упускаем много информации, а именно то, что происходит внутри возрастных групп. Эта проблема становится особенно заметной, если взять крайний случай и разделить людей на две категории – на младших и старших, в зависимости от того, являются они моложе или старше, скажем, 35 лет. Данные, обобщенные таким образом, дают нам возможность увидеть, имеет ли старшая группа свойства, отличные от свойств младшей группы, например, отличается ли их средний доход или доля, состоящих в браке. Но мы не видим более тонких взаимосвязей. Например, мы не можем утверждать, увеличивается ли средний доход начиная с младшего возраста, достигая своего максимума в среднем возрасте, а затем снижаясь у пожилых людей. Затемнение или «укрупнение» данных лишает нас потенциальной возможности таких открытий, опуская плотный занавес.