Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных – страница 10 | Дэвид Хэнд

Отказ от участия – иначе говоря, предоставление людям права не быть включенными в базу данных – требует от них по меньшей мере некоторых усилий. В такой ситуации многие просто ленятся что-то делать, принимают установки по умолчанию и потому попадают в базы данных. Потенциально более строгая альтернатива отбора подразумевает приложение усилий уже для включения в базу данных. В этом случае врожденная лень, наоборот, может сделать только хуже: требовать от людей каких-то действий – верный способ уменьшить число откликов.

В примере с медицинскими картами фигурируют четко оформленные административные данные, но иногда мы имеем дело с вещами менее очевидными. С такими, например, как сброшенные звонки в службу экстренной помощи.

Сброшенным считается такой вызов, когда кто-то производит набор номера экстренной службы, но вешает трубку или как-то иначе прерывает звонок, прежде чем ответит оператор. В сентябре 2017 г. BBC на своем сайте сообщила, что за год, начиная с июня 2016 г., количество сброшенных вызовов в диспетчерские британской полиции выросло вдвое: с 8000 до 16 300^[16]. Существуют разные теории о том, почему это происходит. Например, одна из них утверждает, что полиция перегружена звонками и поэтому операторам требуется слишком много времени, чтобы принять очередной вызов. Другая теория гласит, что причина заключается в случайном нажатии телефонных кнопок в кармане или сумочке, что автоматически генерирует такие вызовы.

Если бы эта последняя теория действительно все объясняла, можно было бы ожидать, что проблема не возникнет или по крайней мере не будет столь острой в Соединенных Штатах, где для набора номера экстренного вызова 911 используются две разные цифры, в отличие от 999 в Великобритании. Однако частота таких звонков увеличивается и в Америке. Данные Центра экстренной связи Линкольна за три месяца показывают, что число сброшенных звонков с апреля по июнь 2013 г. увеличилось с 0,92 до 3,47 %.

Сброшенные звонки – яркий пример темных данных DD-тип 1: данные, о которых мы знаем, что они отсутствуют. Не менее яркий пример темных данных DD-тип 2: данные, о которых мы не знаем, что они отсутствуют, был приведен Майком Джонстоном, редактором сайта The Online Photographer^[17]. В своей редакторской колонке он пишет: «Всякий раз, когда я читаю описание бревенчатых хижин времен освоения Дикого Запада как хорошо сработанных, добротных и красивых построек, я тихонько посмеиваюсь. Ведь, скорее всего, 99,9 % срубов того времени были построены просто ужасно – поэтому они все и развалились. Те немногие, что сохранились в первозданном виде, были действительно сделаны неплохо. Но это не значит, что все хижины были такими». Поскольку не осталось никаких документальных свидетельств об этих развалившихся бревенчатых хижинах, мы имеем дело с темными данными.

DD-тип 2: данные, о которых мы не знаем, что они отсутствуют, особенно обманчив, потому что у нас, как правило, нет оснований подозревать существование таких данных. Допустим, вы читаете лондонскую The Times от 29 декабря 2017 г. и, так же как и я, узнаете, что, «по данным полиции, число сексуальных домогательств, предположительно совершенных водителями такси по отношению к пассажирам, возросло на одну пятую за три года». Объяснение, лежащее на поверхности, состоит в том, что совершается все больше подобных правонарушений. Но есть и другое объяснение, вытекающее из темных данных: число совершенных преступлений не меняется, зато растет число сообщений о них. Темные данные, которые были до этого скрыты, становятся видимыми в результате изменения нравов и общественных норм. Отсюда следует важный вывод общего характера: если мы видим внезапное изменение шага во временном ряду значений, это может быть связано не только с тем, что поменялись параметры наблюдаемой реальности, но и с тем, что изменилась сама процедура сбора данных. Это также проявление темных данных DD-тип 7: данные, меняющиеся со временем.

Более сложный пример того, как работают в тандеме DD-тип 2: данные, о которых мы не знаем, что они отсутствуют и DD-тип 7: данные, меняющиеся со временем, дают нам показатели инвестиционных фондов. Рынок таких фондов в целом отличается высокой динамикой – постоянно создаются новые фонды, а старые умирают. Понятно, что, как правило, умирают неэффективные предприятия, а преуспевающие остаются. И если мы не примем во внимание эти исчезнувшие фонды, то средние результаты оставшихся на плаву покажутся нам весьма неплохими.

Хотя фонды, прекратившие свое существование из-за низкой доходности, исключаются из индекса, который показывает общую или среднюю результативность по рынку, можно попытаться самим заглянуть в прошлое и получить нужные данные по этим фондам. Это изменило бы их статус с DD-типа 2: данные, о которых мы не знаем, что они отсутствуют на DD-тип 1: данные, о которых мы знаем, что они отсутствуют, и позволило оценить, как их отсутствие влияет на расчеты. Исследование, проведенное в 2006 г. Эми Барретт и Брентом Бродески, показало, что «очистки базы данных Morningstar от самых слабых фондов повышали видимую доходность в среднем на 1,6 % в год в течение 10-летнего периода [1995–2004 гг.]»^[18]. В другом исследовании, опубликованном в 2013 г., Тодд Шлангер и Кристофер Филипс из инвестиционной компании Vanguard изучили результативность фондов, исключая, а затем включая выбывшие из игры фонды в расчет доходности за последние 5, 10 и 15 лет^[19]. Различия оказались поразительными: доходность тех инвесткомпаний, которые на протяжении 15 лет исключали из расчетов подобные фонды, почти вдвое превышала показатели тех, кто их учитывал. Это исследование выявило также и масштаб темных данных в сфере инвестиционных фондов: только 54 % из них просуществовали в течение всего 15-летнего периода.

Этот феномен оказывает влияние и на такие знакомые финансовые индексы, как Dow Jones и S&P 500. Компании, которые плохо работают, выпадают из расчета этих индексов, так что только те, которые справляются относительно неплохо, вносят свой вклад в их значение. Это хорошо, если вы инвестировали именно в те компании, которые преуспели, но обратная ситуация совсем не радует. А поскольку крайне сложно (некоторые скажут, что невозможно) определить, какие компании будут продолжать работать хорошо, а какие нет, то индексы обманчивы.

Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных, страница 10 – Дэвид Хэнд

Онлайн книга «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»