Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных, страница 11. Автор книги Дэвид Хэнд

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»

Cтраница 11

Предостерегая от так называемой ошибки выжившего в отношении индексов, стоит отметить, что все может быть еще сложнее. Если говорить о хедж-фондах, то не только фонды с низкими результатами могут закрываться и не включаться в расчет – самые результативные из них тоже нередко закрываются для новых инвесторов. По аналогии сильные компании могут провести дробление акций, находящихся в обращении, чтобы стать доступнее для новых инвесторов, и как результат выпасть из расчета фондового индекса. Темные данные могут воздействовать непостижимым образом.

Кроме того, по причинам, которые мы рассмотрим в главе 3, есть большая вероятность, что фонды, которые работали исключительно хорошо в прошлом, пойдут на спад в будущем по причине «возврата к среднему значению». Это означает, что инвесторам нужно очень внимательно следить за тем, как оценивается прошлая результативность фондов. Так же, как и в любых других сферах жизни, они должны спрашивать себя: «Не сокрыта ли истина под покровом темных данных?»

Ошибка выжившего является потенциальной проблемой для всех ситуаций, когда со временем что-то меняется. В мире стартапов мы больше слышим об успехах, чем о неудачах, хотя большинство таких компаний терпит именно неудачу. Одни исследователи считают, что их доля составляет всего 50 %, другие – что 99 %. Конечно, многое зависит от того, какой период времени вы рассматриваете (год или 50 лет?) и что понимаете под «неудачей». Возьмем, к примеру, социальную сеть Bebo. Запущенная в 2005 г., она была одной из самых популярных соцсетей в Великобритании с почти 11 млн пользователей. В 2008 г. Bebo была куплена AOL за $850 млн. Так вот, на трехлетнем горизонте компания была невероятно успешной. Но затем число пользователей начало сокращаться, в том числе из-за того, что они переходили в Facebook, и в 2010 г. AOL продала Bebo Criterion Capital Partners, после чего компьютерный сбой окончательно подорвал ее репутацию, и в 2013 г. компания подала заявление о банкротстве в соответствии со статьей 11 Закона о банкротстве США. Позже, в 2013 г. ее основатели Майкл и Сочи Берч выкупили компанию за $1 млн. Так что это, успех или неудача? А как насчет Lehman Brothers? Эта фирма, основанная в 1850 г., была четвертым по величине инвестиционным банком в Соединенных Штатах, пока не объявила о банкротстве в 2008 г. Как и Bebo, компания потерпела крах, хотя и просуществовала намного дольше. Но была ли ее история историей успеха или же провалом?

В мире стартапов люди по естественным причинам хотят слышать истории успехов, а не провалов – ведь они стремятся подражать именно успехам. Но на самом деле им требуются другие данные, остающиеся для них темными. Предприниматели должны искать такие характеристики, которые отличают успехи от неудач, а не просто те, которые сопровождают успех, поскольку они точно так же могут быть связаны и с ошибками в действиях. Более того, даже если характеристики связаны с успехами больше, чем с неудачами, нет никакой гарантии, что эта связь причинно-следственная.

На сайте веб-комиксов xkcd.com есть забавный комикс на тему ошибки выжившего [20]. Персонаж советует нам никогда не прекращать покупать лотерейные билеты, рассказывая, как он проигрывал и терял деньги раз за разом, но все равно продолжал покупать билеты – даже устроился на дополнительную работу, чтобы больше зарабатывать и покупать их еще больше. И вот в конце концов он преуспел (если слово «преуспел» тут уместно). При этом за кадром громоздятся горы трупов азартных игроков, которые точно так же вкладывались в лотерейные билеты, но умерли, ничего не выиграв.

В целом административные данные имеют огромный потенциал, если мы принимаем во внимание риски, связанные с темными данными. Однако есть один аспект, который не выглядит столь радужным и вызывает озабоченность.

С точки зрения отдельного человека, выхлопные данные, хранящиеся в базах административных данных, являются не чем иным, как тенями данных. По сути это цифровые следы, которые мы оставляем каждый раз, отправляя электронные письма, текстовые сообщения, твиты, публикуя комментарии на YouTube, расплачиваясь кредитными картами, используя проездные, совершая телефонные звонки, обновляя приложения для социальных сетей, включая компьютер или iPad, получая наличные в банкомате, проезжая мимо камеры распознавания номерного знака – список можно продолжать бесконечно, причем порой следы наших действий считываются весьма неожиданными способами. Хотя такие данные действительно могут использоваться в интересах общества, но правдой является и то, что они неизбежно раскрывают большое количество личной информации о каждом из нас: наши симпатии и антипатии, наши привычки и поведение. Цифровая тень может быть использована для нашей выгоды – на ее основе происходит отбор действительно интересных нам товаров и событий, она помогает в путешествиях и в целом облегчает жизнь. Но эта тень может быть использована и для манипулирования нашим поведением. Авторитарные режимы получают возможность контролировать нас, если имеют доступ к подробностям нашей жизни. В некотором смысле это неизбежно: недостатком предоставления информации для получения ответной помощи является… само предоставление информации.

На фоне растущей озабоченности этой проблемой появляются сервисы, которые минимизируют нашу цифровую тень. Они как бы гасят свет, погружая данные во тьму. Основные шаги в этом направлении включают в себя деактивацию всех учетных записей социальных сетей, удаление старых учетных записей почтовых сервисов, удаление результатов поиска, использование ложной информации для учетных записей, которые мы не можем удалить (например, фиктивные даты рождения или инициалы), удаление из списков рассылок и оповещений и пр. Понятно, что такое сокрытие данных негативно сказывается на потенциальных выгодах. Государство, например, может определить, предоставлять или не предоставлять человеку налоговые льготы, только если располагает данными о его доходах и налоговых платежах.

От нескольких ко многим

Сбор данных обо всех интересующих нас людях или объектах, например административных данных, генерируемых во время похода в супермаркеты, – это действенный метод получения информации, способной улучшить понимание ситуации и повысить качество принимаемых решений. Но такие данные не всегда могут пролить свет на волнующие нас вопросы. Простейшим примером являются ситуации, в которых соответствующие наборы административных данных просто не могут быть собраны автоматически. Одно из решений – использовать максимально близкий к искомому набор данных, но это имеет свои риски. Вторым решением будет разовый сбор данных, например в масштабе всего населения, для получения ответа на конкретный вопрос. По сути, это перепись. Но, к сожалению, перепись – дорогостоящий и небыстрый процесс, и нет смысла тратить огромные суммы на то, чтобы получить идеальный ответ уже после того, как он перестал быть актуальным.

Третья стратегия заключается в проведении опросов.

Опросы – это один из основных инструментов, используемых для изучения современного общества. Их особенность и преимущество состоит в том, что они позволяют понять происходящее в той или иной группе людей, не спрашивая каждого члена этой группы. Опросы основаны на таком мощном статистическом феномене, как закон больших чисел, который гласит, что среднее значение произвольной выборки из некоей генеральной совокупности с высокой вероятностью будет очень близко к реальному среднему значению совокупности, если размер выборки достаточно велик.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация