Книга Все лгут. Поисковики, Big Data и Интернет знают о вас всё, страница 51. Автор книги Сет Стивенс-Давидовиц

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Все лгут. Поисковики, Big Data и Интернет знают о вас всё»

Cтраница 51

Сейчас это обрело смысл, которого, казалось, не было до того момента, пока Даль и делла Винья не начали анализ огромной горы данных {128}.

Когда мы начинаем рассматривать информацию более детально, становится понятным еще один важный момент: мир сложен. Действия, предпринимаемые нами сегодня, могут иметь отдаленные последствия, большинство из которых непредсказуемы. Идеи распространяются – иногда медленно, а иногда экспоненциально, как вирусы. Люди реагируют на стимулы самым непредсказуемым образом.

Эти связи и отношения, эти всплески и затухания не могут быть отслежены маленькими опросиками или другими традиционными способами получения и обработки данных. Мир слишком сложен и слишком многообразен для того, чтобы понять его с помощью небольших объемов информации.

Наши двойники

В июне 2009 года Дэвид «Биг Папи» Ортис с удовольствием смотрел на дело рук своих. За предыдущие полтора десятилетия Бостон влюбился в своего здоровяка родом из Доминиканской республики с дружелюбной улыбкой и щелью между зубами [27].

Он принял участие в пяти победных играх Всех звезд, выиграл приз MVP [28] и помог Бостону впервые за 86 лет победить в чемпионате. Но в 2008 году, когда ему стукнуло 32, его успешная карьера явно подходила к концу. Его средний уровень упал на 68 пунктов, его процент пребывания на базе стал равен 76 очкам, а процент сильных ударов составил 114 очков. В начале сезона 2009 года результаты Ортиса упали еще ниже.

Вот как Билл Симмонс, спортивный журналист и страстный болельщик «Бостон Ред Сокс», описал происходившее в первые месяцы сезона 2009 года {129}: «Очевидно, что Дэвид Ортис уже не отличается в игре… Здоровенный бьющий выглядит как порнозвезда, тяжелоатлет, центровой НБА и мечта юных девиц: он сдал». Любители спорта доверяют своим глазам и глазам Симмонса: Ортис закончился. На самом деле Симмонс предсказал, что Ортис в скором времени окажется на скамейке запасных или даже уйдет из спорта.

Действительно ли Ортис закончился? Если бы в 2009 году вы были генеральным менеджером «Сокс», вы бы его убрали? И в более общем плане: как мы можем предсказать успешность бейсболиста в будущем {130}? И еще более обобщенно: как мы можем использовать большие данные для предсказания того, что люди будут делать в будущем?

Теория, которая заведет вас далеко в дебри науки о данных, такова: посмотреть на то, что делали саберметрики (те, кто использовал данные для изучения бейсбола), и распространить это на другие области науки о сборе и анализе данных. Бейсбол стал одной из первых областей, породивших огромные массивы данных почти обо всем. И существовала целая армия умных людей, готовых посвятить жизнь тому, чтобы понять смысл этих данных. Сейчас почти каждый параметр изучен досконально. Бейсбол проложил дорогу, после него стало проще изучать все остальное.

Самый простой способ предсказать будущее игрока – предположить, будет ли он играть так же, как делает это сейчас. Если парень старался изо всех сил в течение последних полутора лет, можно предположить, что и в ближайшие полтора года он будет прикладывать такие же усилия.

Если следовать этой методологии, Бостон должен был попрощаться с Дэвидом Ортисом.

Однако есть и более актуальная информация. В 1980-х Билл Джеймс, которого многие считают основателем саберметрики, подчеркнул важность возраста. Он обнаружил, что бейсболисты достигают расцвета достаточно рано – примерно к 27 годам. Но команды, как правило, игнорируют последующее снижение их активности и переплачивают за стареющих игроков.

Согласно этой более передовой методике оценки, «Сокс» нужно было обязательно убрать Дэвида Ортиса.

Но из-за привязки к возрасту можно что-то упустить. Не у всех игроков карьера протекает одинаково. Некоторые могут закончиться в 23, другие – в 32. Низкие бейсболисты стареют иначе, чем высокие, карьера толстых отличается от карьеры тощих. Бейсбольные статистики обнаружили: существуют различные типы игроков, каждый из которых стареет по-своему. Подобное распределение также не в пользу Ортиса: «здоровенные бьющие» действительно, в среднем, достигают пика раньше {131} и заканчивают карьеру вскоре после 30.

Если «Сокс» оценит его недавние матчи, возраст и физические параметры, администрация, без сомнения, должна разорвать контракт с Дэвидом Ортисом.

В 2003 году статистик Нейт Сильвер представил новую модель для прогнозирования результативности игрока, которую назвал PECOTA. Она оказалась лучшей – и самой крутой. Сильвер искал двойников бейсболистов. Вот как это работает. Нейт создал базу данных всех значительных игроков бейсбольной Лиги за все время – это более 18 тысяч человек. В нее была включена вся информация, которую удалось собрать: рост, возраст, телосложение, положение в команде, количество хоумранов, средний уровень пробежек и число аутов за каждый год карьеры. Теперь нужно было найти 20 игроков, карьера которых была бы больше всего похожа на карьеру Ортиса – тех, кто играл примерно как он в свои 24, 25, 26, 27, 28, 29, 30, 31, 32 и 33 года. Другими словами, найти двойников. А потом посмотреть, как в дальнейшем развивались их карьеры.

Поиск двойников – это еще один пример использования детализации. Он фокусируется на небольшой группе людей, наиболее похожих на данного человека. И, как и любая детализация, результат получается тем точнее, чем больше данных у вас есть. Оказывается, двойники Ортиса {132} выдали совсем другой прогноз на будущее самого Ортиса. Среди них были Хорхе Посада и Джим Томе. Эти парни начинали свои карьеры немного медленно, а затем следовали удивительные всплески результативности. Около 30 лет они достигли уровня мирового класса, а затем, в первые годы после 30, потихоньку сдавали.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация