«Руководство школьных округов понимает, что не следует сосредотачиваться исключительно на результатах тестов», – говорит Томас Кейн
{179}, профессор из Гарварда. Трехлетнее исследование Фонда Билла и Мелинды Гейтс подтверждает значение в образовании как больших, так и малых данных. Авторы проанализировали, что именно модель, основанная на оценках тестов, опросы учеников или наблюдения педагогов, является наилучшим вариантом оценки качества обучения школьников. Максимальный результат получается при объединении всех трех компонентов. «Каждый элемент вносит свой вклад в общую картину
{180}», – заключают авторы доклада.
Как я выяснил в Окале, штат Флорида, на встрече с Джеффом Седером, на самом деле многие операции с большими данными используют малые данные – чтобы заполнить пробелы. Напомню, Седер, получивший образование в Гарварде – гуру в мире лошадей. Он использовал уроки, извлеченные из огромного числа экспериментов, что позволило ему правильно спрогнозировать успех Американского Фараона.
Поделившись со мной информацией, а также компьютерными файлами и расчетами, Седер признался, что у него было и секретное оружие – Пэтти Мюррей.
Мюррей, как и Седер, имеет высокий интеллект и элитарное образование – диплом Брин Маур. Она также переехала из Нью-Йорка в глубинку. «Я люблю лошадей больше, чем людей», – признается Пэтти. Но Мюррей немного более традиционна в плане подхода к выбору лошадей. Она, как и многие агенты-лошадники, лично осматривает их, наблюдает, как они двигаются, проверяет их на наличие шрамов и синяков, а также беседует с их владельцами.
Затем Мюррей связывается с Седером, и они принимают окончательное решение относительно лошадей, которых будут рекомендовать. Мюррей вынюхивает проблемы коней – проблемы, которые Седер со всеми своими самыми инновационными и важными данными не отлавливает.
Я предсказываю революцию, основанную на открытиях больших данных. Но это не значит, что мы можем просто прошерстить информацию и получить ответ на любой вопрос или игнорировать этические соображения. И большие данные не исключают необходимости использования всего того, что люди развивали в течение тысячелетий, стремясь понять окружающий мир. Они просто дополняют друг друга.
Глава 8
Больше данных – больше проблем? Чего нам не стоит делать?
Иногда возможности больших данных настолько впечатляют, что становится страшно. Это ставит перед нами этические вопросы.
Опасность вооруженных данными корпораций
Недавно три экономиста
{181} – Одед Нецер и Ален Лемар из Колумбийского университета и Михал Херценштейн из университета Делавэр – искали способы предсказать вероятность погашения кредита заемщиком. Ученые использовали данные сайта взаимокредитования Prosper. Потенциальные заемщики указывают краткое обоснование необходимости кредита и какое обеспечение они могут предоставить, а потенциальные кредиторы решают, могут ли они предоставить деньги. В целом около 13 % заемщиков
{182} не выполняют своих обязательств по кредиту.
Оказывается, язык потенциальных заемщиков является сильным прогностическим фактором вероятности возврата ими кредита. И это важный показатель – даже если кредиторы имеют возможность проконтролировать другую значимую информацию о потенциальных заемщиках, в том числе их кредитные рейтинги и доходы.
Ниже перечислены 10 обнаруженных исследователями словосочетаний, которые обычно используются при подаче заявки на кредит. Пять из них коррелируют с оплатой кредита положительно, другие пять – негативно. Иными словами, первые пять, как правило, используются людьми, которым можно доверять, а вторые пять – теми, кому не стоит верить. Посмотрите, сможете ли вы догадаться, какие где.
Можно подумать – по крайней мере, надеюсь на это, – что вежливый, открыто религиозный человек, дающий честное слово, окажется среди тех, кто наиболее вероятно погасит кредит. На самом деле это не так. Как показывает статистика, честность таких людей – ниже среднего значения.
Вот несколько фраз, сгруппированных по степени вероятности погашения кредита.
Прежде чем мы обсудим этические последствия этого исследования, давайте с помощью его авторов подумаем, что оно говорит о людях. Что мы должны понять на основании разделения слов на две категории?
Во-первых, рассмотрим выражения, на основании которых можно сделать предположение о большей вероятности выполнения платежей по кредиту. Такие словосочетания, как «низкая процентная ставка» или «после уплаты налогов» указывают на определенный уровень финансовой искушенности заемщика. Поэтому, пожалуй, не удивительно, что они коррелируют с его намерением вернуть кредит. Кроме того, если он или она говорит о своих позитивных достижениях – таких как «выпускник» и «свободный от задолженности», – больше вероятность того, что он или она оплатит и этот кредит.
Теперь рассмотрим выражения, предполагающие, что заемщик вряд ли собирается возвращать кредит. Вообще, если кто-то говорит вам, что обязательно все оплатит, он не будет этого делать. Чем более уверенно дается обещание платежа, тем выше шанс его нарушения. Если кто-то пишет «я обещаю, что верну, да поможет мне бог», он относится к числу людей, возвращение кредита которыми наименее вероятно. Воззвание к вашему милосердию и апелляция к находящемуся в больнице родственнику также означает, что кредит вряд ли будет возвращен. На самом деле упоминание любого члена семьи – мужа, жены, сына, дочери, матери или отца – это знак того, что свои деньги назад вы не получите. Еще одно слово, указывающее на невозврат – «объяснить». Оно означает: если люди пытаются объяснять, почему они собираются погасить кредит, значит, они, скорее всего, не будут этого делать.