Это третье достоинство больших данных: они позволяют рассмотреть вблизи мелкие сегменты большого массива – чтобы получить новую информацию о том, кто мы есть. Можем присмотреться и к другим параметрам помимо возраста. Если у нас есть достаточно информации, мы в состоянии понять, как ведут себя люди, живущие в определенных городах и поселках. Мы можем посмотреть даже, как они действуют ежечасно и ежеминутно.
В этой главе мы пристально посмотрим на поведение людей.
Что на самом деле происходит в наших регионах, городах и поселках?
Оглядываясь назад, все кажется удивительным. Но когда Радж Четти, ставший затем профессором в Гарварде, и его небольшая исследовательская группа впервые изучили довольно большой набор данных – налоговые записи всех американцев с 1996 года, – они не были уверены в какой-либо его пользе. Налоговая передала им эту информацию, поскольку ее руководство сочло, что исследователи могли бы использовать ее для прояснения последствий налоговой политики.
Первоначальные попытки Четти и его команды использовать эту статистику заводили их в многочисленные тупики. Их анализ последствий Федеральной налоговой политики и налоговой политики штатов приводил в основном к тем же выводам, которые получали все остальные исследователи, работавшие только с этой информацией. Возможно, результаты Четти, использовавшего сотни миллионов единиц данных налоговой службы, были немного более точными. Но получение практически такого же результата, как и у остальных, не является серьезным достижением социальной науки. Это не тот тип работы, о котором готовы писать в лучших научных журналах.
Более того, организация сбора и анализ всех данных налоговой службы занял много времени. Четти и его команда, потонув в информации, потратили на получение тех же результатов даже больше времени, чем все остальные ученые.
Стало казаться, что люди, скептически относившиеся к идее больших данных, были правы. Не нужно перелопачивать данные сотен миллионов американцев, чтобы разобраться в налоговой политике – опроса десяти тысяч человек оказалось бы вполне достаточно. Четти и его команда были, естественно, обескуражены.
И вот наконец ученые поняли свою ошибку. «Это не простое исследование, которое основано на большем массиве данных», – объясняет Четти
{117}. Исследователи задавали слишком мало вопросов относительно данных, которые им были переданы. «Большие данные позволяют вам использовать совершенно другие конструкции, отличные от тех, которые применялись при опросах, – добавляет Четти. – Можно, например, более внимательно отнестись к географии распределения данных».
Другими словами, имея информацию о сотнях миллионов людей, Четти и его команда смогли определить закономерности, относящиеся к городам и различным регионам – большим и малым.
Будучи аспирантом Гарварда, я был в конференц-зале, когда Четти представил свои первые результаты, пользуясь данными налогового учета каждого американца. Социологи обращаются в своем творчестве к наблюдениям: сколько элементов у них имеется. Если социолог работает с опросом 800 человек, он говорит: «У нас восемь сотен наблюдений». Если он работает с лабораторным экспериментом, в котором принимали участие 70 человек, он скажет: «У нас есть семьдесят наблюдений».
«У нас есть 1,2 миллиарда наблюдений», – сказал Четти. Зрители нервно хихикнули.
И Четти с соавторами начали – сначала в конференц-зале, а затем в серии статей – демонстрировать нам важные новые выводы о жизни американского общества.
Рассмотрим такой вопрос: является ли Америка страной больших возможностей? Есть ли у вас шанс сколотить состояние, если ваши родители небогаты?
Традиционный способ ответа на этот вопрос – посмотреть на репрезентативную выборку американцев и сравнить ее с аналогичной статистикой других стран.
Вот данные по разным странам о равенстве возможностей. Был задан вопрос: какова вероятность того, что человек с родителями, входящими в 20 % самых бедных жителей страны, попадет в 20 % людей с наиболее высокими доходами?
Как видите, у США не самый высокий результат.
Но в этом простом анализе не хватает конкретики. Команда Четти подобрала материалы по регионам и обнаружила, что шансы разбогатеть сильно различаются в зависимости от того, в какой части страны вы родились.
В некоторых частях Соединенных Штатов шанс бедного ребенка преуспеть равен шансу в любой развитой стране мира. В других частях США вероятность того, что бедный ребенок станет богатым, ниже, чем в любой развитой стране мира.
Эти результаты никогда не были бы получены при небольшом опросе, который содержал бы данные лишь о нескольких людях из Шарлотт и Сан-Хосе. Естественно, это не позволило бы создать такую разбивку по регионам, которую сделала команда Четти.
На самом деле ученые смогли еще более конкретизировать разбиение по географическому признаку. Поскольку они обладали столь большим массивом данных – информацией о каждом американце в стране, – то умудрились учесть даже небольшие группы людей, мигрировавших из города в город. И смогли понять, как это может повлиять на перспективы переехавших из Нью-Йорка в Лос-Анджелес, из Милуоки в Атланту, из Сан-Хосе в Шарлотт. Это позволило им проверить причины и следствия, а не только корреляцию (различия между этими понятиями мы обсудим в следующей главе). И, да – переезд в «правильный» город в годы формирования личности значительно повлиял на конечный результат.
Так как, является ли Америка «страной больших возможностей»?
Ответ: ни да, ни нет. Некоторые регионы таковыми являются, а некоторые нет.
Как пишут авторы, «США лучше описывать как совокупность обществ, некоторые из которых являются «страной больших возможностей» с высоким уровнем мобильности в зависимости от поколения, а в других лишь небольшому числу детей удается выбраться из нищеты».
Так что можно сказать о тех частях Соединенных Штатов, где существует высокая мобильность доходов? Что делает некоторые места страны лучше, позволяя бедному ребенку добиться лучших условий жизни? Территории, где тратится больше средств на образование, предоставляют больше шансов. В местах с более религиозным населением и более низким уровнем преступности у детей также больше возможностей выбраться из нищеты. А вот регионы с большим количеством чернокожего населения уменьшают этот шанс. Что интересно, это относится не только к чернокожим детям, но и к живущим там белым. В местах с большим количеством матерей-одиночек ситуация хуже. Там этот эффект сказывается не только на детях одиноких матерей, но и на их ровесниках, растущих в полных семьях. Некоторые из полученных результатов свидетельствуют о несомненной важности окружения ребенка, его сверстников. Если у его друзей сложный семейный фон и мало возможностей, для избежания нищеты ему придется больше бороться.