Книга Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры, страница 29. Автор книги Эйден Эрец, Жан-Батист Мишель

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»

Cтраница 29

Однако, подобно многим другим летним романам, наши отношения с n-грамами вскоре столкнулись с осенними проблемами. Юань заканчивал интернатуру с начала учебного года, и мы вскоре оказались за пределами Google, а соответственно, все наши данные были спрятаны за брандмауэрами компании.

Нам было необходимо, чтобы Google отправила нам данные. Однако интернет-гигант этого не хотел. По мнению Google, работа с данными n-грамов оставалась довольно деликатным делом. Массив данных был сформирован из полного текста 5 миллионов книг, и юридический расчет Google был прост. Пять миллионов книг соответствуют пяти миллионам авторов – иными словами, пяти миллионам истцов в рамках огромного иска, который мог появиться в случае утечки. Мы проектировали набор данных в виде тени (n-грама), чтобы обойти эту проблему. Мы подсчитывали слова вместо того, чтобы записывать длинные последовательности текста. Однако наша ловкость рук еще не проходила проверки судами [117]. Было вполне понятно, чего опасается Google.

У нас было мало шансов на успех в противостоянии с юридической службой одной из крупнейших мировых корпораций. Однако, имея в кармане два миллиарда n-грамов, мы не были готовы сдаться.

Что можно купить за славу

У нас оставалось все меньше карт для игры. Авива Эйден, получившая свою награду, дала нам шанс открыть двери Googleplex. Мы в полной мере воспользовались добротой чужих людей, когда Питер Норвиг дал нам добро на проект и выразил готовность сотрудничать. Мы даже воспользовались «звонком другу», когда оказалось, что наш давний сосед Бен Байер оказался «Повелителем времени и пространства» в Google Research (возможно, это лучшее название должности во всей корпоративной истории). Однако нам предстояло разыграть еще одну карту.

Наши разговоры о количественном измерении исторических тенденций привлекли внимание Стивена Пинкера, одного из самых знаменитых ныне живущих ученых, перед которым мы всегда преклонялись.

Пинкер – психолог, лингвист и когнитивист, обладающий невероятной глубиной и широтой познаний. Автор многочисленных бестселлеров, он обладает потрясающей способностью препарировать самые сложные проблемы и выявлять их суть. Например, как-то раз Пинкера пригласили на сатирическое телешоу Colbert Report. Ведущий Стивен Колберт спросил его: «Как работает мозг? Ответьте в пяти словах или меньше». Пинкер подумал пару секунд и сказал: «Клетки мозга „выстреливают“ определенные последовательности» [118].

Нам невероятно повезло, что одним из фанатов Пинкера оказался не кто иной, как Дэн Клэнси, возглавлявший летом 2009 года работу над проектом Google Books. Клэнси занимал достаточно высокое положение для того, чтобы обеспечить нам доступ к данным извне. Но Клэнси – это занятой и важный человек, у которого нет времени для мелких проектов типа нашего. Однако к концу лета стало понятно, что если мы хотим устроить встречу с Пинкером и обсудить с ним наши n-грамы, то для этого придется найти время и неуловимому Дэну Клэнси.

Поэтому мы сказали Пинкеру следующее: «Мы создали 2 миллиарда n-грамов; можете ли вы помочь нам выпустить их на волю?» Пинкер посчитал, что у нашей работы есть будущее, и согласился прийти на встречу. После этого Клэнси тоже изъявил желание прийти. У нас было тридцать минут на то, чтобы изложить суть своего дела.

Несколько лет назад Пинкер был назван журналом Time одним из 100 наиболее влиятельных людей на планете. И как только началась встреча, сразу же стало понятно, почему. Тридцати минут было более чем достаточно, чтобы он продемонстрировал нам свои волшебные способности. И вскоре n-грамы уже были на пути к свободе.

Так что же покупает вам слава? Слава Пинкера купила нам тридцать минут времени Клэнси. Немного, но этого было достаточно.

История славы
Слава – пчела,
И жужжаща,
И жаляща.
Ах – есть крыла еще [119].

Это стихотворение Эмили Дикинсон описывает суть славы – очарование, опасность, то, как она поднимает человека, и то, как порой оказывается вне пределов нашей досягаемости. Можно было бы думать, что Дикинсон разбирается в этом вопросе лучше многих. Ее вполне можно считать самым знаменитым поэтом Америки. Однако отношения Дикинсон со славой далеко не однозначны.


Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
Вход
Поиск по сайту
Ищем:
Календарь
Навигация