Книга Все лгут. Поисковики, Big Data и Интернет знают о вас всё, страница 21. Автор книги Сет Стивенс-Давидовиц

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Все лгут. Поисковики, Big Data и Интернет знают о вас всё»

Cтраница 21

Основной разработкой в этой области является Google Ngrams. Несколько лет назад два молодых биолога, Эрез Эйден и Жан-Батист Мишель, предложили своим помощникам одно за другим подсчитывать слова в старых пыльных текстах – чтобы выяснить, как часто в них встречается та или иная лексика. Однажды Эйден и Мишель услышали о новом проекте компании Google по оцифровке книг со всего мира и почти сразу же сообразили: так в истории языка будет разобраться гораздо проще.

«Мы поняли, что наши методы безнадежно устарели, – рассказывал Эйден в интервью журналу «Discover». – Было понятно: конкурировать с этой всепобеждающей цифровой мощью невозможно». Поэтому они решили с ней сотрудничать. При помощи инженеров Google Эйден и Мишель создали сервис, осуществляющий поиск по определенному слову или фразе по миллионам оцифрованных книг. Потом приложение сообщает исследователям, как часто это слово или фраза появлялись ежегодно в период с 1800 по 2010 годы.

Так что же мы можем узнать по частоте, с которой слова или фразы появляются в книгах в разные годы? Прежде всего, о медленном росте популярности колбасы и относительно недавнем быстром росте популярности пиццы.


Все лгут. Поисковики, Big Data и Интернет знают о вас всё

Но есть и гораздо более серьезные результаты. Например, Ngrams Google может показать, как формировалась наша национальная самобытность. Вот, скажем, увлекательный пример из книги Эйдена и Мишеля «Uncharted» («Неизведанное»).

Но сначала один вопрос. Как вы думаете, сегодня Соединенные Штаты – единая или разобщенная страна? Если вы принадлежите к большинству обычных людей, то скажете, что США сильно разобщены из-за высокого уровня политической поляризации. Можно даже сказать, что сегодня страна разобщена как никогда. Америка, в конце концов, теперь разделена по цвету: красные штаты – республиканские, синие – демократические. Но в книге «Uncharted» Эйдена и Мишеля есть один впечатляющий момент, демонстрирующий, насколько сильнее Соединенные Штаты были разобщены в прошлом. Об этом свидетельствуют слова, которые люди используют, говоря о своей стране.

Обратите внимание на слова, которые я использовал в предыдущем абзаце, говоря о разобщенности страны. Я писал: «США – разобщенная страна». Я говорил о США как о существительном в единственном числе. Это естественно, это правильная грамматика и стандартный вариант употребления слов. Уверен, вы этого даже не заметили.

Однако американцы далеко не всегда говорят подобным образом. На заре формирования Соединенных Штатов люди, упоминая свою страну, использовали множественное число. Например, Джон Адамс в докладе о положении дел в 1799 году говорил о «Соединенных Штатах и ИХ договорах с его британским Величеством». Если бы моя книга была написана в 1800 году, я бы сказал: «Соединенные Штаты разобщены». Эта небольшая разница в использовании слов давно заинтересовала историков, поскольку предполагает существование момента, когда Америка перестала думать о себе как о совокупности штатов и начала думать о себе как о единой нации.

Так когда это произошло? Историки, как сообщает нам «Uncharted», никогда не знали этого точно, поскольку у них не было надежного способа прояснить ситуацию. Но многие уже давно подозревали, что это произошло во время Гражданской войны. Джеймс Макферсон, бывший президент американской исторической ассоциации и лауреат Пулитцеровской премии, отметил: «Война ознаменовала собой переход Соединенных Штатов из множественного числа к существительному единственного числа».

Но оказывается, что Макферсон был неправ. Google Ngrams обеспечил Эйдену и Мишелю надежный способ проверки. Они могли видеть, как часто в американских книгах употреблялись фразы «Соединенные Штаты являются…» и «США является…» – год за годом. Переход был достаточно постепенным и не ускорялся ни до Гражданской войны, ни после ее окончания.


Все лгут. Поисковики, Big Data и Интернет знают о вас всё

Спустя 15 лет после Гражданской войны еще довольно часто писали «Соединенные Штаты являются…», а не «США является…», показывая, что страна лингвистически все еще была разделена. Военные победы опережали изменения в мышлении.


Это все об объединении страны. А как объединяются мужчина и женщина? Слова могут помочь и здесь.

Например, на основании того, о чем говорили конкретные мужчина и женщина во время первой встречи, мы можем предсказать, будет ли у них второе свидание.

Это продемонстрировала междисциплинарная команда Стэнфордского и Северо-Западного университетов – Дэниэл Макфарланд, Дэн Джуравски и Крейг Роулингс. Они общались с сотнями гетеросексуальных участников быстрых свиданий {59}, пытаясь определить факторы, влияющие на возникновение контакта с партнером и желание пойти на вторую встречу с ним.

Сначала исследователи использовали традиционные данные. Они опросили участников быстрых свиданий, записав их рост, вес, увлечения, и проверили, насколько сильно эти факторы коррелируют с тем, с кем зафиксирована искра романтического интереса. В среднем женщины предпочитают мужчин выше себя ростом, разделяющих их увлечения; мужчины в среднем предпочитают более худощавых женщин, разделяющих их увлечения. Ничего нового.

Но ученые обнаружили и новую информацию. Они поручили участникам эксперимента взять с собой цифровые диктофоны. Таким образом удалось собрать все использовавшиеся в разговоре слова, выявить наличие смеха и вычленить тон голоса. Исследователи могли проверить, как мужчины и женщины сигнализировали о своей заинтересованности и чем партнеры «зарабатывали» этот интерес.

Так о чем же говорят нам лингвистические данные? Во-первых, о том, как мужчина или женщина передает свою заинтересованность. Один из способов демонстрации того, что женщина привлекла мужчину, очевиден – он смеется над ее шутками. Еще один фактор, менее очевидный: в разговоре мужчина ограничивает диапазон оттенков голоса. Проводились исследования, показывающие, что монотонный голос часто воспринимается женщинами как мужской. Это означает, что мужчины, когда им нравится женщина, – возможно, подсознательно – преувеличивают свою мужественность.

А вот женщины сигнализируют о своей заинтересованности изменением диапазона оттенков голоса – они начинают говорить более мягко и более короткими фразами. Хорошей подсказкой о заинтересованности женщины являются используемые ею слова. Скажем, ей вряд ли нравится мужчина, если в ее речи встречаются слова и фразы уклонения от прямого ответа – такие, как «возможно» или «наверное».

Парни, если женщина начала подстраховываться высказываниями на любую тему – если ей «вроде бы» нравится ее напиток, или она «вроде как» зябнет, или «наверное» может поесть еще, – могу поручиться: она «вроде бы» «как бы» «наверняка» увлечена не вами.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация