Книга Математика с дурацкими рисунками. Идеи, которые формируют нашу реальность, страница 70. Автор книги Бен Орлин

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Математика с дурацкими рисунками. Идеи, которые формируют нашу реальность»

Cтраница 70

Похоже, программа «Под волшебным соусом» тоже использует такого рода подсказки. Когда математик Кэти О’Нил опробовала этот алгоритм на текстах мужчин о моде, они определились как женские на 99 %. А тексты женщин о математике оказались якобы на 99 % мужскими. Три текста самой О’Нил оказались мужскими на 99 %, 94 % и 99 %. «Моя выборка мала, — пишет она, — но я готова поспорить: эта модель основана на том стереотипе, что можно определить пол автора по выбранной им теме» [211].

Несмотря на то что эти алгоритмы неточны, у меня по-прежнему холодок бежит по коже. Похоже, маскулинность настолько пронизала мои мысли, что алгоритм может выявить мой пол двумя независимыми путями: определив, насколько часто я использую те или иные местоимения или насколько нежно я привязан к Евклиду.

Я отдаю себе отчет, что в некотором роде все это оправдывает мнение Вирджинии Вулф [212]. Она видела, что мужчины и женщины живут в разных мирах, и верила: борьба за то, чтобы дать голос женщинам, должна начаться на всех уровнях, вплоть до построения фразы. Грубая статистика подтверждает эту точку зрения: женщины пишут иначе, чем мужчины, и выбирают другие темы. И все же я немного удручен. Если тексты Вирджинии Вулф свидетельствуют о ее женственности, то мне нравится думать, что это связано с ее мудростью и чувством юмора, а не с низкой плотностью определителей при существительных. Когда Вирджиния Вулф разграничивает мужскую и женскую прозу, возникает ощущение, что ты обратился к проверенному врачу. Когда то же самое проделывает алгоритм, кажется, что тебя обыскивают в аэропорту.

4. Дом, кирпичи и известь

«Записки федералиста», написанные в 1787 году, помогли задать американскую форму правления. Они полны политической мудрости, изощренной аргументации и неустаревающих афоризмов («зрелище смут и раздоров» — вы оценили?). Это могло бы стать убойной строчкой в резюме, но есть одна загвоздка.

Авторы не подписали свои имена.

Историки смогли установить, что 43 письма написаны Александром Гамильтоном, 14 — Джеймсом Мэдисоном, пять — Джоном Джеем и еще три письма написаны в соавторстве. Однако оставалось тайной, кто авторы еще 12 писем. Гамильтон или Мэдисон? Даже два века спустя головоломка не была разгадана.

Наступили 1960-е годы, и на сцене появились два специалиста по статистике: Фредерик Мостеллер и Дэвид Уоллес [213]. Фред и Дейв осознали всю тонкость проблемы. Предложения, написанные Гамильтоном, состояли в среднем из 34,55 слов; написанные Мэдисоном — в среднем из 34,59 слов. «По некоторым параметрам, — пишут исследователи, — авторы почти что близнецы». И дальше они сделали шаг, который совершают все специалисты по статистике, когда сталкиваются с изощренной проблемой.

Они порезали «Записки федералиста» на мелкие куски [214].

Контекст? Неважен. Смысл? Уничтожен. Пока «Записки» оставались набором текстов отцов-основателей, они были бесполезны. Они должны были стать клочками бумаги, совокупностью тенденций — иными словами, набором данных.

Даже после этого большинство слов оставались бесполезными. Их частотность зависела не от автора, а от темы. Например, «война». «Когда речь шла о вооруженных силах, частота предсказуемым образом была высокой, — пишут Фред и Дэйв. — Когда речь шла о выборах — низкой». Они присвоили таким словам статус «контекстуальные» и предприняли все усилия, чтобы избавиться от них. Они были слишком осмысленными.


Математика с дурацкими рисунками. Идеи, которые формируют нашу реальность

Их поиски лишенных смысла слов увенчались успехом, когда они взялись за предлог upon («на основании»), который Мэдисон не употреблял почти никогда, а Гамильтон при каждом удобном случае:


Математика с дурацкими рисунками. Идеи, которые формируют нашу реальность

Вооруженные этими данными, Фред и Дейв смогли свести каждого автора к чему-то вроде колоды карт, раздающей те или иные слова с предсказуемой вероятностью. Затем, отследив частотность определенных слов в письмах с неустановленным авторством, они смогли узнать, из какой «колоды» взят каждый текст.

Метод сработал. Их вывод: «Практически наверняка эти 12 писем написаны Мэдисоном».

Полвека спустя эта технология стала стандартной. Она помогла установить авторство древнегреческой прозы, сонетов елизаветинцев и речей Рональда Рейгана. Бен Блатт применил этот алгоритм около 30 000 раз, используя 250 общеупотребительных слов, чтобы определить, кто из двух авторов написал определенную книгу. Он получил 99,4 % верных ответов.

Мой разум знает, что здесь нет подвоха. Но мои чувства бунтуют. Как можно понять книгу, измельчив ее на биты?

В 2011 году команда авторов из Лаборатории литературоведения Стэнфорда совершила ловкий кульбит: они идентифицировали уже не авторов, а жанры [215]. Они использовали два метода: анализ частотности употребления слов и более изощренный анализ на уровне предложений (под названием «Докускоп»). К их удивлению, оба метода позволили точно определять жанры текстов.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация