У читателей отвисли челюсти. Редакция журнала Science, понимая масштабы происходящего, выложила статью в открытый доступ. «Новое окно в культуру», — провозгласила газета The New York Times
[203].
Литературоведы склонны изучать привилегированный канон, тонкий слой элитных авторов, требующих глубокого, сосредоточенного анализа. Морррисон. Джойс. Кот, который улегся на клавиатуру Джойса и набрал «Поминки по Финнегану». Но исследователи выбрали иную модель: обширнейший корпус, в котором внимания заслуживает весь массив книг, от знаменитых до малоизвестных. Статистике удалось свергнуть олигархов и установить демократию.
Теперь нет причин, по которым оба подхода не могут идти рука об руку. Внимательное чтение и статистика. Канон и корпус. Тем не менее такие фразы, как «высокоточное измерение»
[204], указывают на конфликт. Может ли смысл литературы быть измерен с высокой точностью? Насколько он в принципе поддается измерению? Или эти новые мощные инструменты уводят нас прочь от неведомых глубин искусства и мы просто забиваем гвозди микроскопом?
3. Эта фраза написана женщиной
Я склонен думать, что проза андрогинна. Мои тексты андрогинны, как морская губка, тексты Вирджинии Вулф — как галактика или божественное откровение. Но сама Вирджиния в книге «Своя комната» высказывает другую точку зрения
[205]. К 1800 году, утверждает она, преобладающий литературный стиль стал приютом мужских, а не женских мыслей. В темпе и структуре самой прозы было нечто гендерное.
Эта идея крутилась у меня в голове несколько месяцев, пока я не набрел на онлайн-проект под названием «Под волшебным соусом»
[206]. Помимо прочих алгоритмических подвигов, программа может прочесть выдержки из ваших текстов и с помощью таинственного анализа идентифицировать ваш пол.
Я обязан был попробовать.
В интернет-угаре я потратил час на копипаст 25 записей в блоге, написанных с 2013 по 2015 год
[207]. В итоге результаты выглядели следующим образом:
Поскольку команда проекта «Под волшебным соусом» сохраняет свою методику в секрете, я попытался разведать, каким образом может работать этот алгоритм. Он строит схему моих предложений? Вынюхивает скрытую патриархальность моих чувств? Проникает в мои мысли (полагаю, на это была способна Вирджиния Вулф), читая в книгах, словно в душах?
Нет. Скорее всего, он просто смотрит на частотность слов.
В статье «Автоматизированная гендерная классификация письменных текстов», опубликованной в 2001 году, три исследователя ухитрились добиться 80 % точности, отличая авторов-мужчин от авторов-женщин, просто за счет подсчета частотности употребления нескольких простых слов
[208]. Более поздняя статья, озаглавленная «Пол, жанр и стиль письма в официальных письменных текстах», содержит изложение этого отличия в простых терминах
[209]. Во-первых, мужчины используют больше определяющих слов при существительных (определенный и неопределенный артикль, «некоторый», «самый» и т. д.). Во-вторых, женщины используют больше местоимений («мне», «он сам», «наш», «они» и т. д.).
Даже частотность одного-единственного невинного слова «ты» дает ключ к пониманию пола автора:
Точность системы особенно впечатляет, если учесть ее абсолютную простоту. Этот подход игнорирует весь контекст, весь смысл, чтобы сосредоточиться на словесных щепках. Блатт отмечает, что в соответствии с этой методикой фраза «Эта фраза написана женщиной», скорее всего, будет классифицирована как написанная мужчиной. Если вы посмотрите шире и будете учитывать все слова, а не только крошечные вспомогательные, результаты станут стереотипными. Когда компания по сбору данных под названием CrowdFlower обучила алгоритм определять пол пользователей Твиттера, он выдал следующий перечень слов, позволяющих предсказать пол
[210]:
В книге «Любимое слово Набокова — лиловый» Бен Блатт приводит свои изыскания по поводу маркеров пола автора в классической литературе: