Онлайн книга
Примечания книги
1
Luftslottet som sprängdes, Stieg Larsson.
2
Män som hatar kvinnor, Stieg Larsson.
3
Flickan som lekte med elden, Stieg Larsson.
4
Fifty Shades of Grey, E. L. James.
5
The Help, Kathryn Stockett.
6
Gone Girl, Gillian Flynn.
7
The Da Vinci Code, Dan Brown.
8
Inferno, Dan Brown.
9
The Lincoln Lawyer, Michael Connelly.
10
The Friday Night Knitting Club, Kate Jacobs.
11
Luckiest Girl Alive, Jessica Knoll.
12
В русском издании фамилия автора передана как «Кнолл». (примеч. перев.)
13
The Martian, Andy Weir.
14
The First Phone Call from Heaven, Mitch Albom.
15
The Art of Fielding, Chad Harbach.
16
Bared to You, Sylvia Day.
17
Harry Potter, J. K. Rowling.
18
Журнал книжной индустрии Publishers Weekly публикует список книг года – чемпионов по уровню продаж. (Примеч. авторов.)
19
The Spy Who Came in from the Cold, John le Carré.
20
Lord of the Flies, William Golding.
21
On the Road, Jack Kerouac.
22
Animal Farm, George Orwell.
23
A Time to Kill, John Grisham.
24
Списки бестселлеров в разных странах немного различаются, но мы будем говорить исключительно о списке NYT, поскольку он неизменно играет роль культурного стандарта и наиболее важен для книжной отрасли. В интернете легко найти критику методов, по которым составляются подобные списки, поскольку ни один из них не покрывает абсолютно все продажи из всех источников. Список NYT учитывает примерно 75 % всех продаж и строится на данных Nielsen BookScan. (Примеч. авторов.)
25
The Shack, William P. Young.
26
House of Leaves, Mark Z. Danielewski.
27
Jimmy Corrigan: The Smartest Kid on Earth, Chris Ware.
28
Определенный артикль в английском языке.
29
Предлог, в русском языке ему могут соответствовать разные предлоги, такие как «из», «от» и др. (Примеч. перев.)
30
Общее описание нашего метода содержится в послесловии. (Примеч. авторов.)
31
Неопределенный артикль в английском языке.
32
Предлог, в русском языке ему могут соответствовать разные предлоги, такие как «в», «через» и др. (Примеч. перев.)
33
Она (англ.).
34
Jane Eyre, Charlotte Brontё.
35
The Devil Wears Prada, Lauren Weisberger.
36
The Bonfire of the Vanities, Tom Wolfe.
37
The Quickie, James Patterson.
38
Extremely Loud & Incredibly Close, Jonathan Safran Foer.
39
Первую попытку выявления бестселлеров мы предприняли в первом нашем эксперименте, в Стэнфорде, еще в 2008 г. Наш корпус текстов состоял из 20 000 романов, но параметров для анализа у нас было гораздо меньше, всего 505. Такой большой корпус текстов был полезен для определенных видов анализа, но при этом он был составлен с уклоном в пользу более ранних периодов – в нем содержалось слишком много книг XIX века, а среди более современной литературы преобладали научная фантастика, фэнтези и любовные романы. Несмотря на эти недостатки, мы получили хорошие результаты: точность определения бестселлера колебалась в пределах 70–80 %.
При написании этой книги мы построили совершенно новый корпус текстов: более разнообразный и более современный. В нем содержалось почти 5000 произведений, в том числе электронные книги, не ставшие бестселлерами, романы, опубликованные традиционным путем, а также бестселлеры из списка NYT числом чуть больше 500. (Примеч. авторов.)
40
Pride and Prejudice and Zombies, Seth Grahame-Smith.
41
Не знаю что (фр.).
42
Джонсон Адам (р. 1967) – американский писатель, лауреат Пулитцеровской премии.
43
Многие методы, упомянутые в данной книге, описаны в учебнике авторства Мэтта «Text Analysis with R for Students of Literature». Этот учебник представляет собой вводное пособие в анализ текста и извлечение данных и предназначен для читателей, не имеющих подготовки в области компьютерных наук. Другая книга Мэтта, «Macroanalysis: Digital Methods and Literary History», содержит подробное описание методов, использованных нами в данной работе, в том числе моделирования темы (обсуждается во 2-й главе) и стилеметрии (в 4-й главе). Для тех, кому нужно еще более подробное описание методов, лежащих в основе наших исследований, мы рекомендуем труд Christopher Manning, Prabhakar Raghavan и Hinrich Schutze «Introduction to Information Retrieval» издательства Cambridge University Press, а также Gareth James, Daniela Witten, Trevor Hastie и Robert Tibshirani «An Introduction to Statistical Learning» издательства Springer. Обе эти книги требуют некоторого знакомства с предметом, но вместе они дают полный и очень хорошо написанный обзор дисциплин анализа текста и машинного обучения. (Примеч. авторов.)
44
The Goldfinch, Donna Tartt.
45
Сокращение расшифровывается как «Стандарты и обмен информацией в книжном деле».
46
On Writing: A Memoir of the Craft, Stephen King.
47
To Kill a Mockingbird, Harper Lee.
48
В отдельных случаях примеры адаптированы для русского читателя. (Примеч. ред.)
49
Мы использовали латентное размещение Дирихле – алгоритм моделирования тем, предложенный Дэвидом Блеем, сотрудником Колумбийского университета. Слово «латентный» в названии метода Блея отражает то, что некоторые темы могут присутствовать в тексте в неявном виде. (Примеч. авторов.)
50
В 8-й главе своей книги «Macroanalysis: Digital Methods and Literary History» (UIUC Press, 2013) Мэтт более подробно описывает алгоритм моделирования тем. В 13-й главе своей книги «Text Analysis with R for Students of Literature» (Springer, 2014) Мэтт объясняет читателям, как проводить моделирование тем на алгоритмическом языке R (и как создавать словесные облака, которые вы увидите на этих страницах). Мэтт также опубликовал несколько объяснений для неспециалистов у себя в блоге (www.matthewjockers.org), в том числе: «The LDA Buffet is Now Open; or, Latent Dirichlet Allocation for English Majors» (29.09.2011) и «“Secret” Recipe for Topic Modeling Themes» (12.04.2013). (Примеч. авторов.)
51
A Clockwork Orange, Anthony Burgess. Использован перевод «Заводного апельсина», сделанный Е. Г. Синельщиковым.
52
A River Runs through It, Norman Maclean.
53
Rogue Lawyer, John Grisham.
54
All the Light We Cannot See, Anthony Doerr.
55
The Girl on the Train, Paula Hawkins.
56
Go Set a Watchman, Harper Lee.
57
The Nightingale, Kristin Hannah.
58
O Alquimista, Paulo Coelho.
59
Ready Player One, Ernest Cline.
60
Роман Селесты Инг. Everything I Never Told You, Celeste Ng.
61
Роман Кристины Бейкер Кляйн. Orphan Train, Christina Baker Kline.
62
Роман Колма Тойбина. Brooklyn, Colm Tóibín.
63
House Rules, Jodi Picoult.
64
Точность измеряется с помощью перекрестной проверки. В этом случае мы использовали два типа перекрестной проверки: в первом (скажем для читателей, которых интересуют подробности) сначала использовалось многократное обучение на случайной выборке 90 % книг, а затем проверка результатов на оставшихся 10 %. Во втором мы использовали принцип «все, кроме одной», заключавшийся в том, что мы обучали модель на множестве всех книг, изымая оттуда лишь по одной книге единомоментно. В обоих экспериментах успехом считалось, когда машина правильно угадывала класс (бестселлер или небестселлер) изъятой книги (или книг, при первом подходе). Это длительный и кропотливый процесс, включающий в себя обучение и испытание множества моделей. При обучении этих моделей нам приходилось использовать уже изданные книги, про которые было известно, стали они бестселлерами или нет. Первая модель была построена в 2011 г. Добавив в корпус текстов все бестселлеры и некоторое количество небестселлеров, вышедшие за следующие пять лет, мы смогли снова испытать модель и в каком-то смысле проверить, работают ли наши наблюдения, сделанные в 2011-м, для 2015 г. Оказалось, что да. Подкрепив свою уверенность с помощью перекрестной проверки, мы можем исследовать прогноз и связанные с ним показатели вероятностей для каждой книги. По поводу некоторых книг модель не смогла прийти к окончательному выводу, и такие книги получали индекс 51 %. Поскольку случайная догадка имеет вероятность 50 на 50, это не очень высокая степень уверенности. В таком случае мы исследовали все остальные характеристики текста – например стиль или сюжет, – прежде чем сделать вывод о вероятности успеха. Но для других книг модель прогнозировала индекс успеха с большой уверенностью и присваивала им соответствующий рейтинг. (Примеч. авторов.)
65
The House on Hope Street, Danielle Steel.
66
Mixed Blessings, Danielle Steel.
67
Accident, Danielle Steel.
68
The Litigators, John Grisham.
69
The Associate, John Grisham.
70
Calico Joe, John Grisham.
71
Going Home, Danielle Steel.
72
The Firm, John Grisham.
73
Для тех, кого интересуют подробности, в послесловии объясняется, как мы вводили поправки при работе модели с несколькими книгами одного и того же автора. (Примеч. авторов.)
74
The Kiss, Danielle Steel.
75
The Pelican Brief, John Grisham.
76
Разумеется, многие читатели вспомнят хотя бы один бестселлер со званым ужином и танцами. Но единичные случаи не делают статистики. Чтобы тему можно было использовать для прогноза, она должна много раз фигурировать в бестселлерах, попавших в список. (Примеч. авторов.)
77
Англ. Anastasia; эта героиня также известна как Ана и Анастейша. (Примеч. ред.)
78
Этот и другие подобные отзывы на «Пятьдесят оттенков серого» собраны в книге «Пятьдесят писателей о “Пятидесяти оттенках серого”» (Fifty Writers on Fifty Shades of Grey). (Примеч. авторов.)
79
The Lamplighter, Maria S. Cummins.
80
Ulysses, James Joyce.
81
Читателям, интересующимся этой книгой, рекомендуем труды Дженис Рэдуэй (Janice Radway) и Риты Фелски (Rita Felski), особенно «Практическое применение литературы» (Uses of Literature) последней. (Примеч. авторов.)
82
Цитата из книги Дженис Рэдуэй «A Feeling for Books: The Book-of-the Month Club, Literary Taste, and Middle-Class Desire». (Примеч. авторов.)
83
Addicted to You, Krista Ritchie.
84
Playing games, Liliana Rhodes.
85
The Client, John Grisham.
86
The Memory Keeper’s Daughter, Kim Edwards.
87
I, Alex Cross, James Patterson.
88
Morrigan’s Cross, Nora Roberts.
89
The Invention of Wings, Sue Monk Kidd.
90
The Secret Life of Bees, Sue Monk Kidd.
91
Rainbow Six, Tom Clancy.
92
В 2014 г. работы Мэттью по исследованию сюжета привлекли внимание прессы. С тех пор он полностью переписал и доказал свои алгоритмы. В данной книге представлена абсолютно новая работа, основанная на другом корпусе текстов. (Примеч. авторов.)
93
Букер называет такие сюжеты Rags-to-Riches, то есть «из грязи в князи». (Примеч. ред.)
94
Testimony, Anita Shreve.
95
The Kitchen God’s Wife, Amy Tan.
96
Misery, Stephen King.
97
The Aquitaine Progression, Robert Ludlum.
98
Big Little Lies, Liane Moriarty.
99
Wolf Hall, Hilary Mantel. Ранее в русском переводе выходил под названием «Волчий зал».
100
The Paris Wife, Paula McLain.
101
The Stand, Stephen King.
102
Leaving Time, Jodi Picoult.
103
The Forgotten Garden, Kate Morton.
104
The Notebook, Nicholas Sparks.
105
The Last Song, Nicholas Sparks.
106
The Road, Cormac McCarthy.
107
Suite Française, Irène Némirovsky.
108
Alice in Wonderland, Lewis Carroll.
109
Gulliver’s Travels, Jonathan Swift.
110
The Corrections, Jonathan Franzen.
111
The Satanic Verses, Salman Rushdie.
112
Firefly Lane, Kristin Hannah.
113
Видеозапись лекции Воннегута о видах сюжетов стоит посмотреть. Она совсем короткая и доступна на YouTube: https://www.youtube.com/watch?v=oP3c1h8v2ZQ. (Примеч. авторов.)
114
Little Bee, Chris Cleave.
115
The Boston Girl, Anita Diamant.
116
The Runaway Jury, John Grisham.
117
The Silver Linings Playbook, Matthew Quick.
118
From Dead to Worse, Charlaine Harris.
119
Англ. sentiment analysis.
120
Фрагмент цитируется по переводу Н. Рейн.
121
Перевод Т. Самсоновой.
122
Их работу «Сравнительное исследование методов машинного обучения для установления авторства» (A Comparative Study of Machine Learning Methods for Authorship Attribution) можно найти в журнале Literary and Linguistic Computing, 25.2, 2010, 215–224. (Примеч. авторов.)
123
Thinner, Stephen King.
124
См. статью Джеймса Смита (James Smythe) в The Guardian от 16 апреля 2013 г. (Примеч. авторов.)
125
Один из наиболее известных случаев установления авторства касается так называемых «Записок федералиста» – анонимно опубликованного сборника статей, написанных Александром Гамильтоном, Джеймсом Мэдисоном и Джоном Джеем. Еще в 1997 г. Ричард С. Форсайт заметил, что задача установления авторства «Федералиста» – «вероятно, лучший кандидат на общепризнанно эталонное стилеметрическое исследование». Мэтт и его соавтор Даниэла Уиттен анализируют «Записки федералиста» в уже упоминавшейся работе «A Comparative Study of Machine Learning Methods for Authorship Attribution». Книга Мэтта «Text Analysis with R for Students of Literature» содержит несколько глав, посвященных установлению авторства и стилеметрическому анализу. В главе «Стиль» книги «Macroanalysis: Digital Methods and Literary History» также рассматриваются многие из этих методов. (Примеч. авторов.)
126
Mrs Dalloway, Virginia Woolf.
127
Цитируется по переводу Е. Суриц.
128
Pride and Prejudice, Jane Austen.
129
Poor Little Bitch Girl, Jackie Collins.
130
The Shining, Stephen King.
131
The Information, Martin Amis.
132
The Chamber, John Grisham.
133
The Rainmaker, John Grisham.
134
Цитируется по переводу М. Тугушевой и А. Санина.
135
Цитируется по переводу И. Стребловой.
136
Процитированные первые строки взяты из следующих романов: «Однажды на берегу океана», Крис Клив; «Утраченный символ», Дэн Браун (The Lost Symbol, Dan Brown); «Хижина», Уильям Пол Янг; «Средний пол», Джеффри Евгенидис (Middlesex, Jeffrey Eugenides); «Рай», Тони Моррисон (Paradise, Toni Morrison); «Девушка, которая играла с огнем», Стиг Ларссон; «Искусство поля», Чед Харбах; «Отраженная в тебе», Сильвия Дэй. (Примеч. авторов.)
137
И (англ.).
138
Но (англ.).
139
Его, ее (англ.).
140
Ты, вы (англ.).
141
The Orphan Master’s Son, Adam Johnson.
142
Прошедшее время от глагола «делать» (англ.), также служебный глагол прошедшего времени.
143
Хотеть (англ.).
144
Мужчина (англ.).
145
Женщина (англ.).
146
Питер упомянул распространенный садовый инструмент для копания, предназначенный для удаления нежелательного (англ.).
147
Питер назвал лопату чертовски полезной штукой (англ.).
148
Фильтруя данные таким образом, мы исключили появление случайных параметров, сбивающих систему с толку. Допустим, в каждом бестселлере использовался бы глагол banjax (редкий глагол, означающий «разрушить, разбить на куски». – Примеч. перев.), а в небестселлерах он не использовался бы вообще. Наша модель быстро решила бы, что наличие этого слова – маркер будущего успеха. И пророчила бы успех любой книге с этим словом, не принимая во внимание никакие другие параметры. Мы избежали этой ситуации, рассматривая только очень распространенные слова, которые гарантированно встречаются как в бестселлерах, так и в небестселлерах. Мы заставили систему исследовать частоту, с которой интересующие нас слова встречаются в книгах обоих типов, и намеренно игнорировать те, которые встречаются только в одном из них. (Примеч. авторов.)
149
Делать; также служебный глагол.
150
Очень (англ.).
151
The Elements of Style, William Strunk, E. B. White.
152
Сокращение от not, отрицательной частицы при глаголе.
153
Сокращение от ряда служебных глаголов сослагательного наклонения, в прошедшем времени (should, would, had, did).
154
Сокращение от служебных глаголов are и were (глагол «быть» во множественном числе, в настоящем и прошедшем времени соответственно).
155
Сокращение от служебного глагола «быть» в настоящем времени, первом лице, единственном числе.
156
О’кей, хорошо, отлично (англ.).
157
Фу, буэ (англ.).
158
Вещь, штука, тварь (англ.).
159
Работу Мэтта на эту тему мы уже упоминали в 1-й главе, но ключевое исследование в данной области провели в 2002 г. Шломо Аргамон, Моше Коппель и Анат Рахель Шимони. Результаты изложены в статье «Автоматическое установление пола автора на основе письменного текста» (Shlomo Argamon, Moshe Koppel, Anat Rachel Shimoni, «Automatically Categorizing Written Text by Author Gender», журнал Literary and Linguistic Computing). (Примеч. авторов.)
160
Помнить, сам(а), только (англ.).
161
Роман Томаса Харриса. Hannibal, Thomas Harris.
162
Роман Эммы Донохью. Room, Emma Donoghue.
163
Роман Шарлин Харрис. Dead and Gone, Charlaine Harris.
164
Suzanne’s Diary for Nicholas, James Patterson.
165
Four Blind Mice, James Patterson.
166
Dolores Claiborne, Stephen King.
167
Written in My Own Heart’s Blood, Diana Gabaldon.
168
Tinkers, Paul Harding.
169
Cold Mountain, Charles Frazier.
170
The Appeal, John Grisham.
171
«Gone girl», роман Гиллиан Флинн, в русском переводе выходил под названием «Исчезнувшая».
172
«Luckiest Girl Alive», роман Джессики Нолл, в русском переводе выходил под названием «Счастливые девочки не умирают».
173
Роман Джона Гришэма. A Painted House, John Grisham.
174
Роман Стивена Кинга и Питера Страуба. Black House, Stephen King, Peter Straub.
175
Роман Денниса Лихейна. Shutter Island, Dennis Lehane.
176
роман Кортни Салливан.
177
роман Даниэлы Стил. В русском переводе выходил под названием «Жить дальше».
178
Роман Ф. Д. Джеймс. Death Comes to Pemberley, P. D. James.
179
Роман Кена Фоллетта. Fall of Giants, Ken Follett.
180
Роман Дэвида Николса. One Day, David Nicholls.
181
роман Кэтрин Харрисон. The Kiss, Kathryn Harrison.
182
роман Дженнифер Иган. A Visit from the Goon Squad, Jennifer Egan. В русском переводе выходил под названием «Время смеется последним».
183
Роман Филиппы Грегори. The Boleyn Inheritance, Philippa Gregory.
184
Роман Сары Груэн. Water for Elephants, Sara Gruen.
185
Роман Дианы Гэблдон. Dragonfly in Amber, Diana Gabaldon.
186
Роман Сидни Шелдон. Memories of Midnight, Sidney Sheldon. В русском переводе выходил под названием «Полночные воспоминания».
187
Названия романов «Щегол», «Заказ», «Утраченный символ», в которых определенный артикль заменен на неопределенный. Получается нечто вроде «Какой-то щегол», «Какой-то заказ», «Какой-то утраченный символ». (Примеч. перев.)
188
«Дар», Даниэла Стил (The Gift, Danielle Steel); «Рождественский свитер», Гленн Бек; «Дневник памяти», Николас Спаркс.
189
«Катушка синих ниток», Энн Тайлер (A Spool of Blue Thread, Anne Tyler); «Тысяча сверкающих солнц», Халед Хоссейни (A Thousand Splendid Suns, Khaled Hosseini); «Жизнь и цель собаки», Брюс Кэмерон; «Игра престолов», Дж. Р. Р. Мартин.
190
«Великолепные руины», Джесс Уолтер (Beautiful Ruins, Jess Walter); «Мешок с костями», Стивен Кинг (Bag of Bones, Stephen King); «Пляжная музыка», Пэт Конрой (Beach Music, Pat Conroy); «Свобода», Джонатан Франзен (Freedom, Jonathan Franzen); «Разоблачение», Майкл Крайтон (Disclosure, Michael Crichton); «Суть дела» (Heart of the Matter; романы с таким названием есть у Грэма Грина и у Эмили Гиффин).
191
Роман Элизабет Страут. Olive Kitteridge, Elizabeth Strout.
192
Роман Джеймса Паттерсона. Cross, James Patterson.
193
Роман Даниэлы Стил. Zoya, Danielle Steel.
194
роман Сэмюэла Ричардсона. Pamela: Or Virtue Rewarded, Samuel Richardson. В русском переводе выходил под названием «Памела, или Награжденная добродетель».
195
Роман Даниеля Дефо. Moll Flanders, Daniel Defoe.
196
Роман Джейн Остин. Emma, Jane Austen.
197
Роман Гюстава Флобера. Madame Bovary, Gustave Flaubert.
198
Роман Генри Филдинга. The History of Tom Jones, a Foundling, Henry Fielding.
199
роман Уильяма Ландея. Defending Jacob, William Landay.
200
роман Нэнси Хорэн. Loving Frank, Nancy Horan.
201
Роман Стивена Кинга. Gerald’s Game, Stephen King.
202
роман Джеймса Паттерсона. Kill Alex Cross, James Patterson.
203
роман Лайзы Дженова. Still Alice, Lisa Genova. Экранизация в российском прокате шла под названием «Все еще Элис».
204
Роман Кена Фоллетта. The Key to Rebecca, Ken Follett.
205
Роман Роберта Харриса. The Ghost, Robert Harris.
206
Роман Эльфриды Елинек. The Piano Teacher, Elfriede Jelinek.
207
роман Сары Блейк. The Postmistress, Sarah Blake.
208
Какая-то, неизвестная почтальонка (англ.).
209
Определенная, известная автору и читателям почтальонка (англ.).
210
Роман А.С.А. Харрисон. The Silent Wife, A.S.A. Harrison.
211
Роман Роберта Гулрика. A Reliable Wife, Robert Goolrick.
212
Роман Грейс Ливингстон Хилл. A Girl to Come Home To, Grace Livingston Hill.
213
Роман Ричарда Адамса. The Girl in a Swing, Richard Adams. На русском языке известен под названием «Девочка на качелях».
214
По аналогии с кинематографическим жанром «фильм нуар» – криминальными драмами, обычно с коварными героинями, которые играют активную роль в сюжете. (Примеч. перев.)
215
Агентивность, также агентность, субъектность (англ. agency) – в социологии способность человека выступать в качестве самостоятельного агента/субъекта и делать осознанный и свободный выбор. (Примеч. перев.)
216
The Bourne Ultimatum, Robert Ludlum.
217
Star Trek, James Blish et al.
218
Научить компьютер разбираться во всевозможных вариациях имен героев, вероятно, невозможно. Мы говорим «вероятно», потому что над проблемой работают очень талантливые ученые. Эта отрасль исследований называется «распознавание именованных сущностей» (Named Entity Recognition, NER). Как и многие другие методы, использованные нами при работе над этой книгой, NER является частью дисциплины «обработка естественного языка». Тем, кого интересует эта область науки, рекомендуем ознакомиться с работой Баммана, Андервуда и Смита «Моделирование литературных персонажей с помощью байесовской модели со смешанными эффектами» (Bamman, Underwood and Smith. A Bayesian Mixed Effects Model of Literary Character), которую можно найти в материалах 52-го годового собрания ассоциации компьютерной лингвистики за 2014 г. (Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 2014. P. 370–379).
219
Сейчас у нас есть алгоритмы, прекрасно умеющие находить в тексте имена персонажей, но понять, кто есть кто и кто что делает, – по-прежнему очень трудная задача. Несмотря на эти трудности, в лаборатории Мэтта в Университете Небраски сейчас идут новые исследования, показавшие, что некоторые аспекты агентивности персонажа легко извлечь из текста. За последние два года Мэтт и его студенты из литературной лаборатории Небраски разрабатывали и прототипировали метод распознавания и извлечения данных об агентивности персонажа. Эти данные будут использованы для изучения разработки мужских и женских персонажей в художественной литературе XIX века. Доклад об этой работе, озаглавленный «Исследование пола персонажей и их способности к самостоятельным действиям в романах XIX века» (Understanding Gender and Character Agency in the 19th Century Novel), сейчас находится на рассмотрении рецензентов. Хотя цель этого исследования отлична от нашей, мы нашли, что метод, примененный в Небраске, можно использовать для изучения бестселлеров. С его помощью мы обработали нашу коллекцию бестселлеров, чтобы выявить все местоимения и все имена персонажей, а также связанные с ними глаголы. Затем мы провели ряд экспериментов для классификации, чтобы установить силу связей глаголов с местоимениями, а также связь между определенными парами «местоимение – глагол» и тем, является ли книга бестселлером. (Примеч. авторов.)
220
Нуждаться, испытывать потребность (англ.).
221
Хотеть (англ.).
222
Нуждаться, хотеть, скучать (по кому-то), любить (англ.).
223
Англ. wish.
224
Роман Элис Сиболд. The Lovely Bones, Alice Sebold.
225
Для людей с поведенческим типом А характерны следующие особенности: высокий темп жизни для достижения нечетко сформулированной (часто труднодостижимой) цели; постоянное сравнение себя с другими, стремление конкурировать, настойчивый поиск признания; высокая готовность к действиям; нетерпеливость и постоянная спешка; отсутствие ощущения безопасности; неспособность расслабиться и наслаждаться жизнью.
226
У. Шекспир, «Гамлет», пер. М. Лозинского.
227
Перевод А. Савицкой.
228
См. рассказ Джеймса Джойса «Мертвые» из цикла «Дублинцы» (The Dead, James Joyce). (Примеч. авторов.)
229
Перевод В. Антонова.
230
Роман Лорен Грофф. Fates and Furies, Lauren Groff.
231
Роман Гарта Риска Холлберга. City on Fire, Garth Risk Hallberg.
232
Роман Хунота Диаса. The Brief Wondrous Life of Oscar Wao, Junot Díaz.
233
Роман Янна Мартела. Life of Pi, Yann Martel.
234
Роман Маргарет Этвуд. The Handmaid’s Tale, Margaret Atwood.
235
Роман Дэвида Лоуренса. Lady Chatterley’s Lover, D.H. Lawrence.
236
Роман Джона Грина. The Fault in Our Stars, John Green.
237
Сокращение от will – вспомогательного глагола будущего времени.
238
A Heartbreaking Work of Staggering Genius, Dave Eggers.
239
В буквальном переводе «Круг».
240
«Бог ты мой, – подумала Мэй, – я в раю». Здесь и далее «Сфера» цитируется по переводу А. Грызуновой.
241
Finnegans Wake, James Joyce.
242
СЛАДЕНЬКАЯ УТОЧКА!
МОЯ ДРАГОЦЕННАЯ ЛЮБОВЬ СОБЛАЗНИТЕЛЬНО ВЗДЫХАЕТ ПО ТВОЕЙ ЖАЖДЕ. МОЕ ОЧАРОВАНИЕ ЖГУЧЕ СОБЛАЗНЯЕТ ТВОЮ ДРАГОЦЕННУЮ СТРАСТЬ. ТЫ МОЕ ДРАГОЦЕННОЕ БРАТСКОЕ ЧУВСТВО, МОЙ ОШЕЛОМЛЯЮЩИЙ ПЫЛ, МОЙ ЖГУЧИЙ ПЫЛ.
НЕТЕРПЕЛИВО ТВОЙ К. М.У.
243
Do Androids Dream of Electric Sheep? Philip K. Dick.
244
Отрицательная форма третьего лица настоящего времени глагола do («делать», англ.).
245
Сокращенная отрицательная форма настоящего времени глагола can («мочь», англ.).
246
Меня удивила новость, что д-р Арчер пишет роман (англ.).
247
После долгого дня, потраченного на обучение компьютера чтению бестселлеров, Мэтт позвонил Джоди и сказал: «Меня просто убивают эти диалоги». Джоди предложила ему утешение в форме шотландского виски (англ.).
248
Надежда, надеяться, также женское имя Хоуп, означающее «надежда» (англ.).
249
Он не терял надежды, что она купит книгу сама (англ.).
250
Она надеялась, что он купит ей книгу (англ.).
251
Хоуп сказала, чтобы он купил книгу сам (англ.).
252
Для тех, кто интересуется разбором по частям речи, группа обработки естественного языка Стэнфордского университета предлагает демонстрационную программу, доступную в интернете: http://nlp.stanford.edu:8080/parser/index.jsp. (Примеч. авторов.)
253
Использовать для этого программу разбора зависимостей первоначально предложили два студента Мэтта – Габи Кириллофф и Джонатан Чен. (Примеч. авторов.)
254
«Мэй понимала, что Рената за ней наблюдает, и знала, что сама таращится в некоем ужасе» (англ.).
255
Разбор предложения проведен с помощью демонстрационной онлайн-версии программы разбора зависимостей, разработанной в Стэнфордском университете и доступной в интернете по адресу: http://nlp.stanford.edu:8080/parser/index.jsp. (Примеч. авторов.)
256
Мэй (англ.).
257
Знала (англ.).
258
Наблюдает (англ.).
259
Конечно, реальная жизнь сложнее, и, будь у нас подлинные данные по продажам книг, мы могли бы использовать их вместо бинарного разграничения (книга либо попала, либо не попала в список бестселлеров NYT). При наличии таких данных мы также могли бы использовать совершенно иной набор прогностических алгоритмов. Следует заметить, что в самых первых экспериментах мы использовали три класса книг – романы, попавшие на первое место в списке бестселлеров, романы, которые попали в список, но не заняли первого места, и небестселлеры. Удивительно, что наша модель смогла с уверенностью в 80 % определить разницу между бестселлером номер один и бестселлерами, занявшими 2–15-е места в списках. То же было верно в отношении «двузначных» книг, то есть тех, которые остаются в списке бестселлеров месяцами. Подобные нюансы мы сочли слишком мелкими для включения в данную книгу, но наблюдать их было чрезвычайно интересно. (Примеч. авторов.)
260
Действительно, по-настоящему (англ.).
261
Чтобы границу было легче увидеть, мы изменили расположение книг на плоскости, убрав те, что оказались ближе всего к границе. (Примеч. авторов.)
262
В использованных нами алгоритмах обучения задействована довольно сложная математика. Прекрасный обзор методов KNN и SVM содержится в работе An Introduction to Statistical Learning by James, Witten, Hastie и Tibshirani. Springer: New York, 2013. Очень краткое описание метода Nearest Shrunken Centroids можно найти по адресу http://statweb.stanford.edu/~tibs/PAM/Rdist/howwork.html, вместе со ссылкой на научную работу «Diagnosis of multiple cancer types by shrunken centroids of gene expression», в которой описано первое испытание этого алгоритма. Заинтересованные читатели могут также ознакомиться со статьей: Jockers Matthew L. and Daniela M. Witten. A Comparative Study of Machine Learning Methods for Authorship Attribution // Literary and Linguistic Computing, 25.2, 2010, 215–224. (Примеч. авторов.)
263
Мы экспериментировали с различными значениями К. лучшие результаты получались при К = 15. (Примеч. авторов.)
264
Мы также изучали получившиеся матрицы ошибок, чтобы лучше понять факторы, влияющие на точность модели, но это уже выходит за рамки послесловия. (Примеч. авторов.)
265
Более подробное, но все же без явного технического уклона описание интеллектуального анализа текста и машинного обучения можно найти в работе: Jockers Matthew L. and Underwood Ted. Text-Mining the Humanities // New Companion to the Digital Humanities / Eds. Susan Schreibman, Ray Siemens, John Unsworth. Wiley-Blackwell, 2016. (Примеч. авторов.)