Примечания книги Код бестселлера. Автор книги Джоди Арчер, Мэтью Л. Джокерс

Онлайн книга

Книга Код бестселлера
«Если верить расхожему мнению, любой бестселлер – аномалия. Удачная флуктуация на рынке. Интересный мутант. Черный лебедь. Но если это правда, то, единожды найдя писателя, способного выдавать бестселлеры, надо вкладывать все деньги в него? Зачем рисковать миллионами, ставя их на никому не известного двадцатилетнего юношу вместо Стивена Кинга? Используя компьютерную систему, которая читает книги, распознает в них определенные характеристики и просеивает тысячи таких характеристик в тысячах текстов, мы открыли, что существуют удивительные сочетания параметров, свойственные книгам, которые с наибольшей вероятностью будут пользоваться успехом на рынке. Наша система обрабатывала каждую книгу так, словно это новая, никому не известная рукопись, а затем не просто выносила один из двух вердиктов – “вероятно, бестселлер” или “скорее всего, нет”, – но и вычисляла индекс, указывающий, каковы шансы книги обрести популярность. Эти индексы сами по себе чрезвычайно интересны, и мы не только расскажем, как они устроены, но и объясним, что держит читателя как магнитом, заставляя переворачивать страницы одну за другой». Джоди Арчер, Мэттью Л. Джокерс

Примечания книги

1

Luftslottet som sprängdes, Stieg Larsson.

2

Män som hatar kvinnor, Stieg Larsson.

3

Flickan som lekte med elden, Stieg Larsson.

4

Fifty Shades of Grey, E. L. James.

5

The Help, Kathryn Stockett.

6

Gone Girl, Gillian Flynn.

7

The Da Vinci Code, Dan Brown.

8

Inferno, Dan Brown.

9

The Lincoln Lawyer, Michael Connelly.

10

The Friday Night Knitting Club, Kate Jacobs.

11

Luckiest Girl Alive, Jessica Knoll.

12

В русском издании фамилия автора передана как «Кнолл». (примеч. перев.)

13

The Martian, Andy Weir.

14

The First Phone Call from Heaven, Mitch Albom.

15

The Art of Fielding, Chad Harbach.

16

Bared to You, Sylvia Day.

17

Harry Potter, J. K. Rowling.

18

Журнал книжной индустрии Publishers Weekly публикует список книг года – чемпионов по уровню продаж. (Примеч. авторов.)

19

The Spy Who Came in from the Cold, John le Carré.

20

Lord of the Flies, William Golding.

21

On the Road, Jack Kerouac.

22

Animal Farm, George Orwell.

23

A Time to Kill, John Grisham.

24

Списки бестселлеров в разных странах немного различаются, но мы будем говорить исключительно о списке NYT, поскольку он неизменно играет роль культурного стандарта и наиболее важен для книжной отрасли. В интернете легко найти критику методов, по которым составляются подобные списки, поскольку ни один из них не покрывает абсолютно все продажи из всех источников. Список NYT учитывает примерно 75 % всех продаж и строится на данных Nielsen BookScan. (Примеч. авторов.)

25

The Shack, William P. Young.

26

House of Leaves, Mark Z. Danielewski.

27

Jimmy Corrigan: The Smartest Kid on Earth, Chris Ware.

28

Определенный артикль в английском языке.

29

Предлог, в русском языке ему могут соответствовать разные предлоги, такие как «из», «от» и др. (Примеч. перев.)

30

Общее описание нашего метода содержится в послесловии. (Примеч. авторов.)

31

Неопределенный артикль в английском языке.

32

Предлог, в русском языке ему могут соответствовать разные предлоги, такие как «в», «через» и др. (Примеч. перев.)

33

Она (англ.).

34

Jane Eyre, Charlotte Brontё.

35

The Devil Wears Prada, Lauren Weisberger.

36

The Bonfire of the Vanities, Tom Wolfe.

37

The Quickie, James Patterson.

38

Extremely Loud & Incredibly Close, Jonathan Safran Foer.

39

Первую попытку выявления бестселлеров мы предприняли в первом нашем эксперименте, в Стэнфорде, еще в 2008 г. Наш корпус текстов состоял из 20 000 романов, но параметров для анализа у нас было гораздо меньше, всего 505. Такой большой корпус текстов был полезен для определенных видов анализа, но при этом он был составлен с уклоном в пользу более ранних периодов – в нем содержалось слишком много книг XIX века, а среди более современной литературы преобладали научная фантастика, фэнтези и любовные романы. Несмотря на эти недостатки, мы получили хорошие результаты: точность определения бестселлера колебалась в пределах 70–80 %.

При написании этой книги мы построили совершенно новый корпус текстов: более разнообразный и более современный. В нем содержалось почти 5000 произведений, в том числе электронные книги, не ставшие бестселлерами, романы, опубликованные традиционным путем, а также бестселлеры из списка NYT числом чуть больше 500. (Примеч. авторов.)

40

Pride and Prejudice and Zombies, Seth Grahame-Smith.

41

Не знаю что (фр.).

42

Джонсон Адам (р. 1967) – американский писатель, лауреат Пулитцеровской премии.

43

Многие методы, упомянутые в данной книге, описаны в учебнике авторства Мэтта «Text Analysis with R for Students of Literature». Этот учебник представляет собой вводное пособие в анализ текста и извлечение данных и предназначен для читателей, не имеющих подготовки в области компьютерных наук. Другая книга Мэтта, «Macroanalysis: Digital Methods and Literary History», содержит подробное описание методов, использованных нами в данной работе, в том числе моделирования темы (обсуждается во 2-й главе) и стилеметрии (в 4-й главе). Для тех, кому нужно еще более подробное описание методов, лежащих в основе наших исследований, мы рекомендуем труд Christopher Manning, Prabhakar Raghavan и Hinrich Schutze «Introduction to Information Retrieval» издательства Cambridge University Press, а также Gareth James, Daniela Witten, Trevor Hastie и Robert Tibshirani «An Introduction to Statistical Learning» издательства Springer. Обе эти книги требуют некоторого знакомства с предметом, но вместе они дают полный и очень хорошо написанный обзор дисциплин анализа текста и машинного обучения. (Примеч. авторов.)

44

The Goldfinch, Donna Tartt.

45

Сокращение расшифровывается как «Стандарты и обмен информацией в книжном деле».

46

On Writing: A Memoir of the Craft, Stephen King.

47

To Kill a Mockingbird, Harper Lee.

48

В отдельных случаях примеры адаптированы для русского читателя. (Примеч. ред.)

49

Мы использовали латентное размещение Дирихле – алгоритм моделирования тем, предложенный Дэвидом Блеем, сотрудником Колумбийского университета. Слово «латентный» в названии метода Блея отражает то, что некоторые темы могут присутствовать в тексте в неявном виде. (Примеч. авторов.)

50

В 8-й главе своей книги «Macroanalysis: Digital Methods and Literary History» (UIUC Press, 2013) Мэтт более подробно описывает алгоритм моделирования тем. В 13-й главе своей книги «Text Analysis with R for Students of Literature» (Springer, 2014) Мэтт объясняет читателям, как проводить моделирование тем на алгоритмическом языке R (и как создавать словесные облака, которые вы увидите на этих страницах). Мэтт также опубликовал несколько объяснений для неспециалистов у себя в блоге (www.matthewjockers.org), в том числе: «The LDA Buffet is Now Open; or, Latent Dirichlet Allocation for English Majors» (29.09.2011) и «“Secret” Recipe for Topic Modeling Themes» (12.04.2013). (Примеч. авторов.)

51

A Clockwork Orange, Anthony Burgess. Использован перевод «Заводного апельсина», сделанный Е. Г. Синельщиковым.

52

A River Runs through It, Norman Maclean.

53

Rogue Lawyer, John Grisham.

54

All the Light We Cannot See, Anthony Doerr.

55

The Girl on the Train, Paula Hawkins.

56

Go Set a Watchman, Harper Lee.

57

The Nightingale, Kristin Hannah.

58

O Alquimista, Paulo Coelho.

59

Ready Player One, Ernest Cline.

60

Роман Селесты Инг. Everything I Never Told You, Celeste Ng.

61

Роман Кристины Бейкер Кляйн. Orphan Train, Christina Baker Kline.

62

Роман Колма Тойбина. Brooklyn, Colm Tóibín.

63

House Rules, Jodi Picoult.

64

Точность измеряется с помощью перекрестной проверки. В этом случае мы использовали два типа перекрестной проверки: в первом (скажем для читателей, которых интересуют подробности) сначала использовалось многократное обучение на случайной выборке 90 % книг, а затем проверка результатов на оставшихся 10 %. Во втором мы использовали принцип «все, кроме одной», заключавшийся в том, что мы обучали модель на множестве всех книг, изымая оттуда лишь по одной книге единомоментно. В обоих экспериментах успехом считалось, когда машина правильно угадывала класс (бестселлер или небестселлер) изъятой книги (или книг, при первом подходе). Это длительный и кропотливый процесс, включающий в себя обучение и испытание множества моделей. При обучении этих моделей нам приходилось использовать уже изданные книги, про которые было известно, стали они бестселлерами или нет. Первая модель была построена в 2011 г. Добавив в корпус текстов все бестселлеры и некоторое количество небестселлеров, вышедшие за следующие пять лет, мы смогли снова испытать модель и в каком-то смысле проверить, работают ли наши наблюдения, сделанные в 2011-м, для 2015 г. Оказалось, что да. Подкрепив свою уверенность с помощью перекрестной проверки, мы можем исследовать прогноз и связанные с ним показатели вероятностей для каждой книги. По поводу некоторых книг модель не смогла прийти к окончательному выводу, и такие книги получали индекс 51 %. Поскольку случайная догадка имеет вероятность 50 на 50, это не очень высокая степень уверенности. В таком случае мы исследовали все остальные характеристики текста – например стиль или сюжет, – прежде чем сделать вывод о вероятности успеха. Но для других книг модель прогнозировала индекс успеха с большой уверенностью и присваивала им соответствующий рейтинг. (Примеч. авторов.)

65

The House on Hope Street, Danielle Steel.

66

Mixed Blessings, Danielle Steel.

67

Accident, Danielle Steel.

68

The Litigators, John Grisham.

69

The Associate, John Grisham.

70

Calico Joe, John Grisham.

71

Going Home, Danielle Steel.

72

The Firm, John Grisham.

73

Для тех, кого интересуют подробности, в послесловии объясняется, как мы вводили поправки при работе модели с несколькими книгами одного и того же автора. (Примеч. авторов.)

74

The Kiss, Danielle Steel.

75

The Pelican Brief, John Grisham.

76

Разумеется, многие читатели вспомнят хотя бы один бестселлер со званым ужином и танцами. Но единичные случаи не делают статистики. Чтобы тему можно было использовать для прогноза, она должна много раз фигурировать в бестселлерах, попавших в список. (Примеч. авторов.)

77

Англ. Anastasia; эта героиня также известна как Ана и Анастейша. (Примеч. ред.)

78

Этот и другие подобные отзывы на «Пятьдесят оттенков серого» собраны в книге «Пятьдесят писателей о “Пятидесяти оттенках серого”» (Fifty Writers on Fifty Shades of Grey). (Примеч. авторов.)

79

The Lamplighter, Maria S. Cummins.

80

Ulysses, James Joyce.

81

Читателям, интересующимся этой книгой, рекомендуем труды Дженис Рэдуэй (Janice Radway) и Риты Фелски (Rita Felski), особенно «Практическое применение литературы» (Uses of Literature) последней. (Примеч. авторов.)

82

Цитата из книги Дженис Рэдуэй «A Feeling for Books: The Book-of-the Month Club, Literary Taste, and Middle-Class Desire». (Примеч. авторов.)

83

Addicted to You, Krista Ritchie.

84

Playing games, Liliana Rhodes.

85

The Client, John Grisham.

86

The Memory Keeper’s Daughter, Kim Edwards.

87

I, Alex Cross, James Patterson.

88

Morrigan’s Cross, Nora Roberts.

89

The Invention of Wings, Sue Monk Kidd.

90

The Secret Life of Bees, Sue Monk Kidd.

91

Rainbow Six, Tom Clancy.

92

В 2014 г. работы Мэттью по исследованию сюжета привлекли внимание прессы. С тех пор он полностью переписал и доказал свои алгоритмы. В данной книге представлена абсолютно новая работа, основанная на другом корпусе текстов. (Примеч. авторов.)

93

Букер называет такие сюжеты Rags-to-Riches, то есть «из грязи в князи». (Примеч. ред.)

94

Testimony, Anita Shreve.

95

The Kitchen God’s Wife, Amy Tan.

96

Misery, Stephen King.

97

The Aquitaine Progression, Robert Ludlum.

98

Big Little Lies, Liane Moriarty.

99

Wolf Hall, Hilary Mantel. Ранее в русском переводе выходил под названием «Волчий зал».

100

The Paris Wife, Paula McLain.

101

The Stand, Stephen King.

102

Leaving Time, Jodi Picoult.

103

The Forgotten Garden, Kate Morton.

104

The Notebook, Nicholas Sparks.

105

The Last Song, Nicholas Sparks.

106

The Road, Cormac McCarthy.

107

Suite Française, Irène Némirovsky.

108

Alice in Wonderland, Lewis Carroll.

109

Gulliver’s Travels, Jonathan Swift.

110

The Corrections, Jonathan Franzen.

111

The Satanic Verses, Salman Rushdie.

112

Firefly Lane, Kristin Hannah.

113

Видеозапись лекции Воннегута о видах сюжетов стоит посмотреть. Она совсем короткая и доступна на YouTube: https://www.youtube.com/watch?v=oP3c1h8v2ZQ. (Примеч. авторов.)

114

Little Bee, Chris Cleave.

115

The Boston Girl, Anita Diamant.

116

The Runaway Jury, John Grisham.

117

The Silver Linings Playbook, Matthew Quick.

118

From Dead to Worse, Charlaine Harris.

119

Англ. sentiment analysis.

120

Фрагмент цитируется по переводу Н. Рейн.

121

Перевод Т. Самсоновой.

122

Их работу «Сравнительное исследование методов машинного обучения для установления авторства» (A Comparative Study of Machine Learning Methods for Authorship Attribution) можно найти в журнале Literary and Linguistic Computing, 25.2, 2010, 215–224. (Примеч. авторов.)

123

Thinner, Stephen King.

124

См. статью Джеймса Смита (James Smythe) в The Guardian от 16 апреля 2013 г. (Примеч. авторов.)

125

Один из наиболее известных случаев установления авторства касается так называемых «Записок федералиста» – анонимно опубликованного сборника статей, написанных Александром Гамильтоном, Джеймсом Мэдисоном и Джоном Джеем. Еще в 1997 г. Ричард С. Форсайт заметил, что задача установления авторства «Федералиста» – «вероятно, лучший кандидат на общепризнанно эталонное стилеметрическое исследование». Мэтт и его соавтор Даниэла Уиттен анализируют «Записки федералиста» в уже упоминавшейся работе «A Comparative Study of Machine Learning Methods for Authorship Attribution». Книга Мэтта «Text Analysis with R for Students of Literature» содержит несколько глав, посвященных установлению авторства и стилеметрическому анализу. В главе «Стиль» книги «Macroanalysis: Digital Methods and Literary History» также рассматриваются многие из этих методов. (Примеч. авторов.)

126

Mrs Dalloway, Virginia Woolf.

127

Цитируется по переводу Е. Суриц.

128

Pride and Prejudice, Jane Austen.

129

Poor Little Bitch Girl, Jackie Collins.

130

The Shining, Stephen King.

131

The Information, Martin Amis.

132

The Chamber, John Grisham.

133

The Rainmaker, John Grisham.

134

Цитируется по переводу М. Тугушевой и А. Санина.

135

Цитируется по переводу И. Стребловой.

136

Процитированные первые строки взяты из следующих романов: «Однажды на берегу океана», Крис Клив; «Утраченный символ», Дэн Браун (The Lost Symbol, Dan Brown); «Хижина», Уильям Пол Янг; «Средний пол», Джеффри Евгенидис (Middlesex, Jeffrey Eugenides); «Рай», Тони Моррисон (Paradise, Toni Morrison); «Девушка, которая играла с огнем», Стиг Ларссон; «Искусство поля», Чед Харбах; «Отраженная в тебе», Сильвия Дэй. (Примеч. авторов.)

137

И (англ.).

138

Но (англ.).

139

Его, ее (англ.).

140

Ты, вы (англ.).

141

The Orphan Master’s Son, Adam Johnson.

142

Прошедшее время от глагола «делать» (англ.), также служебный глагол прошедшего времени.

143

Хотеть (англ.).

144

Мужчина (англ.).

145

Женщина (англ.).

146

Питер упомянул распространенный садовый инструмент для копания, предназначенный для удаления нежелательного (англ.).

147

Питер назвал лопату чертовски полезной штукой (англ.).

148

Фильтруя данные таким образом, мы исключили появление случайных параметров, сбивающих систему с толку. Допустим, в каждом бестселлере использовался бы глагол banjax (редкий глагол, означающий «разрушить, разбить на куски». – Примеч. перев.), а в небестселлерах он не использовался бы вообще. Наша модель быстро решила бы, что наличие этого слова – маркер будущего успеха. И пророчила бы успех любой книге с этим словом, не принимая во внимание никакие другие параметры. Мы избежали этой ситуации, рассматривая только очень распространенные слова, которые гарантированно встречаются как в бестселлерах, так и в небестселлерах. Мы заставили систему исследовать частоту, с которой интересующие нас слова встречаются в книгах обоих типов, и намеренно игнорировать те, которые встречаются только в одном из них. (Примеч. авторов.)

149

Делать; также служебный глагол.

150

Очень (англ.).

151

The Elements of Style, William Strunk, E. B. White.

152

Сокращение от not, отрицательной частицы при глаголе.

153

Сокращение от ряда служебных глаголов сослагательного наклонения, в прошедшем времени (should, would, had, did).

154

Сокращение от служебных глаголов are и were (глагол «быть» во множественном числе, в настоящем и прошедшем времени соответственно).

155

Сокращение от служебного глагола «быть» в настоящем времени, первом лице, единственном числе.

156

О’кей, хорошо, отлично (англ.).

157

Фу, буэ (англ.).

158

Вещь, штука, тварь (англ.).

159

Работу Мэтта на эту тему мы уже упоминали в 1-й главе, но ключевое исследование в данной области провели в 2002 г. Шломо Аргамон, Моше Коппель и Анат Рахель Шимони. Результаты изложены в статье «Автоматическое установление пола автора на основе письменного текста» (Shlomo Argamon, Moshe Koppel, Anat Rachel Shimoni, «Automatically Categorizing Written Text by Author Gender», журнал Literary and Linguistic Computing). (Примеч. авторов.)

160

Помнить, сам(а), только (англ.).

161

Роман Томаса Харриса. Hannibal, Thomas Harris.

162

Роман Эммы Донохью. Room, Emma Donoghue.

163

Роман Шарлин Харрис. Dead and Gone, Charlaine Harris.

164

Suzanne’s Diary for Nicholas, James Patterson.

165

Four Blind Mice, James Patterson.

166

Dolores Claiborne, Stephen King.

167

Written in My Own Heart’s Blood, Diana Gabaldon.

168

Tinkers, Paul Harding.

169

Cold Mountain, Charles Frazier.

170

The Appeal, John Grisham.

171

«Gone girl», роман Гиллиан Флинн, в русском переводе выходил под названием «Исчезнувшая».

172

«Luckiest Girl Alive», роман Джессики Нолл, в русском переводе выходил под названием «Счастливые девочки не умирают».

173

Роман Джона Гришэма. A Painted House, John Grisham.

174

Роман Стивена Кинга и Питера Страуба. Black House, Stephen King, Peter Straub.

175

Роман Денниса Лихейна. Shutter Island, Dennis Lehane.

176

роман Кортни Салливан.

177

роман Даниэлы Стил. В русском переводе выходил под названием «Жить дальше».

178

Роман Ф. Д. Джеймс. Death Comes to Pemberley, P. D. James.

179

Роман Кена Фоллетта. Fall of Giants, Ken Follett.

180

Роман Дэвида Николса. One Day, David Nicholls.

181

роман Кэтрин Харрисон. The Kiss, Kathryn Harrison.

182

роман Дженнифер Иган. A Visit from the Goon Squad, Jennifer Egan. В русском переводе выходил под названием «Время смеется последним».

183

Роман Филиппы Грегори. The Boleyn Inheritance, Philippa Gregory.

184

Роман Сары Груэн. Water for Elephants, Sara Gruen.

185

Роман Дианы Гэблдон. Dragonfly in Amber, Diana Gabaldon.

186

Роман Сидни Шелдон. Memories of Midnight, Sidney Sheldon. В русском переводе выходил под названием «Полночные воспоминания».

187

Названия романов «Щегол», «Заказ», «Утраченный символ», в которых определенный артикль заменен на неопределенный. Получается нечто вроде «Какой-то щегол», «Какой-то заказ», «Какой-то утраченный символ». (Примеч. перев.)

188

«Дар», Даниэла Стил (The Gift, Danielle Steel); «Рождественский свитер», Гленн Бек; «Дневник памяти», Николас Спаркс.

189

«Катушка синих ниток», Энн Тайлер (A Spool of Blue Thread, Anne Tyler); «Тысяча сверкающих солнц», Халед Хоссейни (A Thousand Splendid Suns, Khaled Hosseini); «Жизнь и цель собаки», Брюс Кэмерон; «Игра престолов», Дж. Р. Р. Мартин.

190

«Великолепные руины», Джесс Уолтер (Beautiful Ruins, Jess Walter); «Мешок с костями», Стивен Кинг (Bag of Bones, Stephen King); «Пляжная музыка», Пэт Конрой (Beach Music, Pat Conroy); «Свобода», Джонатан Франзен (Freedom, Jonathan Franzen); «Разоблачение», Майкл Крайтон (Disclosure, Michael Crichton); «Суть дела» (Heart of the Matter; романы с таким названием есть у Грэма Грина и у Эмили Гиффин).

191

Роман Элизабет Страут. Olive Kitteridge, Elizabeth Strout.

192

Роман Джеймса Паттерсона. Cross, James Patterson.

193

Роман Даниэлы Стил. Zoya, Danielle Steel.

194

роман Сэмюэла Ричардсона. Pamela: Or Virtue Rewarded, Samuel Richardson. В русском переводе выходил под названием «Памела, или Награжденная добродетель».

195

Роман Даниеля Дефо. Moll Flanders, Daniel Defoe.

196

Роман Джейн Остин. Emma, Jane Austen.

197

Роман Гюстава Флобера. Madame Bovary, Gustave Flaubert.

198

Роман Генри Филдинга. The History of Tom Jones, a Foundling, Henry Fielding.

199

роман Уильяма Ландея. Defending Jacob, William Landay.

200

роман Нэнси Хорэн. Loving Frank, Nancy Horan.

201

Роман Стивена Кинга. Gerald’s Game, Stephen King.

202

роман Джеймса Паттерсона. Kill Alex Cross, James Patterson.

203

роман Лайзы Дженова. Still Alice, Lisa Genova. Экранизация в российском прокате шла под названием «Все еще Элис».

204

Роман Кена Фоллетта. The Key to Rebecca, Ken Follett.

205

Роман Роберта Харриса. The Ghost, Robert Harris.

206

Роман Эльфриды Елинек. The Piano Teacher, Elfriede Jelinek.

207

роман Сары Блейк. The Postmistress, Sarah Blake.

208

Какая-то, неизвестная почтальонка (англ.).

209

Определенная, известная автору и читателям почтальонка (англ.).

210

Роман А.С.А. Харрисон. The Silent Wife, A.S.A. Harrison.

211

Роман Роберта Гулрика. A Reliable Wife, Robert Goolrick.

212

Роман Грейс Ливингстон Хилл. A Girl to Come Home To, Grace Livingston Hill.

213

Роман Ричарда Адамса. The Girl in a Swing, Richard Adams. На русском языке известен под названием «Девочка на качелях».

214

По аналогии с кинематографическим жанром «фильм нуар» – криминальными драмами, обычно с коварными героинями, которые играют активную роль в сюжете. (Примеч. перев.)

215

Агентивность, также агентность, субъектность (англ. agency) – в социологии способность человека выступать в качестве самостоятельного агента/субъекта и делать осознанный и свободный выбор. (Примеч. перев.)

216

The Bourne Ultimatum, Robert Ludlum.

217

Star Trek, James Blish et al.

218

Научить компьютер разбираться во всевозможных вариациях имен героев, вероятно, невозможно. Мы говорим «вероятно», потому что над проблемой работают очень талантливые ученые. Эта отрасль исследований называется «распознавание именованных сущностей» (Named Entity Recognition, NER). Как и многие другие методы, использованные нами при работе над этой книгой, NER является частью дисциплины «обработка естественного языка». Тем, кого интересует эта область науки, рекомендуем ознакомиться с работой Баммана, Андервуда и Смита «Моделирование литературных персонажей с помощью байесовской модели со смешанными эффектами» (Bamman, Underwood and Smith. A Bayesian Mixed Effects Model of Literary Character), которую можно найти в материалах 52-го годового собрания ассоциации компьютерной лингвистики за 2014 г. (Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 2014. P. 370–379).

219

Сейчас у нас есть алгоритмы, прекрасно умеющие находить в тексте имена персонажей, но понять, кто есть кто и кто что делает, – по-прежнему очень трудная задача. Несмотря на эти трудности, в лаборатории Мэтта в Университете Небраски сейчас идут новые исследования, показавшие, что некоторые аспекты агентивности персонажа легко извлечь из текста. За последние два года Мэтт и его студенты из литературной лаборатории Небраски разрабатывали и прототипировали метод распознавания и извлечения данных об агентивности персонажа. Эти данные будут использованы для изучения разработки мужских и женских персонажей в художественной литературе XIX века. Доклад об этой работе, озаглавленный «Исследование пола персонажей и их способности к самостоятельным действиям в романах XIX века» (Understanding Gender and Character Agency in the 19th Century Novel), сейчас находится на рассмотрении рецензентов. Хотя цель этого исследования отлична от нашей, мы нашли, что метод, примененный в Небраске, можно использовать для изучения бестселлеров. С его помощью мы обработали нашу коллекцию бестселлеров, чтобы выявить все местоимения и все имена персонажей, а также связанные с ними глаголы. Затем мы провели ряд экспериментов для классификации, чтобы установить силу связей глаголов с местоимениями, а также связь между определенными парами «местоимение – глагол» и тем, является ли книга бестселлером. (Примеч. авторов.)

220

Нуждаться, испытывать потребность (англ.).

221

Хотеть (англ.).

222

Нуждаться, хотеть, скучать (по кому-то), любить (англ.).

223

Англ. wish.

224

Роман Элис Сиболд. The Lovely Bones, Alice Sebold.

225

Для людей с поведенческим типом А характерны следующие особенности: высокий темп жизни для достижения нечетко сформулированной (часто труднодостижимой) цели; постоянное сравнение себя с другими, стремление конкурировать, настойчивый поиск признания; высокая готовность к действиям; нетерпеливость и постоянная спешка; отсутствие ощущения безопасности; неспособность расслабиться и наслаждаться жизнью.

226

У. Шекспир, «Гамлет», пер. М. Лозинского.

227

Перевод А. Савицкой.

228

См. рассказ Джеймса Джойса «Мертвые» из цикла «Дублинцы» (The Dead, James Joyce). (Примеч. авторов.)

229

Перевод В. Антонова.

230

Роман Лорен Грофф. Fates and Furies, Lauren Groff.

231

Роман Гарта Риска Холлберга. City on Fire, Garth Risk Hallberg.

232

Роман Хунота Диаса. The Brief Wondrous Life of Oscar Wao, Junot Díaz.

233

Роман Янна Мартела. Life of Pi, Yann Martel.

234

Роман Маргарет Этвуд. The Handmaid’s Tale, Margaret Atwood.

235

Роман Дэвида Лоуренса. Lady Chatterley’s Lover, D.H. Lawrence.

236

Роман Джона Грина. The Fault in Our Stars, John Green.

237

Сокращение от will – вспомогательного глагола будущего времени.

238

A Heartbreaking Work of Staggering Genius, Dave Eggers.

239

В буквальном переводе «Круг».

240

«Бог ты мой, – подумала Мэй, – я в раю». Здесь и далее «Сфера» цитируется по переводу А. Грызуновой.

241

Finnegans Wake, James Joyce.

242

СЛАДЕНЬКАЯ УТОЧКА!

МОЯ ДРАГОЦЕННАЯ ЛЮБОВЬ СОБЛАЗНИТЕЛЬНО ВЗДЫХАЕТ ПО ТВОЕЙ ЖАЖДЕ. МОЕ ОЧАРОВАНИЕ ЖГУЧЕ СОБЛАЗНЯЕТ ТВОЮ ДРАГОЦЕННУЮ СТРАСТЬ. ТЫ МОЕ ДРАГОЦЕННОЕ БРАТСКОЕ ЧУВСТВО, МОЙ ОШЕЛОМЛЯЮЩИЙ ПЫЛ, МОЙ ЖГУЧИЙ ПЫЛ.

НЕТЕРПЕЛИВО ТВОЙ К. М.У.

243

Do Androids Dream of Electric Sheep? Philip K. Dick.

244

Отрицательная форма третьего лица настоящего времени глагола do («делать», англ.).

245

Сокращенная отрицательная форма настоящего времени глагола can («мочь», англ.).

246

Меня удивила новость, что д-р Арчер пишет роман (англ.).

247

После долгого дня, потраченного на обучение компьютера чтению бестселлеров, Мэтт позвонил Джоди и сказал: «Меня просто убивают эти диалоги». Джоди предложила ему утешение в форме шотландского виски (англ.).

248

Надежда, надеяться, также женское имя Хоуп, означающее «надежда» (англ.).

249

Он не терял надежды, что она купит книгу сама (англ.).

250

Она надеялась, что он купит ей книгу (англ.).

251

Хоуп сказала, чтобы он купил книгу сам (англ.).

252

Для тех, кто интересуется разбором по частям речи, группа обработки естественного языка Стэнфордского университета предлагает демонстрационную программу, доступную в интернете: http://nlp.stanford.edu:8080/parser/index.jsp. (Примеч. авторов.)

253

Использовать для этого программу разбора зависимостей первоначально предложили два студента Мэтта – Габи Кириллофф и Джонатан Чен. (Примеч. авторов.)

254

«Мэй понимала, что Рената за ней наблюдает, и знала, что сама таращится в некоем ужасе» (англ.).

255

Разбор предложения проведен с помощью демонстрационной онлайн-версии программы разбора зависимостей, разработанной в Стэнфордском университете и доступной в интернете по адресу: http://nlp.stanford.edu:8080/parser/index.jsp. (Примеч. авторов.)

256

Мэй (англ.).

257

Знала (англ.).

258

Наблюдает (англ.).

259

Конечно, реальная жизнь сложнее, и, будь у нас подлинные данные по продажам книг, мы могли бы использовать их вместо бинарного разграничения (книга либо попала, либо не попала в список бестселлеров NYT). При наличии таких данных мы также могли бы использовать совершенно иной набор прогностических алгоритмов. Следует заметить, что в самых первых экспериментах мы использовали три класса книг – романы, попавшие на первое место в списке бестселлеров, романы, которые попали в список, но не заняли первого места, и небестселлеры. Удивительно, что наша модель смогла с уверенностью в 80 % определить разницу между бестселлером номер один и бестселлерами, занявшими 2–15-е места в списках. То же было верно в отношении «двузначных» книг, то есть тех, которые остаются в списке бестселлеров месяцами. Подобные нюансы мы сочли слишком мелкими для включения в данную книгу, но наблюдать их было чрезвычайно интересно. (Примеч. авторов.)

260

Действительно, по-настоящему (англ.).

261

Чтобы границу было легче увидеть, мы изменили расположение книг на плоскости, убрав те, что оказались ближе всего к границе. (Примеч. авторов.)

262

В использованных нами алгоритмах обучения задействована довольно сложная математика. Прекрасный обзор методов KNN и SVM содержится в работе An Introduction to Statistical Learning by James, Witten, Hastie и Tibshirani. Springer: New York, 2013. Очень краткое описание метода Nearest Shrunken Centroids можно найти по адресу http://statweb.stanford.edu/~tibs/PAM/Rdist/howwork.html, вместе со ссылкой на научную работу «Diagnosis of multiple cancer types by shrunken centroids of gene expression», в которой описано первое испытание этого алгоритма. Заинтересованные читатели могут также ознакомиться со статьей: Jockers Matthew L. and Daniela M. Witten. A Comparative Study of Machine Learning Methods for Authorship Attribution // Literary and Linguistic Computing, 25.2, 2010, 215–224. (Примеч. авторов.)

263

Мы экспериментировали с различными значениями К. лучшие результаты получались при К = 15. (Примеч. авторов.)

264

Мы также изучали получившиеся матрицы ошибок, чтобы лучше понять факторы, влияющие на точность модели, но это уже выходит за рамки послесловия. (Примеч. авторов.)

265

Более подробное, но все же без явного технического уклона описание интеллектуального анализа текста и машинного обучения можно найти в работе: Jockers Matthew L. and Underwood Ted. Text-Mining the Humanities // New Companion to the Digital Humanities / Eds. Susan Schreibman, Ray Siemens, John Unsworth. Wiley-Blackwell, 2016. (Примеч. авторов.)

Вход
Поиск по сайту
Ищем:
Календарь
Навигация