Книга Слово как улика. Всё, что вы скажете, будет использовано против вас, страница 29. Автор книги Джон Олссон

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Слово как улика. Всё, что вы скажете, будет использовано против вас»

Cтраница 29

Порой авторы экспертных отчетов делают сильные заявления, не выдерживающие испытания скрупулезным перекрестным допросом. Так, Уиллерби пишет: «Совсем недавно утверждалось, что полный синтаксический анализ обоих текстов является более прямым методом достижения той же цели, хотя он куда более трудозатратен и провести его за время, отведенное для настоящего анализа, было невозможно». Возникает ощущение, что мистер Уиллерби обладает необходимыми знаниями и программным обеспечением для выполнения подобной работы и, самое главное, – таким опытом. Насколько мне известно, лишь несколько аналитиков решились бы провести «полный» анализ документа или набора документов объемом 20 000 слов, и, как бы то ни было, выполнение синтаксического анализа – это работа для узкого специалиста, и мало какой лингвист может ее выполнить.

Также Уиллерби говорит: «Широко признано, что частота многих слов этого типа может служить своего рода отпечатком пальца каждого автора». Может быть, это и широко признано, но с этим не согласны те лингвисты, которые хоть как-то соприкасались с установлением авторства. На самом деле это во многом противоречит нашему пониманию того, как язык усваивается и используется, развивается и атрофируется на протяжении человеческой жизни. Уиллерби не привел никаких подтверждений тому, что подобное представление является «широко признанным».

В своем анализе Уиллерби упоминает печально известный метод установления авторства, отвергнутый судами более десяти лет назад. Он известен как метод накопленных сумм и был совместно разработан викарием и ученым-программистом. Его решительно атаковали как лингвисты, так и психологи. Под заголовком «Анализ служебных слов» Уиллерби утверждает, что метод накопленных сумм был отвергнут из-за того, что «множество двух– и трехбуквенных слов и слов, начинающихся с гласной, не является естественной лингвистической категорией». На самом деле это далеко не главная причина, по которой метод накопленных сумм был отвергнут. Главная причина в том, что он нарушает несколько основополагающих научных принципов и совершенно не учитывает ряда элементарных постулатов лингвистики. Для меня было неожиданностью, что мистер Уиллерби всего этого не знает, учитывая его положение в крупном образовательном учреждении. Я также удивился тому, что в отчете по установлению авторства «эксперт» говорит о методе, давно отвергнутом всем сообществом судебной лингвистики.

Далее по теме анализа служебных слов он добавляет: «В ходе первых исследований в области установления авторства было принято думать, что важным показателем является средняя длина предложения». Ирония здесь в том, что он говорит о работе, проведенной математиками сто лет назад – сначала Аугустусом де Морганом и Т. С. Менденхоллом, а позднее Адни Юлом. Ни один из этих математиков – весьма выдающихся, впрочем, – не был связан с лингвистикой и даже не увлекался серьезно изучением языка. Поэтому называть их работу «первыми исследованиями в области установления авторства» будет по меньшей мере лукавством. Также меня вновь озадачило то, что Уиллерби говорит о методе, а затем отбрасывает его, заявляя, что он не подходит для решения задачи установления авторства.

Еще по теме разбора служебных слов Уиллерби упоминает такую меру, как показатель лексического разнообразия текста. Это лингвистический показатель богатства словарного запаса в некотором объеме текста. Он равен отношению числа разных слов в тексте к длине текста, измеренной в словах. Однако измерение лексического разнообразия обычно не предпринимают в отношении служебных слов. Любопытно, что Уиллерби вновь описывает меру, которая, по его собственному признанию, мало подходит для анализа с целью установления авторства.

Уиллерби говорит, что тексты Джонсона и материала Икс были предоставлены ему в печатном виде. Учитывая то, что материал Икс был размещен в интернете во всеобщем доступе, мне показалось странным то, что он взял распечатанный текст и отсканировал его с применением технологии распознавания символов и последующей уточняющей корректурой. Странно, что аналитик воспроизводит электронный документ, сначала распечатывая его, а затем сканируя и вычитывая, и ожидает, что полученный таким образом текст будет в точности таким же, как оригинальный электронный текст. Уиллерби утверждает, что «каждая страница была вычитана OCR-ассистентом». Он не сообщает, был этот ассистент человеком или компьютерной программой. OCR-ассистенты входят во многие пакеты программного обеспечения и по большей части помогают решать вопросы верстки, организации текста и так далее. Он говорит, что «для исправления ошибок, не встречающихся в исходном тексте, использовалась программа проверки орфографии». Я не уверен в том, что понимаю, что именно он имеет в виду. То, что программа проверки орфографии использовала стандартный орфографический словарь для устранения ошибок, или же то, что эта программа была использована для сохранения ошибок, сделанных в источнике? Не знаю, как подобная программа может в этом помочь; скорее всего, это сделал сам Уиллерби.

Те же замечания относятся и к текстам Билла Джонсона. В большинстве своем это были электронные письма, написанные мистером Джонсоном ранее. Если это уже были электронные документы, то зачем их распечатывать, сканировать и вычитывать? Раньше пакеты OCR-программ для сканеров славились тем, что нагружали процессор и допускали массу ошибок, особенно в таких документах, как электронные письма. Между прочим, в данном контексте со словом «ошибка» следует обращаться очень обдуманно. Под ошибкой здесь подразумевается не грамматическая, орфографическая или пунктуационная ошибка. Речь идет об отличиях текста, произведенного в процессе сканирования, от текста первоначального. Если сканер честно воспроизводит фрагмент текста, содержащий ошибку, то с точки зрения судебной лингвистики – это не ошибка. Сканирование проведено корректно. И напротив, если сканер «исправляет» ошибку посредством встроенного алгоритма проверки орфографии, то это ошибка, несмотря на то что произведенный текст грамматически и орфографически корректен. Обычно назначение корректировщика в распознающем программном обеспечении сканера – исправлять обнаруженные им ошибки правописания; но в судебном контексте важно ничего не исправлять, поскольку текст-свидетельство должен быть представлен как он есть.

Я очень сильно сомневаюсь, что кто-либо способен вычитать 20 000 слов и в соответствии с этими высокими требованиями не допустить ошибок, особенно в условиях ограниченного времени (о котором Уиллерби также говорит в своем отчете). Даже самый аккуратный автор совершает разного рода ошибки, и если они были исправлены в процессе сканирования либо как-то неверно интерпретированы, то версия Уиллерби, весьма вероятно, не вполне точно отражает исходный материал. То же касается и текстов мистера Джонсона. Джонсон попросил дать ему ознакомиться с электронными письмами, использованными для экспертизы, но Уиллерби ему в этом отказал. Это крайне необычно, так как означает невозможность проверить опорные документы на точность и достоверность.

Следующий раздел в отчете Уиллерби озаглавлен «Выбор образцов». Насколько я могу судить, все описанные им методы были отвергнуты. Он до сих пор не упомянул тех методов, которые собирается применить для установления авторства. Более того, в судебной работе проверяемые тексты никогда не называют «образцами» (samples). Все тексты в наборе являются обязательными, так как целью исследования является установление личности их автора, или, выражаясь более научно, выяснить, на каком основании эти тексты можно приписать или не приписать тому или иному автору.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация