Книга Голова как решето. Зачем включать мозги в эпоху гаджетов и Google, страница 29. Автор книги Уильям Паундстоун

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Голова как решето. Зачем включать мозги в эпоху гаджетов и Google»

Cтраница 29

Как эту погрешность определить? Вот, например, так: в тесте на общую эрудицию я попросил в одном из заданий назвать нынешнего спикера палаты представителей. Джона Бейнера – правильный в те годы ответ – выбрали 70,6 % испытуемых. На самом же деле нашей задачей было установить, какой процент от всего населения США ответил бы правильно. Наверняка мы этого не знаем, потому что я опросил не каждого жителя страны, а только 445 выбранных наугад людей, участвовавших в сетевом панельном исследовании. Статистика говорит о том, что если в выбранной наугад группе 445 человек, то предел погрешности для 70,6 % равен ± 4,2 %. Следовательно, в масштабах всей страны эта величина, вероятно, оказывается в промежутке 66,4–74,8 %.

Нас также интересуют корреляционные связи – область более зыбкая. Как я уже упоминал, чем лучше испытуемый справлялся с тестом, тем больше, как правило, был у него доход. Это открытие потенциально интересно, но опять же насколько можно быть уверенным, что оно отражает состояние всего населения?

Допустим, я опросил 10 случайных добровольцев, один из которых оказался миллиардером, и притом весьма любознательным. Одно только это укажет на предполагаемую связь между широтой кругозора и уровнем дохода, однако на деле это статистический «шум», который не стоит учитывать.

По этому поводу специалисты по статистике беспокоятся, и довольно сильно. Свои сомнения они выражают через оценку значения p. Говоря простым языком, p-значение – это вероятность того, что получен совершенно случайный результат, а выводы исследования ошибочны. Поскольку нам нужны результаты, соответствующие действительности, а не ошибочные, чем меньше p-значение, тем лучше.

Условно p-значение, не превышающее 0,05 (что соответствует 5 %, или одному из двадцати), считается «статистически значимым». Другими словами, исследователи хотят быть уверенными хотя бы на 95 %, что результат получен не по ошибке. Конечно, вся эта «статистическая значимость» свидетельствует лишь о том, что вероятность, с которой вывод подкрепляется данными, достаточно высокая. Чего-то таинственного в этом 5 %-м пороге нет, да и залогом истинности он быть не может. Тем не менее этот порог важен для публикации в академических журналах. Поскольку существует принцип «публикуйся или умри», скептики утверждают, что достижение порогового p-значения 0,05 похоже на выкидывание игральной кости с 20 гранями: повторяйте эксперимент достаточно долго, и непременно появится что-нибудь, что можно опубликовать. (Подобные действия считаются подтасовкой p-значения.) Журналисты и интервьюеры широко, хотя и не повсеместно, пользуются 0,05 p-значением, когда пишут о результатах проведенного исследования.

Вернемся к тесту на общую эрудицию. P-значение для связи между количеством правильных ответов и размером семейного дохода оказалось равным <0,001. Это означает, что вероятность ошибочного результата составила менее одного шанса из тысячи. Как вам теперь известно, низкое p-значение само по себе не доказывает истинность результатов. Но если вышло <0,001, то, по крайней мере, можно сказать, что лучшего p-значения нельзя и желать. (И на этом в рассуждениях на тему p-значений я ставлю точку. Скажу лишь тем, кому может быть интересно, что p-значения для многих исследований, упомянутых в этой книге, приводятся в приложении. Все корреляции, о которых пойдет речь, будут существенными, а у большинства пороговое значение гораздо ниже 0,05.)

Пришло время поговорить о еще одном важном правиле статистики: корреляция не доказывает причинно-следственную связь.

В качестве наглядного подтверждения я с удовольствием вспоминаю веб-сайт Spurious Correlations [126] о ложных корреляциях, где приводится впечатляющая и совершенно бессодержательная статистика. С 1999 по 2009 г., к примеру, прослеживается корреляционная связь между числом людей, утонувших в бассейне, и количеством фильмов с Николасом Кейджем. Существует корреляция за тот же период между возрастом победительниц конкурса «Мисс Америка» и числом смертей из-за обваривания кипятком и других ожогов.


Корреляция между возрастом победительниц «Мисс Америка» и числом смертей из-за обваривания кипятком и других ожогов

Голова как решето. Зачем включать мозги в эпоху гаджетов и Google

В наш перенасыщенный данными век отыскать бессмысленные совпадения вроде этих довольно просто.

Некоторые из них успешно проходят тест на статистическую значимость. Всякий, кто станет искать корреляции достаточно долго и упорно, обязательно их найдет.

Вот почему разумно сосредоточиться на корреляциях, которые не лишены смысла. Существует очевидный фактор, объясняющий связь между знанием фактов и уровнем дохода: образование.

Если человек знает много фактов, он наверняка больше времени посвятил учебе. Кто хорошо образован, тот зарабатывает лучше. Помимо прочего, это подходящий девиз для рекламы подготовительных курсов и студенческого кредита. Дипломы Лиги плюща, Стэнфорда или Массачусетского технологического института приносят неплохие дивиденды (как было многократно засвидетельствовано) [127]. Для многих престижных профессий степени бакалавра искусств, магистра делового администрирования, доктора философии или медицины – эквивалент профсоюзного билета.

В связи с этим возникает вопрос: считать ли знание фактов исключительно надежным предвестником размера доходов или только индикатором уровня образования, полученного в учебных заведениях (то есть считать ли знание фактов «суррогатом» образования)?

Специалистам по статистике часто хочется определить влияние не одного, а сразу нескольких факторов, ответственных за определенный результат. Один из наиболее часто используемых методов – линейные регрессии. За мудреным названием стоит простая идея. Допустим, вам кажется, что между количеством пончиков, которые съедает человек, и его весом существует взаимосвязь. Можно ли по съедаемым пончикам предсказать вес едока? Один из способов это выяснить – собрать личные данные о весе и недельном пончиковом рационе. Затем возьмите лист миллиметровой бумаги и для каждого едока – персонального набора данных – отметьте точку (получится точечная диаграмма). Положение точек указывает на число съедаемых пончиков (по оси x) и вес соответствующего едока (по оси y).

Если корреляция имеется – люди, которые съедают много пончиков, весят больше, – то на диаграмме появится облако точек, устремленное вверх от нижнего левого угла к верхнему правому. Эта линия и называется линейной регрессией. С ее помощью можно строить прогнозы. Понадобилось узнать, сколько будет весить человек, съедающий в месяц 14 пончиков? От отметки 14 на «пончиковой» оси проведите вертикальную линию вплоть до ее пересечения с диагональю предполагаемой зависимости. Прямая, проведенная из этой точки по горизонтали, упрется в отметку на «весовой» оси. Так вы узнаете вероятный вес едока.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация