Книга Статистика и котики, страница 12. Автор книги Владимир Савельев

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Статистика и котики»

Cтраница 12

Статистика и котики

Можем ли мы при таких условиях найти факторы, предсказывающие котиковое счастье?

Разумеется да. И для этого существуют два очень хороших метода. Первый называется логистической регрессией, а второй — дискриминантным анализом.

Логистическая регрессия во многом похожа на линейную. Однако вместо уровня счастья в левой части уравнения стоит величина, которая позволяет рассчитать вероятность того, что данный котик счастлив. Эта величина называется логарифмом шанса.

Слово «шанс» достаточно часто встречается в русском языке, как правило, обозначая то, что ни в коем случае нельзя упустить. Но с точки зрения статистики шанс — это вероятность того, что данный котик счастлив, деленная на вероятность того, что он несчастлив.


Статистика и котики

По некоторым математическим причинам от шанса берут натуральный логарифм и подставляют эту величину в регрессионное уравнение. Если логарифм шанса будет положительным, то данный котик считается счастливым, а если отрицательным — то несчастным.


Статистика и котики

Альтернативным методом является дискриминантный анализ. Чтобы разобраться, что это такое, обратимся к рисунку.


Статистика и котики

На нем представлены счастливые котики (Барсики) и несчастные (Мурзики), а также информация о том, кто из них сколько ест. Очевидно, что Барсики едят в целом больше, и мы можем провести четкую границу между котиками по этому фактору. И если такая граница возможна, то мы делаем вывод, что фактор связан с уровнем счастья. Иной случай выглядит так.


Статистика и котики

Здесь невозможно построить такую границу, чтобы Барсики оказались по одну ее сторону, а Мурзики — по другую. Соответственно, в этом случае количество еды не связано с уровнем счастья.

Алгоритм нахождения таких границ и называется дискриминантным анализом, а формула, которая задает границы, — дискриминантной функцией. По итогу дискриминантного анализа вы получаете таблицу, в которой обозначается, по каким факторам удалось провести внятные границы, а по каким — нет.

Дискриминантный анализ может работать и с большим количеством групп. Например, если мы добавим к нашим Барсикам и Мурзикам группу философских котиков, дискриминантный анализ сможет найти границы между ними всеми. Число таких границ всегда будет на одну меньше, чем количество групп.


Статистика и котики

Если же вы являетесь поклонником регрессионного анализа, то при большом количестве групп вы можете вычислить так называемую мультиномиальную регрессию.


НЕМАЛОВАЖНО ЗНАТЬ!

Мультиколлиниарность и переобучение


С методами регрессионного и дискриминантного анализов связаны две проблемы, которые существенным образом могут испортить вам все ваши выводы.

Первая из них — проблема мультиколлиниарности — возникает в случаях, когда некоторые факторы сильно коррелируют между собой, и приводит к неустойчивости получившегося уравнения. Проявляется это в двух формах.

1. При добавлении всего одного-двух котиков в выборку это уравнение может измениться до неузнаваемости.

2. Формулы, построенные на двух сходных выборках котиков, будут различаться.


Статистика и котики

Как правило, эту проблему преодолевают тремя способами.

1. Исключают одну из коррелирующих переменных из анализа.

2. Предварительно проводят процедуру факторного анализа (о нем будет рассказано далее), заменяющего эти переменные одной искусственной, которая и будет включена в регрессию.

3. Проводят процедуру пошаговой регрессии. Такая регрессия постепенно включает в уравнение по одной переменной и сразу же после этого пересчитывает вклад всех остальных. В итоге если одна из коррелирующих переменных была выбрана в качестве фактора, вторая туда скорее всего не попадет.

Вторая проблема — проблема переобучения — заключается в том, что уравнение, полученное на одних котиках, может не работать на других. Она возникает из-за того, что в вашей выборке котиков могут быть закономерности, которые нехарактерны для котиков в целом. И зачастую они попадают в регрессионную модель.


Статистика и котики

Для того чтобы предотвратить переобучение, используют критерий, который искусственно ограничивает количество факторов, включенных в уравнение (например критерий Акаике и Байесовский информационный критерий).

Глава 12.
Котиковые аналоги
или основы математического моделирования

В предыдущих разделах мы подробно рассмотрели метод регрессионного анализа, который позволяет построить уравнение, описывающее, как различные вещи влияют на настроение котиков. Подобные уравнения входят в группу объектов, называющихся математическими моделями.

Математическая модель — это своего рода аналог котика, который позволяет изучать его поведение без проведения реальных экспериментов. Как правило, это значительно удешевляет исследования.


Статистика и котики

Все математические модели делятся на функциональные и структурные. Функциональные модели, к которым, к слову, относится регрессионное уравнение, — описывают влияние внешних факторов на котиковое состояние. Например, известная нам модель котикового счастья.


Статистика и котики

Особенность такой модели в том, что мы подробно не рассматриваем состав этого счастья. Счастье для нас — некий целостный объект, целевая переменная, которая может меняться: прибывать или убывать. А вот структурные модели позволяют описать его компоненты: от удовлетворения базовых котиковых потребностей до котиковой самореализации.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация