Книга Роман с Data Science. Как монетизировать большие данные, страница 45. Автор книги Роман Зыков

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Роман с Data Science. Как монетизировать большие данные»

Cтраница 45

Что если гипотезы и их приоритизацию делать внутри отделов? С одной стороны, этот подход кажется правильным – минимум централизации, максимум скорости. Но давайте представим себе, что компания – это живой организм, а ее самый сильный отдел (например, IT) – это руки. У отдела хороший список гипотез, и приоритеты расставлены более правильно, чем у других отделов, – то есть руки прокачаны как следует. А теперь представим себе соревнования по триатлону – на олимпийской дистанции нужно проплыть 1500 метров, сразу после этого сесть на велосипед и проехать 40 км, а затем пробежать 10 км. Сильные руки пригодятся на первом этапе, но в двух других дисциплинах нужны уже сильные ноги. Если они не так хорошо натренированы, спортсмен проиграет гонку более сбалансированным соперникам или даже может сойти с дистанции. В бизнесе, как в спорте, невозможно сделать ставку на один отдел – нужен сбалансированный подход. Я сам проходил это в Retail Rocket – варился в собственном соку, приоритизировал свои гипотезы сам. Да, мы стали очень сильными в одной области, но остальные команды не успевали за нами. Если вернуться назад, я бы сделал ставку на совместную работу, продукт и рынок.

Все гипотезы из списка невозможно протестировать. Большинству уготовано так и остаться навеки гипотезами. Это нормально и даже хорошо – значит, более выгодные идеи реализуются раньше остальных. Каждая гипотеза потребляет ресурсы, они не бесконечны, поэтому невозможно протестировать все идеи. Скажу больше – 9 из 10 гипотез не принесут результата. Но понятно это может стать только на одном из многочисленных этапов ее тестирования. Моя теория заключается в том, что нужно убивать гипотезу как можно раньше, как только мы получим первый сигнал о том, что она не взлетит. Это сэкономит ресурсы – много ресурсов! – и даст шанс лучшим гипотезам, которые ожидают своей очереди.

Я сравнивал разные гипотезы и их отдачу. Эволюционные гипотезы, где один параметр слегка оптимизируется, в случае успеха дают меньший эффект по сравнению с революционными гипотезами, где подход принципиально иной. Но вероятность успеха как такового у эволюционной гипотезы выше.

Планируем тест гипотезы

Пусть у нас есть готовая гипотеза, которую бизнес признал самой горячей. У нас есть все ресурсы, и мы готовы взять ее в работу. Какая еще информация нужна? Во-первых, цель гипотезы – какую количественную метрику она будет оптимизировать? Мы уже понимаем, что количественные метрики неидеальны, но нам она нужна для отслеживания изменений. Здесь метрика – это то число, значимо улучшив которое можно покупать ящик шампанского.

Во-вторых, нужно понимать, как мы будем тестировать гипотезу и где. В машинном обучении есть два вида тестирования: офлайн и онлайн. Офлайн дает метрики на уже существующих данных – о них я писал в главе 8 «Алгоритмы машинного обучения». В онлайн-тестировании нужно получить интересующие метрики и сравнить их с помощью статистических тестов.

Основоположник планирования экспериментов (тестирования гипотез) сэр Рональд Фишер в 1925 году написал монографию «Статистические методы для исследователей», в которой изложил такие понятия, как статистический критерий значимости, правила проверки статистических гипотез, дисперсионный анализ, планирование эксперимента. Это определило наш сегодняшний подход к планированию экспериментов. Вы наверняка слышали про тестирование вакцины от COVID-19 – ее тестировали методом двойного слепого рандомизированного плацебо-контролируемого исследования. Это самое достоверное клиническое исследование, применяемое в доказательной медицине. Рандомизированное – значит распределение пациентов по опытной и контрольной группам происходит случайно. Для чистоты эксперимента крайне важно, чтобы исследователи не могли собрать более легких больных в опытную группу, а более тяжелых – в контрольную. Поэтому существуют специальные методы рандомизации (перемешивания), чтобы в итоге различия между группами стали статистически недостоверными, а результаты исследования более точными. Именно Фишер предложил способ планирования и проведения таких экспериментов. Он некоторое время работал в лаборатории сельского хозяйства в Ротамстеде. Планируя эксперимент с удобрениями [76], исследователь не знает о множестве факторов, которые могут повлиять на результат. Поэтому, пытаясь ответить на вопрос «Какое удобрение лучше?», нет смысла сравнивать рост растений в разных теплицах, в каждой из которых вносили свое удобрение. Сравнивать нужно рост одного и того же растения, получившего два вида удобрений в одной теплице. Кроме того, даже в одной теплице солнечный свет будет падать под разным углом на разные участки, и влажность тоже может быть неравномерной. Поэтому при выборе удобрения А или удобрения Б для каждой лунки нужно подкидывать монетку – орел или решка. Фишер назвал такой подход к планированию эксперимента принципом рандомизации. Только в этом случае можно определить, является ли разница между удобрениями значимой. И лишь соблюдая этот принцип, мы имеем право сказать, что два удобрения находились настолько в равных условиях, насколько это возможно, и почти все неконтролируемые различия устранены.

До Фишера распределение в таких экспериментах производилось систематически, что могло искажать результаты. Интересно, что многие ученые не сразу приняли его метод, считая свой систематический подход верным. Кроме обычных A/Б-тестов, Фишер предложил схемы для более сложных многофакторных тестов. На деле даже с обычными тестами с двумя группами часто возникают проблемы, и до многофакторных тестов, когда проверяется сразу несколько изменений одновременно, редко кто доходит. Поэтому в этой книге я буду фокусироваться на самых простых тестах с двумя группами.

Итак, для проведения теста нам нужны метрика и рандомизация. Тесты проводят с контрольной группой. В медицине группу пациентов делят случайно на две – первой группе дают исследуемое лекарство, второй – лекарство-пустышку под названием плацебо. В маркетинге делается аналогично. Во времена почтовой торговли промоскидки отправляли одной группе клиентов, письма-пустышки (без скидок) – второй. При рассылке email-сообщений интернет-магазина контрольной группе обычно не отправляют ничего. Amazon.com, который был пионером тестирования в интернете, использовал А/Б-тесты (split test) для показа одной группе пользователей старой версии сайта, а второй – новой, и сравнивал их поведение, чтобы выбрать лучшую версию. Перед запуском полноценного боевого теста нужно проверить весь механизм работы, делается это с помощью симуляционного и реального тестов. Также можно использовать А/А-тесты – расскажу о них далее.

Что такое гипотеза в статистике

Для статистической проверки гипотез нам понадобится два важных понятия – генеральная совокупность и выборка. Генеральная совокупность (general population) – это все объекты, относительно которых нужно сделать выводы в исследовании. Выборка (sample) – это часть объектов генеральной совокупности, которые мы смогли пронаблюдать.

Пусть у нас есть огромный резервуар с шарами разного диаметра. В самом резервуаре сотни тысяч шаров. Средний диаметр неизвестен, и нам нужно его определить. Весь резервуар посчитать невозможно, слишком много работы нужно затратить. Для экономии средств и времени мы сделаем случайную выборку с замещением (возвращаем шар обратно после определения диаметра) определенного количества шаров. В этой задаче резервуар с шарами – это генеральная совокупность, средний диаметр шара – неизвестный параметр, который нам нужно определить, и мы сделаем это с помощью случайной выборки. Параметр в генеральной совокупности является истинным, параметр выборки является его оценкой.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация