Книга Аналитическая культура. От сбора данных до бизнес-результатов, страница 18. Автор книги Карл Андерсон

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Аналитическая культура. От сбора данных до бизнес-результатов»

Cтраница 18

При выборе между несколькими источниками данных, например при приобретении базы данных, в которой почтовые индексы соотнесены с местностью на карте, необходимо принять во внимание несколько факторов, в том числе перечисленные ниже.


Цена

Аналитики и их боссы любят «халяву», но иногда стоит заплатить за данные высокого качества. Следует взвесить, насколько рациональна цена и какой ценностью эти данные обладают для компании. Подробнее об этом мы поговорим в следующем разделе.


Качество

Насколько чисты и надежны эти данные?


Эксклюзивность

Подготовлен ли этот набор данных исключительно для вас и получите ли вы с его помощью преимущество перед конкурентами?


Выборка

Можно ли получить выборку, которая позволит судить о качестве и характере данных, а также понять формат без необходимости предварительно брать на себя обязательства?


Обновления

Насколько часто данные меняются или устаревают? Насколько часто данные обновляются?


Надежность

При обращении к интерфейсу прикладного программирования (API) каково время работоспособности системы? Каковы ограничения по обращениям к API или по другим сервисным соглашениям?


Безопасность

В случае, если данные важны, осуществляется ли их шифровка и какие меры безопасности предпринимаются при передаче?


Условия использования

Есть ли условия лицензирования или другие ограничения, которые могут не позволить воспользоваться данными в полной мере?


Формат

У всех есть любимые форматы данных, тем не менее обычно предпочтительно использование форматов, удобных для восприятия человеком, таких как CSV, JSON или XML (это подразумевает исключение бинарных форматов, кроме стандартного сжатия), так как эти форматы более удобны для использования при проведении анализа. Наконец, насколько просто вам будет поддерживать этот формат? Не потребуется ли от вас дополнительных вложений и времени на работу с этим форматом?


Документация

Предпочтение следует отдавать источникам, способным предоставить документацию. Обычно стоит поинтересоваться, как осуществляется сбор данных (чтобы понять, насколько они надежны и представляют ли они ценность для компании) и есть ли словарь данных (в нем указываются поля, тип данных, примеры значений и другая важная бизнес-логика, включенная в значения этих полей; см. табл. 3.2). Рэндалл Гроссмен, CDO корпорации Fulton Financial, заметил: «Словарь данных, которому можно доверять, — это самое важное, что CDO может предложить бизнес-пользователям».


Таблица 3.2. Пример словаря данных из проекта в области здравоохранения в Калифорнии

Аналитическая культура. От сбора данных до бизнес-результатов

Объем

Сможете ли вы обеспечить хранение большого объема данных? При этом ценные наборы данных не обязательно бывают большими. Например, почтовый индекс для расчетной рыночной территории (то есть территории охвата конкретного региона телевещанием, по оценке компании Nielsen Company) может иметь всего 41 тыс. строк, но эти данные могут быть очень полезны команде специалистов по маркетингу, оценивающей расходы на телевизионную рекламу.


Степень детализации

Подходят ли данные для анализа того уровня, который вам необходим?

Благодаря качественному словарю становится понятно, как определяются данные, в каком формате и с какими допустимыми значениями. В данном случае также очевидно, как эти данные используются программным обеспечением. Приведены несколько строк из eHARS [44] (Enhanced HIV/AIDS Reporting System — Улучшенная система сбора информации о ВИЧ/СПИДе) в Калифорнии. (SAS — статистический набор приложений, активно применяющийся в области медицины.)

Сколько стоит набор данных?

Посчитать, во сколько вам обходятся данные, относительно легко. Можно проанализировать величину прямых расходов на хранение (например, стоимость услуг Amazon Web Services), стоимость сервисов резервного копирования, зарплаты сотрудников, обеспечивающих хранение и управление данными, а также их непроизводственные расходы, плюс стоимость приобретения данных (если актуально). При этом компания с управлением на основе данных должна определить ценность этих данных для бизнеса. Какова их ROI? А вот это уже не так просто.

Д’Алессандро и др. [45] предложили фреймворк, позволяющий оценить прямую рентабельность инвестиций ROI в долларах, по крайней мере в определенных ситуациях. Они работают в сфере рекламы и разработали прогнозные модели для вычисления, какие рекламные объявления эффективнее всего показывать каждому пользователю. Они получают деньги только за переход пользователя по рекламному объявлению. При этом сценарии результат и выручка очевидны: они получают, скажем, 1 долл., если пользователь переходит по рекламному объявлению, и 0 долл., если пользователь ничего не делает. У них есть собственный набор данных, на основании которых они строят свои модели. Некоторые из них — ретроспективные, взятые на основе действовавших ранее цен, а некоторые были ими приобретены в прошлом (их относят к категории невозвратных затрат). Вопрос, которым они руководствуются: «Какова рентабельность моделей, построенных на наших собственных данных, по сравнению с моделями, построенными на данных от третьих лиц?» Для этого требуется определить три компонента:

1) какова стоимость действия (в данном случае действие — это переход пользователя, его стоимость — 1 долл.);

2) какова ожидаемая стоимость модели на основе наших собственных данных;

3) какова ожидаемая стоимость модели на основе наших данных и дополнительных данных третьей стороны.


Итого:

Стоимость данных = ожидаемая стоимость (модель на основе данных третьей стороны) — ожидаемая стоимость (модель без использования данных третьей стороны)


и

Предельная норма прибыли = стоимость (переход) × стоимость данных.


Предположим, у модели на основе собственных данных всего 1 % вероятности, что по рекламному объявлению будет переход, а у модели на основе дополнительных данных третьей стороны эта вероятность составляет 5 %. Ценность данных выше на 4 %, а прирост ценности этих данных составляет 1 долл. × (5 % — 1 %) = 0,04 долл.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация