Книга Big Data простым языком, страница 15. Автор книги Алексей Благирев

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Big Data простым языком»

Cтраница 15

Раннее большинство – их уже больше, целых 34 процента. Это настоящие прагматики, которых убедят использовать продукт только их друзья или доверенные лица, но если они перейдут на него, то будут продвигать успешность этого продукта.


Big Data простым языком

Кривая Мура об адаптивности инноваций, на примере программы Microsoft об активации культуры работы с данными


По версии Мура, каждая группа требует определенного послания или коммуникации. И все эти послания разные, как можно понять. Microsoft, понимая это, разработал уникальную систему коммуникаций, где явно отделил одних пользователей от других и структурировал послание, которое он несет для каждой из групп. Поэтому, если вдруг внутри вашей компании вы внезапно начнете нести проповедь про культуру данных, нужно помнить, что услышать ее могут далеко не все, а только два с половиной или тринадцать процентов, если уже будет что показать.

Как измерить успешность стратегии данных?

Команда некоммерческой лаборатории Digital Impact [42] определила следующие критерии успешности реализации стратегии данных:

• Сотрудники распознают, что такое данные, когда их видят, и предлагают креативные решения по их использованию.

• Сотрудники поддерживают и предоставляют доступ к совместному использованию данных.

• Менеджмент организации инвестирует время и средства в развитие инструментов по сбору и анализу.

С другой стороны, измерение стратегии данных потребует формулирования ключевых факторов успеха, необходимых для реализации стратегии (Key Success Factors). Их достижение будет означать успех в реализации стратегии данных. Например, одним из таких факторов может быть поддержание качества данных на определенном уровне.

Качество данных можно измерить разными способами и разными показателями, такими как:

Полнота – количество данных в источнике и хранилище (или в отчете или в любом другом месте) совпадает. Нет материальных искажений в полноте описания совершившихся транзакций.

Актуальность – все описанные события актуальны, то есть произошли в релевантном временном периоде.

Достоверность – каждое из событий существует в реальном мире и может быть подтверждено соответствующим документом, сотрудником или независимым участником.

Доступность – ко всем необходимым данным имеют доступ соответствующие сотрудники, все важные атрибуты и транзакции, формируемые в бизнесе, могут быть получены.

Сколько стоит реализовать стратегию данных?

Реализация всегда затрагивает несколько ключевых измерений:

• Технологии

• Людей

• Процессы

В каждом из измерений необходимо сформулировать те самые критерии успешности, к которым будет стремиться организация.

Технологии

Выбор подхода к созданию внутренней экосистемы будет влиять на себестоимость хранения одного терабайта. Ценообразование Enterprise Grade решения (для корпоративных систем) стоили кратно дороже, чем стоимость решений на open-source.

Например, в 2012 году Fusion Alliance дал оценку в среднюю сумму по рынку с учетом дисконта в шестьдесят процентов (скидка от основной цены предоставляемой вендором), которая составила 26 тысяч долларов за один ТБ [43] [44], против четырехсот долларов затрат на ТБ для решений на открытом коде. В эти затраты входили лицензии, установка и разработка, закупка и настройка необходимого оборудования.

Минимальная конфигурация шла в составе шестнадцати ТБ, таким образом, планирование происходило блоками. Позднее, в 2015 году, себестоимость начала снижаться с появлением программных комплексов (таких как HP Vertica) до пять тысяч долларов, без учета затрат на оборудование.

Сегодня создание и управление облачным хранилищем данных, например, с использованием сервисов Google или AmazonWebServices, будет обходиться существенно меньше – от десяти до сорока долларов за все.

Проект Apache сегодня насчитывает порядка 38 различных решений с открытым кодом по Big Data, ряд из них конкурируют, но большая часть решают индивидуальные задачи.

Так Нейт Кнапп [45],инженер компании Thumbstack, предлагает рассмотреть следующую экономичную инфраструктуру из компонент с открытым кодом:


Big Data простым языком

Архитектура Big Data решения от Нейта Кнаппа с использованием бесплатных решений обработки данных


• Spark – фреймворк с открытым кодом для реализации распределенной обработки и загрузки неструктурированных данных.

• Scoop – фреймворк с открытым кодом, предназначенный для обработки и передачи данных между структурированными и неструктурированными источниками данных.

• Airflow – фреймворк-планировщик, который управляет сессиями задач для фреймворков загрузки данных. Разработан компанией AirB’n’B.

• AWS / Google Cloud Storage – облачный сервис по хранению данных.

• Mode, Periscope, Chartio – платформы и фреймворки по визуализации данных и подготовке отчетов.

Большая часть из них относительно бесплатны в использовании.

Люди

Ключевые затраты, связанные с персоналом, разделяются на ряд ключевых факторов:

Обучение специалистов новым технологиям. Сегодня объем новых доступных технологий и распределение навыков в профессиональной среде слабо коррелирует, поэтому необходимо вкладываться в постоянное развитие и обучение специалистов.

Поиск и найм талантливых кадров. Из-за высокой конкуренции за ресурс, в среднем по рынку срок работы на одном месте высококвалифицированного специалиста – менее трех лет, поэтому необходимо постоянно работать в направлении привлечения и удержания ключевых сотрудников, создающих ценность из данных.

Новые профессии и структуры. Создание офиса CDO может столкнуться внутри организации с радикальными трансформациями. Не всегда существующие на рынке практики позволяют применить эти модели внутри организации. Вполне возможно, что потребуется создание новых профессий.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация