Взгляните по-новому на проблемы, которые считаете уже решенными
Когда вы находите новые данные, содержащие новую информацию, обязательно вернитесь к былым проблемам. Довольно часто оказывается, что проблему, уже считающуюся решенной, можно решить гораздо эффективнее, если использовать новую информацию и подойти к проблеме с другой стороны.
Теперь давайте перенесемся немного вперед. Можем ли мы повысить точность клинических испытаний при помощи больших данных, даже если они собираются за пределами контролируемой среды? В ближайшем будущем детальная электронная медицинская документация станет нормой. Благодаря этому после выпуска препарата на рынок можно будет отслеживать его действие на тысячах, сотнях тысяч или миллионах людей, которые начнут его использовать. А также проанализировать действие препарата при любых комбинациях болезней, которыми страдают использующие его пациенты, и в комбинациях с любыми другими препаратами и методами лечения, применяемыми одновременно с ним. Люди же, использующие препарат не по назначению и наряду с противопоказанными лекарствами, останутся за рамками клинических испытаний.
Использование электронных историй болезней позволит выявлять непредвиденные положительные и отрицательные эффекты препарата (разумеется, при сохранении конфиденциальности сведений о пациентах). Несмотря на то что эти данные будут поступать не из строго контролируемой среды, как при клинических испытаниях, они позволят намного раньше обнаруживать скрытые проблемы наподобие сердечных осложнений при использовании Vioxx. Чтобы подтвердить эти аналитические результаты, могут потребоваться контролируемые исследования, зато можно будет гораздо быстрее обнаружить источник проблем. Речь идет не о том, чтобы заменить клинические испытания анализом неконтролируемых медицинских данных, а о том, что использование этих данных способно помочь исследователям выявлять непредвиденные положительные и отрицательные эффекты препаратов и намного улучшать методы лечения. Всего-то и требуется задуматься о том, как по-иному подойти к решению проблем… Даже если сегодня они считаются уже решенными.
Хранение данных больше не требует двоичного выбора
Внедрение больших данных требует от организации изменения подходов к тому, как она собирает данные, хранит их и настолько долго. До недавнего времени было слишком дорого тратиться на что-то иное, кроме хранения самых важных данных. Если данные были достаточно важными для того, чтобы их собирать, значит, они были достаточно важными и для того, чтобы хранить их очень долго, если не бессрочно. Учитывая сегодняшнее изобилие источников больших данных, организации должны отказаться и от двоичного выбора «собирать или не собирать», и от бессрочного хранения собранного. Теперь необходимы многовекторные решения.
Во-первых, необходимо ли выбирать все части из источника данных или только отдельные части? Во-вторых, какие данные и на протяжении какого времени должны храниться? Возможно, потребуется лишь малая доля и хранить ее надо будет недолго, а потом удалить. Определение правильного подхода требует сначала определения ценности данных на сегодняшний день и в перспективе.
Чтобы наглядно проиллюстрировать, какие данные не нужно собирать, приведу вам следующий пример. Представьте себе современный умный дом, оснащенный массой всевозможных датчиков. В каждой комнате имеется свой термостат, который постоянно посылает данные о текущей температуре в центральную систему для того, чтобы поддерживать в комнатах постоянную температуру. В процессе взаимодействия термостатов с центральной системой генерируется непрерывный поток данных, но имеют ли они ценность? Эти данные необходимы для выполнения конкретной тактической задачи, но трудно представить, для чего бы они могли потребоваться спустя долгое время. Показания с разрывом в миллисекунду нужны только для выполнения главной задачи – обновления сведений в системе. Если же энергетическая компания будет скрупулезно собирать и хранить такие данные, поступающие из всех обслуживаемых ею домов и зданий, она переполнит свои хранилища данных и не создаст ничего ценного.
Для сокращения данных можно прибегнуть к аналитике. Сокращение данных – это процесс идентификации тех их областей, которые можно проигнорировать или же скомбинировать, чтобы уменьшить количество используемых метрик при небольшой потере информации. Например, если установлено, что температура в смежных комнатах вашего дома всегда отличается не более чем на полградуса, то можно собирать данные не для каждой комнаты, а только для одной и экстраполировать их на соответствующую зону внутри дома. Это позволит значительно сократить хранимые объемы данных без снижения качества информации, доступной для аналитики.
Установите сроки хранения данных
Сейчас происходит масштабное изменение точки зрения на хранение данных. Утверждается правило их удаления по истечении определенного периода времени. Организация должна определить временну́ю ценность данных. Некоторые пригодны только для немедленного применения, другие будут терять свою ценность постепенно. Только небольшую долю данных стоит хранить долго, в отличие от стандартной сегодняшней практики.
Давайте рассмотрим сценарий, когда данные остаются крайне важными только на протяжении определенного периода времени. Железнодорожники устанавливают на рельсах датчики для измерения скорости проходящих поездов. Недавно я узнал, что они также измеряют температуру вагонных колес. Если груз в вагоне несбалансирован и смещается в одну сторону, то вагон начинает перекашиваться. С этой стороны давление груза возрастает, что увеличивает трение, которое, в свою очередь, ведет к большему нагреванию колес. Когда они нагреваются выше определенной температуры, индикатор указывает на серьезный дисбаланс и возможный сход вагона с рельсов. Железнодорожники отслеживают температуру колес в режиме реального времени, когда поезд движется. При нагревании колесной пары выше установленного уровня поезд останавливается и к нему направляется бригада рабочих, чтобы проинспектировать состояние вагона и зафиксировать груз. Это экономит железнодорожным компаниям в перспективе массу денег, поскольку сход состава с рельсов обернется дорогостоящей, а подчас и смертоносной катастрофой.
Теперь обратимся к данным о температуре колес и подумаем, на протяжении какого времени они сохраняют свою ценность. Предположим, что состав должен проехать более 3000 километров за несколько дней. Датчики измеряют температуру колес, скажем, с регулярностью в 30 секунд. Крайне важно собирать и анализировать эти данные в режиме реального времени, чтобы немедленно выявлять возможные проблемы.
Далее перенесемся на пару недель вперед. Поезд благополучно прибыл к месту назначения. Все показатели температуры колес находились в пределах полуградуса от нормы. Дальше хранить эти данные не имеет смысла. Возможно, имеет смысл сохранить выборку данных по нескольким благополучным рейсам, чтобы использовать ее для сравнения с отклонениями от нормы. В то же время данные по рейсам, когда возникали проблемы с температурой колес, могут храниться практически бессрочно наряду с небольшой выборкой по благополучным рейсам. Прочие данные никакой ценности не представляют.