Неподготовленные пользователи не улавливают в необработанных данных связи между информацией о частоте сердечных сокращений (ЧСС) и нарушением сердечного ритма. А приложение Cardiogram выявляет его с 97 %-ной точностью благодаря работе глубокой нейронной сети
[34]. Отклонения в работе сердца становятся предвестниками 25 % всех инфарктов, а усовершенствования анамнеза позволят врачам вовремя назначить лечение. Для профилактики инфаркта существуют лекарства.
Но для этого потребители должны предоставить сведения о своем сердечном ритме. Машина не сможет прогнозировать риски для конкретного человека, не имея о нем необходимой информации. При наличии у прогностической машины индивидуальных данных человека она выдаст прогноз вероятности нарушений сердечного ритма.
Как машины учатся с помощью данных
Нынешнее поколение технологий ИИ не без причины называется «машинным обучением». Оно учится на данных. В только что описанном примере машина для составления прогноза нарушений сердечного ритма (и вероятности развития инфаркта) устанавливает связь между ЧСС и случаями диагностированной мерцательной аритмии. Для этого она сопоставляет входные данные Apple Watch – их статистики называют «независимыми переменными» – с информацией о нарушениях сердечного ритма («зависимой переменной»).
Чтобы обучить машину, информация о нарушениях сердечного ритма должна исходить от тех же людей, что входные данные Apple Watch. Другими словами, прогностической машине необходимы данные о большой выборке людей с нарушениями сердечного ритма наряду с полученными от них данными. Кроме того (и это важно), необходимы также аналогичные показатели большой выборки людей, не страдающих кардиологическими заболеваниями. Прогностическая машина сравнивает данные обеих групп, на основании чего выдает прогноз. И если паттерн сердечного ритма нового пациента ближе к данным «обучающей» выборки людей с нарушениями, то машина прогнозирует у него нарушение сердечного ритма.
Как и большинство медицинских приложений, Cardiogram собирает данные научных исследований с участием шести тысяч пользователей. Из них примерно у двухсот человек уже диагностировано нарушение сердечного ритма, Cardiogram остается только получить с помощью Apple Watch данные и сравнить их с предыдущими показателями.
Такие продукты продолжают совершенствовать точность прогнозов даже после выпуска. Прогностическим машинам необходимы данные обратной связи о корректности прогнозов: в данном случае это частота нарушений сердечного ритма среди пользователей продукта. Машина объединяет эти данные со входными данными кардиомониторинга и на основе полученной информации непрерывно повышает качество прогнозов.
Однако добыть обучающие данные не всегда легко. Для прогноза одной группы (в нашем случае это пациенты с риском сердечных заболеваний) необходима информация как о потенциальном риске (нарушении сердечного ритма), так и о том, что необходимо для уточнения прогноза данного прецедента в новом контексте (кардиомониторинг).
Еще сложнее, когда прогноз касается будущих событий. Вы можете предоставить прогностической машине подтвержденную информацию только на настоящий момент. Скажем, вы надумали купить билет на игры любимой команды на следующий сезон. В Торонто большинство болеет за местную хоккейную команду Maple Leafs. Вы хотите ходить только на матчи, в которых любимая команда победит, и не желаете платить за проигрышные. Вы решили, что стоит купить билет только в случае, если команда в следующем году выиграет минимум половину матчей. Но для этого вам необходимо спрогнозировать количество побед.
В хоккее выигрывает команда, загнавшая больше шайб в ворота противника. Поэтому вы предполагаете, что команда, забивающая больше голов, побеждает чаще. Вы загружаете в прогностическую машину данные за прошлые сезоны: сколько каждой команде засчитали голов, сколько она пропустила, каково количество побед каждой команды. Вам кажется, что это великолепный способ прогнозировать вероятность победы. Теперь вы собираетесь таким же образом прогнозировать количество выигрышей на следующий год.
Но ничего не выйдет, поскольку это невозможно. У вас нет информации о том, как сыграет команда в предстоящем сезоне, следовательно, вы не узнаете ничего о предстоящих спортивных победах или поражениях. У вас есть данные за прошлый сезон, но они не пригодятся, потому что вы научили машину прогнозировать по данным за текущий год.
Для вашего прогноза необходимы данные, доступные на момент прогнозирования. Возможно переучить прогностическую машину использовать забитые в прошедшем году шайбы для прогнозирования предстоящих побед. Можно добавить другую информацию, например о выигранных ранее матчах или возрасте игроков команды и качестве их игры.
Так работают многие коммерческие приложения ИИ: для создания прогностической машины берут входные данные вместе с критериями исходов, а затем используют входные данные новой ситуации для прогнозирования ее исхода. Если вы располагаете данными по исходам, то ваша прогностическая машина может непрерывно обучаться на данных обратной связи.
Решения по данным
Сбор информации нередко стоит дорого, но прогностические машины иначе работать не могут. Исходные данные необходимы для их создания, функционирования и совершенствования.
Следовательно, нужно найти решение относительно масштаба и диапазона приобретаемых данных. Сколько разных типов данных вам понадобится? Сколько различных объектов требуется для обучения? Как часто вам необходимо собирать данные? Большее число типов, объектов и частый сбор означают, что цена будет выше, но и выгода тоже увеличится. Взвешивая решение, следует тщательно продумать, что именно вы собираетесь прогнозировать. Конкретные предсказательные задачи подскажут ответ.
Программа Cardiogram разработана для прогнозирования риска развития и возникновения инфарктов. Нарушения сердечного ритма в ней использовались в качестве индикатора (подтвержденного медициной)
[35]. В качестве цели установили выявление нарушений, после чего оставалось только получить данные о ЧСС пользователей. Могли также использоваться данные о сне, физической активности, родственниках, истории болезни и возрасте. После получения данной информации приложению требовался всего один прибор, точно измеряющий единственный параметр – ЧСС.
Данные были необходимы Cardiogram и для обучения – в базе состояло шесть тысяч человек, и некоторые из них страдали нарушениями сердечного ритма.
Несмотря на обилие датчиков и разнообразие потенциально доступных данных о пользователях, по большинству людей Cardiogram собирала немного информации. И доступ требовался только к данным об отклонениях сердечного ритма у людей из обучающей ИИ выборки. Таким образом, количество переменных оказалось относительно малым.