При фильтрации можно использовать самые разные виды усреднений. Лучше всего нам знакомо выведение среднего арифметического значения. Чтобы найти среднее арифметическое, нужно сложить все числа заданного множества и поделить полученную сумму на количество этих чисел. Если бы, например, мы хотели найти средний рост Белоснежки и семи гномов, мы сложили бы рост каждого из них и разделили на восемь. При этом рост Белоснежки – пиковый на фоне остального множества – заметно скажется на результате подсчета, исказив его в сторону увеличения. Более репрезентативное среднее значение – медиана. Чтобы найти медианный рост упомянутой компании, мы выстроим гномов и Белоснежку в ряд по росту (Белоснежку первой, Простака в конце) и возьмем за базовое значение рост того, кто стоит в середине ряда. Поскольку в нем восемь персонажей (четное число), средним не оказывается никто. Так что за медиану мы примем среднее арифметическое роста двоих средних (Ворчуна и Сони). Используя медиану, мы можем отбросить рост Белоснежки, который настолько смещал значение среднего арифметического. По той же причине медиана часто используется при представлении данных о среднем доходе. Как видно из рисунка 4, высокая заработная плата очень обеспеченных людей в нашем обществе имеет тенденцию искажать среднее значение – с этой идеей мы снова столкнемся в следующей главе, обсуждая, как математика может сбивать с толку в зале суда. Медиана дает нам лучшее представление о возможном «стандартном» располагаемом доходе семьи, чем среднее арифметическое. Конечно, можно утверждать, что при таких подсчетах не следует пренебрегать ростом Белоснежки или доходами высокооплачиваемых людей, ведь они так же истинны, как и любые другие данные из множества. Может, и так, но суть в том, что ни медиана, ни среднее арифметическое не являются истинными ни в каком объективном смысле. Просто различные виды усреднений применяются для разных целей.
ДОМОХОЗЯЙСТВА (ТЫС.)
При фильтрации зернистого цифрового изображения мы хотим удалить эффекты побочных значений пикселей. При усреднении по соседним значениям пикселей средняя фильтрация будет корректировать, но не полностью удалять эти экстремальные значения. И наоборот, при медианной фильтрации крайние шумовые значения пикселей эффективно игнорируются.
Рис. 4. Распределение домохозяйств Великобритании с заданным располагаемым (после уплаты налогов) доходом (с шагом £1000) в 2017 году. Медианное значение (£ 27 310) можно считать лучшим отображением «стандартного» располагаемого дохода домохозяйства, чем среднее арифметическое (£32 676)
По той же причине медианная фильтрация все чаще используется в мониторах отделений интенсивной терапии для предотвращения ложных тревог
[67]. На основе медианного значения, высчитываемого по ряду последовательных показаний, задается условие для срабатывания сигнала тревоги – включаться только тогда, когда пороговые значения нарушаются в течение продолжительного (хотя и все еще короткого) времени, а не при одноразовым всплеске или падении отслеживаемого параметра. Медианная фильтрация может снизить частоту ложных срабатываний в мониторах интенсивной терапии на целых 60 %, не ставя под угрозу безопасность пациента
[68].
•
Ложные тревоги – это подкатегория ошибок, известных как ложные срабатывания (а также ложноположительные результаты). Как следует из названия, они возникают, когда проверка подтверждает наличие определенного состояния или признака при его фактическом отсутствии. Как правило, ложное срабатывание встречается в бинарных тестах, предполагающих два ответа: положительный или отрицательный. В контексте медицинских тестов ложноположительные результаты приводят к тому, что здоровым людям говорят, что они больны. В зале суда ложноположительным результатом является обвинительное заключение, выносимое невиновному за преступление, которое он не совершал. (Со многими такими жертвами мы встретимся в следующей главе).
Бинарный тест может принести ошибочные результаты двояким образом. Возможные результаты такого теста (два верных и два неверных) представлены в табл. 2. Помимо ложноположительных результатов, существуют и ложноотрицательные.
Табл. 2. Четыре возможных исхода бинарного теста
В контексте медицинской диагностики можно предположить, что ложноотрицательные результаты потенциально более вредоносны, поскольку они говорят пациентам, что у них нет той болезни, на которую они проверяются, тогда как на самом деле у них она есть. С некоторыми невольными жертвами ложноотрицательных диагнозов мы встретимся позже в этой главе. Ложноположительные результаты могут также иметь удивительные и серьезные последствия, но по совершенно другим причинам.
Возьмем, к примеру, скрининг болезней. Скрининг – это массовое тестирование на конкретное заболевание людей, у которых нет симптомов, но принадлежащих к группе высокого риска. Так в Великобритании женщины старше 50 лет регулярно проходят обследование молочных желез, так как подвержены повышенному риску развития рака молочной железы. И случаи ложноположительных результатов в программах медицинского скрининга сегодня стали предметом бурных дискуссий.
Доля невыявленного рака молочной железы у женщин в Великобритании может составлять около 0,2 %. Это означает, что в любой момент на каждые 10 тысяч женщин в стране, у которых рак молочной железы не диагностирован, может приходиться до 20 жертв заболевания. На первый взгляд, это немного, но только потому, что в большинстве случаев рак молочной железы обнаруживается быстро. Фактически рак молочной железы диагностируется у каждой восьмой женщины в течение ее жизни. В Великобритании примерно каждой десятой из этих женщин диагноз ставится с опозданием (на третьей или четвертой стадии). Поздний диагноз значительно снижает шансы на выживание в долгосрочной перспективе, что подтверждает жизненно важное значение регулярной маммографии, особенно для женщин, относящихся к уязвимым возрастным категориям. Однако у таких профилактических обследований существует математическая проблема, о которой большинство людей не знает.