Два анализа лучше, чем один
Многие плохо понимают концепцию достоверности бинарных тестов. Если отталкиваться от тех, у кого нет искомого заболевания (это, как правило, подавляющее большинство населения), достоверность теста можно определить как долю тех, кто обоснованно попал в категорию здоровых, получив истинно отрицательный результат. Чем выше доля истинно отрицательных (и, следовательно, чем ниже процент ложноположительных результатов), тем достовернее тест. Такая доля истинно отрицательных называется специфичностью теста. Если тест специфичен на 100 %, то положительный результат получат только те, у кого действительно есть заболевание, – ложноположительных результатов не будет.
Но даже абсолютно специфичные тесты не гарантируют выявление всех, у кого есть болезнь. Конечно, достоверность тестов можно рассматривать как раз относительно таких людей. Будь вы на их месте, разве не были бы уверены в том, что главный показатель точности обследования – надежное выявление вашей болезни с первого раза? Так что, возможно, достоверность теста можно было бы определять, исходя из пропорции истинно положительных результатов – доли верно определенных носителей болезни. Такая пропорция известна как чувствительность теста. Тест со 100 % чувствительностью правильно предупредил бы всех пострадавших об их состоянии.
Точность же теста определяется как отношение количества истинно положительных результатов к общему количеству положительных результатов – как истинных, так и ложных. Низкая точность скрининга рака груди – всего 3,48 % истинно положительных результатов из всех положительных – удивила нас ранее в этой главе. Термином же «достоверность» обычно обозначают результат деления общего количества истинно положительных и истинно отрицательных результатов на общее количество тестируемых. Это логично, поскольку полученный результат показывает, насколько часто тест дает верный ответ, так или иначе.
Действительный уровень ошибок иммуноферментного теста на ВИЧ, который не прошел Марк Стерн, определить сложно. Тем не менее большинство исследований сходятся на том, что его специфичность составляет около 99,7 %, а чувствительность приближается к 100 %. Отрицательный результат теста означает, что реципиент почти наверняка не заражен ВИЧ, но в среднем 3 человека из каждых 1000 здоровых получат ложноположительный диагноз. В Великобритании распространенность ВИЧ составляет всего 0,16 %. Таким образом, из 1 000 000 случайно выбранных граждан Великобритании (рис. 7), в среднем 1600 будут ВИЧ-положительными, а 998 400 – нет. Из 998 400 ВИЧ-отрицательных пациентов, проходящих тест ИФА, даже со специфичностью 99,7 %, 2995 получат неверные положительные диагнозы. Этих ложноположительных результатов почти в два раза больше, чем 1600 истинно положительных. Как и в случае со скринингом рака молочной железы, поскольку распространенность ВИЧ низкая, а анализу ИФА до специфичности в 100 % не хватает совсем немного, точность теста будет довольно высокой – разделив количество тех, кто был верно определен как положительный, на количество всех, определенных как положительные, мы получим чуть более одной трети. Достоверность теста, однако, чрезвычайно высока. Он дает 997 005 правильных результатов (положительных или отрицательных) для каждого 1 000 000 протестированных людей – достоверность более 99,7 %. Даже очень достоверные тесты могут быть пугающе неточными.
Рис. 7. Из 1 000 000 граждан Великобритании, проходящих тест ИФА, 1600 будут правильно определены как ВИЧ-положительные, а 2995 – как ВИЧ-положительные, несмотря на то что у них нет этого заболевания
Один из простых способов снизить погрешность теста – просто провести второй тест. Поэтому первый тест на многие заболевания (как мы видели на примере обследования для выявление рака груди) – это скрининг с низкой специфичностью. Он предназначен для того, чтобы при минимальных затратах выявить как можно больше потенциальных случаев, пропуская при этом как можно меньше. Второй тест, как правило, является диагностическим и будет иметь гораздо более высокую специфичность, что исключит большинство ложноположительных результатов. Даже если тест с более высокой специфичностью недоступен, повтор одного и того же теста на всех пациентах с положительными результатами может значительно снизить погрешность. В случае с тестом ИФА первая попытка эффективно повышает распространенность ВИЧ-инфекции среди тех, кто был протестирован повторно, с 0,16 % до примерно 34,8 % – такова точность первого теста. При повторном тесте, как показано на древе принятия решений на рис. 8, большинство исходных ложноположительных результатов опровергаются благодаря низкой точности теста, в то время как истинные ВИЧ-положительные люди опять верно идентифицируются как таковые. Погрешность снижается до 1600/1609, что составляет примерно 0,6 %.
Рис. 8. Из 4595 положительных результатов на первом тесте 1600 истинных положительных результатов все равно будут идентифицированы как таковые, но количество ложных срабатываний сократится до 9
•
Тест, обладающий абсолютной чувствительностью и абсолютной специфичностью – то есть такой, который идентифицирует всех людей, у которых есть болезнь, и только их, – теоретически возможен. Такой тест может быть действительно признан 100 % точным.
Более того, известны и примеры таких тестов. В декабре 2016 года международная команда исследователей разработала анализ крови на болезнь Крейтцфельдта – Якоба
[79]. При контрольном испытании анализ верно выявил фатальное дегенеративное расстройство мозга (вызванное, как считается, употреблением в пищу говядины, полученной от животных, инфицированных коровьим бешенством) у всех 32 пациентов, которые имели эту болезнь (абсолютная чувствительность), без ложноположительных результатов (абсолютная специфичность) из 391 пациента контрольной группы.
Жертвовать чувствительностью ради специфичности (и наоборот) не обязательно, но на практике обычно происходит именно так. Ложноположительные и ложноотрицательные результаты обычно имеют отрицательную корреляцию: чем меньше ложноположительных результатов, тем больше ложноотрицательных, и наоборот. На практике эффективные тесты находят пороговый уровень, при котором можно провести грань между полной специфичностью и полной чувствительностью; баланс устанавливается между двумя крайними точками, как можно ближе к обеим.