Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных, страница 35. Автор книги Дэвид Хэнд

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»

Cтраница 35

Многие страны принимают законы против дискриминации или несправедливого обращения с конкретными группами населения, как в случае со страхованием, который мы рассматривали в начале этой главы. Например, в Великобритании Закон о равенстве, принятый в 2010 г., призван «предусмотреть требования к министрам Короны и другим лицам, принимающим стратегические решения, чтобы они при выполнении своих функций уделяли внимание сокращению социально-экономического неравенства; противодействовали виктимизации в конкретных обстоятельствах; требовали выполнения определенных должностных обязанностей в рамках борьбы с дискриминацией и иными запрещенными формами поведения; способствовали равенству возможностей…».

В законе дается определение прямой дискриминации: «Один человек (A) дискриминирует другого человека (B), если A в силу наличия у В защищаемого законом признака относится к B менее благосклонно, чем он относится или относился бы к другим людям». Далее закон описывает особенности ряда признаков, запрещая относиться к конкретному человеку менее благосклонно на основании его групповой классификации, – например, потому что он мужчина или принадлежит к определенной расе. Затем в законе дается определение косвенной дискриминации, которая имеет место, «если А применяет к В правила, критерии или процедуры, являющиеся дискриминационными по отношению к защищаемому законом признаку, присущему В».

В Соединенных Штатах действует аналогичный закон, в котором термин «неравноправие» означает, что кого-то преднамеренно ущемляют в правах на основании имеющегося у него признака из числа приведенных в законе. В то же время понятие «неравное воздействие» подразумевает внешне одинаковое отношение к группам носителей признаков, но при этом разное влияние, оказываемое на разные группы.

Дискриминационные признаки могут различаться в разных странах, но незначительно и обычно включают в себя возраст, трансгендерность, гражданский брак, беременность, нахождение в декретном отпуске, инвалидность, изменение пола, расу (включая цвет кожи, национальность, этническое происхождение), религию, убеждения или их отсутствие, пол и сексуальную ориентацию. По сути, закон говорит о том, что защищаемые им признаки должны рассматриваться как темные данные и не влиять на принимаемые решения. Давайте разберем несколько примеров того, как именно этот закон проявляет себя в разных областях.

Мы уже видели, что кредитные скоринги в банках строятся на основе статистических моделей, которые показывают вероятность дефолта потенциального заемщика. Эти модели используют исторические данные, описывающие выборки клиентов и истории их платежей. Можно ожидать, что люди, имеющие признаки, присущие проблемным клиентам, тоже представляют для банка повышенный риск. Очевидно, что, создавая кредитные скоринги, банки хотят видеть их максимально точными и быть уверенными в том, что если система оценивает, например, 10 % заявителей как потенциальных неплательщиков, то их фактическое число уйдет недалеко от этих 10 %. В противном случае последствия для коммерческой деятельности могут быть катастрофическими.

Чтобы сделать систему максимально точной, разумно использовать всю доступную информацию и не игнорировать какую-то ее часть, которая могла бы быть полезной. Здесь, как вы уже догадались, и кроется проблема. Для повышения точности прогноза нужно включить в расчет дискриминационные признаки, но по веским причинам закон запрещает нам это делать – он четко говорит, что включать эти признаки в процесс принятия решений нельзя.

Очевидно, должны быть какие-то способы обойти это ограничение. Казалось бы, если мы не можем включить возраст в число показателей для оценки, то что мешает нам взять другой, коррелирующий с ним показатель? Однако законодатели тоже увидели эту лазейку. В отчете конгресса США по кредитному скорингу сказано: «Результаты, полученные с помощью модели, созданной специально для этого исследования, позволяют предположить, что некоторые кредитные характеристики работают в том числе как возрастной ограничитель». Также в отчете делается акцент на то, что «в результате ограниченного числа доверенных лиц у пожилых людей их кредитные баллы несколько ниже, чем у тех, кто моложе, и чем было бы, не указывай эти кредитные характеристики на возраст» [77].

Чтобы предотвратить скрытое использование защищенных законом признаков, регуляторы могли бы просто запретить переменные, которые коррелируют с ними. Однако на пути у этого решения стоят две проблемы.

Во-первых, как отмечается в отчете конгресса, «анализ показывает, что смягчение воздействия путем исключения этих кредитных характеристик [коррелированных с возрастом] из модели обойдется слишком дорого, поскольку кроме функции возрастного ограничителя они играют важную прогностическую роль». Это означает, что удаление обсуждаемых признаков из системы показателей означает принесение в жертву и абсолютно законной полезной информации.

Во-вторых, что касается людей, существует множество признаков, так или иначе коррелирующих друг с другом. Отказаться от прогнозной информации несложно, но в результате мы получим систему показателей, в которой все будут классифицированы одинаково: либо как «приемлемый» риск, либо как «неприемлемый».

Есть и другой, еще более важный момент. Если бы мы смогли отказаться, скажем, от показателя половой принадлежности, а также от всех характеристик в модели, которые коррелируют с ним, то прогнозы для мужчин и женщин были бы справедливы в том смысле, что мужчины и женщины получили бы одинаковые баллы по тем характеристикам, которые были использованы до того. Однако факт заключается в том, что в целом женщины отличаются меньшими кредитными рисками, чем мужчины: при прочих равных условиях вероятность их дефолта ниже. Вынужденное равенство мужчин и женщин с точки зрения данных приведет к тому, что вероятность дефолта для женщин будет беспричинно завышена, а для мужчин, наоборот, занижена. Такое искажение отразится на размере страховых взносов, а это уже вряд ли можно назвать справедливым.

Таким образом, все сводится к тому, что именно вы подразумеваете под словом «справедливость».

Исследование, проведенное в США, показало, что для мужчин средний кредитный скоринг составляет 630 из 850, тогда как для женщин он равняется 621. Такое расхождение можно хотя бы частично объяснить различиями между группами, поскольку мужчины имеют в среднем более высокую заработную плату, а доход – это один из факторов, включенных в расчет оценки. Комментируя это исследование, Стью Лэнгилле, директор по стратегии Credit Sesame, сказал: «В некотором смысле это хорошая новость, ведь исследование показывает, что между кредитными скорингами мужчин и женщин нет большого разрыва. Но все-таки оценка не настолько справедлива, как хотелось бы».

Кредитный скоринг не единственный случай, где возникает эта форма темных данных. В страховании есть схожие структуры, цель которых состоит в том, чтобы построить статистическую модель для прогнозирования вероятности событий – смерти, болезней, автомобильных аварий и т. д. В отличие от кредитного скоринга, страховое прогнозирование в Евросоюзе до недавнего времени могло основываться на любых данных без ограничения. Но, как мы упоминали в начале этой главы, в 2004 г. была принята Директива ЕС по гендерным вопросам для борьбы с дискриминацией по половому признаку. В этой директиве говорится, что страховщики ЕС не должны включать пол в число факторов, определяющих размеры взносов и выплат. Благодаря ей половая принадлежность оказалась вытесненной в область темных данных, что поставило страховое прогнозирование на одну ступень с кредитным скорингом.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация