Базы данных изображений тоже, судя по всему, страдают от нехватки гендерных данных. Проведенный в 2017 г. анализ двух наиболее часто используемых баз данных, содержащих «более 100 000 сложных изображений из интернета, снабженных описаниями», показывает, что количество изображений мужчин значительно превосходит количество изображений женщин
[706]. Результаты исследований Вашингтонского университета также говорят о том, что женщины недостаточно представлены в Google Images. Этот недостаток касался представительниц 45 профессий, причем наиболее заметное расхождение с реальностью наблюдалось по генеральным директорам компаний. В то время как доля женщин в общей численности генеральных директоров компаний в США достигала 27 %, по результатам поиска в Google Images этот показатель составлял лишь 11 %
[707]. Результаты поиска по запросу «author» («автор») также оказались далекими от реальности: всего 25 % женщин, хотя на самом деле доля писательниц в общем количестве литераторов в США равнялась 56 %. Исследование также показало, что мнимые диспропорции искажают представления о реальном соотношении количества мужчин и женщин в различных профессиях – по крайней мере, в краткосрочной перспективе. С внедрением алгоритмов искажение реальной картины, естественно, примет долгосрочный характер.
Мало того, что женщины представлены в базах данных недостаточно, – они представлены еще и неверно. Авторы статьи, опубликованной в 2017 г., проанализировали стандартные текстовые корпуса, и выяснилось, что женские имена и указывающие на принадлежность к женскому полу слова, такие как woman, girl («женщина», «девушка») и т. д.), чаще употреблялись в связи с семьей, чем с карьерой. С мужскими именами и словами, указывающими на принадлежность к мужскому полу, ситуация была прямо противоположной
[708]. Проведенный в 2016 г. анализ популярной общедоступной базы данных, созданной на основе Google News, показал, что первое место в списке женских профессий занимала «профессия» домохозяйки (homemaker), в то время как в отношении мужчин доминировало обозначение maestro («маэстро», «мэтр»)
[709]. В десятку наиболее распространенных профессий, так или иначе связанных с половой принадлежностью, входили философы, социологи, капитаны, администраторы, архитекторы и няни – догадайтесь сами, какие из них ассоциировались с мужчинами, а какие – с женщинами. Вышеупомянутый анализ баз данных изображений 2017 г. также показал, что изображенные объекты и их действия указывали на «весьма серьезный “мужской перекос”»
[710]. Один из исследователей, Марк Яцкер, описал будущее, в котором робот, обученный с помощью таких баз данных и потому точно не знающий, что делают на кухне мужчины и женщины, «предлагает мужчине пиво, а женщине – помощь в мытье посуды»
[711].
Подобные культурные стереотипы обнаруживаются и в технологиях искусственного интеллекта, которые уже широко применяются. Например, когда профессор Стэнфордского университета Лонда Шибингер попыталась с помощью программ компьютерного перевода перевести свое интервью одной испанской газете на английский, оказалось, что Google Translate и Systran то и дело заменяют женский род местоимений на мужской, несмотря на наличие в тексте слов, ясно указывающих на половую принадлежность, например profesora (женщина-профессор)
[712]. При переводе с турецкого на английский словосочетаний с гендерно нейтральными местоимениями Google Translate опирается на стереотипы, свойственные английскому языку. Например, предложение “O bir doktor” («Он (она) врач») программа переводит как «Он врач», а предложение “O bir hemshire” («Она медсестра» или «Он медбрат») – как «Она медсестра». Исследователи обнаружили, что примерно так же программа ведет себя при переводе на английский с финского, эстонского, венгерского и персидского языков
[713].
К счастью, сегодня у нас есть нужные данные, но используют ли их программисты для исправления своих алгоритмов, страдающих от «мужского перекоса», покажет будущее. Будем надеяться, что они это сделают, потому что машины не просто отражают наши предубеждения. Иногда они усиливают их, и весьма значительно. Результаты исследования баз данных изображений 2017 г. показали, что на фотографиях процесса приготовления пищи женщины присутствуют на 33 % чаще мужчин, но алгоритмы, обученные на этих базах данных, «подключали» женщин к изображениям кухонь на 68 % чаще. В ходе этого исследования было также установлено, что чем выше изначальный «мужской перекос», тем больше он впоследствии усиливается. Возможно, именно этим объясняется, почему в описании фотографии совершенно лысого мужчины, стоящего у плиты, алгоритм указал, что это женщина. Стереотипная ассоциация «кухня – женщина» оказалась сильнее ассоциации «лысина – мужчина».
Джеймс Зоу, доцент кафедры биомедицинских исследований Стэнфордского университета, объясняет, почему все это так важно. Он приводит следующий пример. Допустим, работодателю нужен программист. Он ищет работника в сети с помощью алгоритма, разработанного на основе базы данных, в которой эта профессия ассоциируется преимущественно с мужчинами
[714]. Не исключено, что алгоритм сочтет сайт программиста-мужчины более заслуживающим внимания, чем сайт программиста-женщины, – «даже если сайты совершенно идентичны, за исключением имен и местоимений». Точно так же алгоритм с «мужским перекосом», обученный с помощью речевого корпуса, страдающего нехваткой гендерных данных, может в буквальном смысле оставить женщину без работы.
Поиск специалистов в сети – лишь верхушка айсберга, лишь малая часть проблемы, связанной с тем, что процесс принятия решений сегодня перекладывается на алгоритмы. По данным The Guardian, в США 72 % резюме соискателей при приеме на работу уже не читаются людьми
[715], а роботы даже проводят собеседования. Встроенные в них алгоритмы позволяют имитировать мимику и интонации топ-менеджеров
[716]. Звучит прекрасно – до тех пор, пока не вспомнишь о возможной нехватке данных. Позаботились ли программисты о том, чтобы в число успешных соискателей входили и женщины, и представители этнических меньшинств? А если нет, как поведет себя алгоритм? Сможет ли он учесть гендерные различия в тональности голоса и выражении лица при собеседовании? Мы этого не знаем, потому что компании, разрабатывающие алгоритмы, хранят свои продукты в секрете. Однако на основании имеющихся данных можно предположить, что гендерные различия вряд ли будут приняты во внимание.