В височной доле существует по крайней мере шесть участков распознавания лиц, соединенных между собой аксональными связями. У этих участков есть свои формальные названия, указывающие на соответствующие анатомические подразделения височной доли, где они расположены. Но эти названия слишком сложны для неспециалистов и вызывают разногласия у экспертов, поэтому я взял на себя смелость свести их в более обобщенную номенклатуру. Не вдаваясь в детали, я расскажу о задней, центральной и передней частях нижней височной коры.
Продолжая наш разговор, мы можем рассматривать эти шесть участков распознавания лиц, распределенных по коре височных долей, как скрытые слои нейронной сети, предназначенной для идентификации конкретных визуальных объектов. Самое примечательное, что эти зоны коры являются в определенной мере универсальными распознавателями – они не запрограммированы генетически на распознавание лиц, а приобретают эту специализацию в процессе обучения (например, эксперименты Ливингстон и ее коллег показали, что у обезьян, которые с детства не видели лиц, эти участки отвечают за распознавание рук).
Можно сказать, что скрытые слои нейронной сети в направлении от задней к центральной части височной коры выделяют все более сложные наборы признаков лица. Скрытые слои в задней части получают входные данные от зон V1–V4 и используют их для обнаружения таких компонентов, как овал лица, нос, подбородок, волосы и особенно глаза. Нетрудно представить, как сложная избирательная чувствительность предыдущих слоев – избирательность к кривым, углам и т. д. – помогает обнаруживать вышеуказанные компоненты лица. В магии распознавания лиц гораздо меньше магического, чем может показаться, потому что лицо – не случайный набор пикселей. Но детальная механика этого процесса нам (пока) неизвестна: как это часто бывает с нейронными сетями, чем именно занимается каждый скрытый слой, остается загадкой.
Участки распознавания лиц в задней и центральной частях височной коры, по всей видимости, компонуют выделенные признаки лица в простую репрезентацию – своего рода «протолицо». Эксперименты Цао и ее коллег показали, что эти признаки предположительно являются относительно простыми, например, такими как соотношение высоты и ширины лица, расстояние между глазами и т. д. Еще раз повторю, что пиксели в изображении лица расположены не случайным образом. Два темных пятна, соответствующих ноздрям, обычно идут парой, а ниже них находится линия пикселей, соответствующая рту. Отдельные элементы лица связаны между собой в реальном мире – и становятся связанными в мозге в виде клеточного ансамбля.
Нейроны в указанных участках чувствительны к изображениям реальных биологических лиц, но их легко обмануть символическими лицами – овалами с двумя точками вместо глаз и короткими прямыми линиями вместо носа и рта. Исследования Цао и ее коллег позволяют сделать вывод, что некоторые находящиеся здесь нейроны могут математически суммировать отдельные компоненты и делать вывод о степени подобия лицу. Играя с различными комбинациями компонентов, они обнаружили, что, например, простое лицо без одного глаза вызывает у таких нейронов менее сильный количественно измеримый ответ, чем такое же лицо с двумя глазами. Но даже эти продвинутые нейроны требуют, чтобы изображение лица попадало в строго определенное место их рецептивного поля – аналогично простым клеткам в зоне V1, которые реагируют только на строго локализованные ориентированные края.
Логично предположить, что задняя и центральная части височной коры поставляют зрительную информацию в следующий нейронный слой – переднюю часть, которая является пространственно-инвариантным распознавателем лиц. Многие нейроны в передних участках допускают относительную свободу в отношении расположения лица в пространстве, а также представляющего его набора пикселей. Механика этого процесса также детально неясна, но можно предположить, что она напоминает происходящее в аналогичных искусственных нейронных сетях. Установлено, что некоторые находящиеся здесь нейроны способны распознавать не только прямое, но и зеркальное изображение лиц в обширном рецептивном поле. Зачем нужно распознавание зеркальных изображений, пока неясно. Правдоподобное предположение состоит в том, что эти клетки могут быть промежуточным скрытым слоем – звеном на пути к достижению полной пространственной инвариантности. И действительно, в самом переднем участке есть такие продвинутые нейроны, которые реагируют на лица независимо от их расположения в пространстве.
Наконец, что еще более примечательно, в близлежащей области коры обнаружены нейроны, реагирующие на конкретные лица. Это означает, что в нашем мозге могут иметься клетки и микросхемы – части клеточных ансамблей, помогающие нам узнавать всех знакомых нам людей: членов семьи, друзей, коллег и т. д. Предположительно выходные данные из пространственно-инвариантной нейронной сети служат входными данными для нейронной сети еще более высокого уровня, которая учится распознавать конкретных людей. Но как эти клетки интегрируются в целостную систему, мы пока можем только гадать
[33].
Таким образом, этапы обработки зрительной информации в височной коре можно представить как серию из пяти видов событий. Во-первых, нейронная сеть учится распознавать компоненты лица. Во-вторых, из этих выделенных компонентов лица – глаз, носа, рта и т. д. – собирается простая репрезентация лица. В-третьих, нейроны возбуждаются в ответ на изображение лица, расположенное в определенном месте их рецептивного поля. В-четвертых, некоторые клетки достигают частичной инвариантности к положению лица в пространстве и к углу зрения. В-пятых, нейроны в самом переднем участке распознавания лиц достигают почти полной инвариантности в отношении указанных аспектов. Наконец, у людей близлежащая область – одна из мишеней передней части височной коры – содержит клетки, реагирующие только на небольшой ряд знакомых лиц. Таким образом, складывается впечатление, что главная цель всех этих участков распознавания лиц в том, чтобы поэтапно формировать репрезентации индивидуальных идентичностей – людей или объектов.
Наверняка вы обратили внимание на степень расплывчатости при описании этой гипотетической нейронной сети. Дело в том, что мы далеки от механистического понимания высших этапов обработки зрительной информации как основанных только на специфических нейронах и синапсах. На самом деле во многих отношениях очевидно, что мозг не может полагаться на простые перцептронообразные нейронные сети, используемые компьютерами для распознавания лиц и управления автомобилями. Забегая вперед, скажу, что, в отличие от большинства искусственных нейронных сетей, опирающихся на контролируемое обучение, мозг обучается без учителя. Я хотел здесь не столько описать конкретную форму нейронной сети, сколько подчеркнуть общий принцип, который заключается в том, что распознавание объектов основано на мультинейронных ансамблях, сформированных посредством постепенной модификации и усиления синаптических связей, как это и предполагал Хебб.