Давайте посмотрим, как работает простой алгоритм распознавания лиц на основе машинного обучения, который входит в пакет инструментов MATLAB. Это полезное упражнение, потому что, как выяснилось, человеческое восприятие функционирует во многом похожим образом. Первые шаги по преобразованию изображения лица в стандартный формат не отличаются от тех, что описаны выше для основанного на правилах алгоритма. А дальше происходит вот что:
● Огромное множество обработанных изображений лиц (равномерно освещенных, с выделенными краями, анфас) вводится в многослойную нейронную сеть. Это этап машинного обучения. Каждое лицо имеет свое имя: «Дик», «Джейн», «Билл» и т. д. И для каждого изображения лица вы сообщаете машине: «Это Билл» или «Это не Билл».
● Нейронная сеть, как и простой маленький перцептрон, использует обратное распространение для настройки весов отдельных соединений. Те соединения, которые подают самый сильный сигнал, когда учитель сообщает, что «это Билл», усиливаются. Разница лишь в том, что мощная система использует целый массив простых перцептронов, организованных в скрытые слои. В процессе обратного распространения происходит настройка всех этих скрытых слоев вплоть до входного.
● После обучения нейронную сеть нужно протестировать: в сеть вводится другое изображение Билла, которое не входило в обучающий набор. Усиленные синаптические связи должны среагировать на специфические черты лица Билла, благодаря чему центр решений должен получить сильный суммарный сигнал и выдать ответ: «Это Билл».
Очень большая нейронная сеть, обученная на большом количестве лиц, становится очень умной: она способна узнать лицо Билла с разных сторон, ярко освещенным или затененным, с воротничком белой рубашки или воротом красной футболки. В реальной жизни для обучения нейронных сетей распознаванию лиц используются гигантские базы данных. Раньше такими базами служили, например, архивы фотографий с водительских прав, содержащие миллионы идентифицированных изображений.
Самое удивительное, что мы не знаем, как именно нейронная сеть распознает лицо Билла. По оттенку кожи? Соотношению высоты и ширины лица? Форме носа? Ямочках на щеках? Старым послеугревым рубцам? По всему вышеперечисленному? Все это скрыто в глубинных слоях нейронной сети с их сотнями тысяч соединений.
В главе 11 мы подробнее поговорим о том, чем биологическая зрительная система похожа на видящие компьютеры. Я утверждаю, что обучаемые синапсы играют ключевую роль в основанных на нейронных сетях зрительных системах на всех этапах процесса восприятия – от сетчатки (входного слоя) до высших уровней, где происходит распознавание объектов. Но сразу предупреждаю и подробнее объясню это в главе 13 (внимание, спойлер!): распознавание объектов в биологической зрительной системе происходит вовсе не так, как это делает вышеописанный алгоритм MATLAB. С точки зрения живого мозга это слишком глупый способ. Перцептронам нужен учитель, который будет контролировать их обучение, сообщая им: «Это Билл» и «Это не Билл». Живой мозг способен учиться без внешнего учителя (отдельная важная тема, о которой мы также поговорим подробнее). Но в том и другом случае в основе, по сути, лежит одинаковый ключевой принцип – сети нейронов, связанные модифицируемыми синапсами Хебба.
11 | Как работает зрение
Большинство фундаментальных научных идей по существу просты и могут быть выражены языком, понятным каждому.
АЛЬБЕРТ ЭЙНШТЕЙН
Итак, пришло время наконец-то дать ответ на вопрос, с которого началась эта книга: как родители узнают своего ребенка на детской площадке? При всей кажущейся простоте этот вопрос – как происходит распознавание объектов в мозге – является одной из сложнейших проблем нейробиологии. Картина, нарисованная мной, отличается от той, что представлена в большинстве учебников, которые явно или неявно постулируют существование фиксированной иерархии инкрементальных шагов, каждый из которых ведет к следующему шагу более высокого уровня. На самом деле, как показывают последние исследования, наш зрительный анализатор практически от начала и до конца основан на гибких механизмах нейронной пластичности, обучающихся по правилам нейронной сети.
Для начала я хотел бы показать коммутационную схему зрительного анализатора. К счастью, мне не пришлось составлять ее самому: эта трудоемкая работа уже проделана Даниэлем Феллеманом и Дэвидом Ван Эссеном из Университета Вашингтона в Сент-Луисе, которые составили схему связей в зрительной системе приматов. Как подчеркивают ее авторы, здесь отражены только самые основные соединения. Прямоугольники – это области мозга. Линии – аксональные проводящие пути между ними. Мы, нейробиологи, любим показывать эту схему как наглядное доказательство ужасающей сложности мозга. Помимо прочего, тем самым мы отчасти пытаемся оправдаться за то, что мы до сих пор не разобрались в его устройстве. Еще раз повторю: на этой схеме показаны соединения только между наиболее крупными областями мозга. Если бы мы попытались показать все соединения между нейронами, этих линий было бы в миллионы раз больше. В таком масштабе вместо коммутационной схемы вы бы увидели квадрат густо-черного цвета.
Давайте начнем с широкого, базового представления о том, как устроена наша зрительная система. Конечно, сегодня еще слишком многое остается неизвестным, а высшие зрительные центры изучены лишь в самых общих чертах. Но в ожидании того, когда экспериментаторы наконец-то доберутся до отдельных соединений на уровне нейронов, мы можем выделить ключевые фундаментальные принципы организации нашего зрения. Вот они:
1. Зрительные системы не являются нейтральными, беспристрастными регистраторами входных сигналов. Они искажают (модифицируют) свои ответы на каждом уровне, приводя их в соответствие с закономерностями видимого мира.
2. Иногда это свойство встроено в генетический код, но во многих случаях оно является результатом обучения нейронной сети. Это касается всего – от базовых закономерностей, таких как края и линии, до восприятия сложных объектов, таких как лица.
3. Грубые соединения между зрительными областями мозга образуются при помощи сигнальных молекул – таких же, какие используются природой, например, чтобы обеспечить развитие печени или рук в ходе внутриутробного периода. Эти молекулы помогают аксонам зрительных клеток найти путь к областям-мишеням в головном мозге и сформировать примерную топографическую карту поля зрения в каждой из них. Более тонкие нейрональные связи, лежащие в основе восприятия конкретных объектов – распознавания объектов, – создаются благодаря механизму нейронной пластичности.
ЗРИТЕЛЬНАЯ СИСТЕМА МОЗГА КАК НЕЙРОННАЯ СЕТЬ
В предыдущих главах я изложил вам основные факты о зрительном анализаторе, которые мы узнали экспериментальным путем к сегодняшнему дню. Вкратце повторим их: