Книга Идиот или гений? Как работает и на что способен искусственный интеллект, страница 20. Автор книги Мелани Митчелл

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Идиот или гений? Как работает и на что способен искусственный интеллект»

Cтраница 20

Чтобы разобраться в этих вопросах, нужно внимательно рассмотреть ряд ключевых способностей нашего уникального человеческого разума, таких как восприятие, речь, принятие решений, рассуждения на основе здравого смысла и обучение. В следующих главах мы увидим, насколько далеко ИИ зашел в воссоздании этих способностей и оценим его перспективы до 2029 года и далее.

Часть II
Смотреть и видеть
Глава 4
Что, где, когда, кто и почему?

Взгляните на фотографию на рис. 6 и скажите мне, что вы видите. Женщина гладит собаку. Военнослужащая гладит собаку. Военнослужащую, которая только что вернулась с войны, встречает собака, а рядом лежат цветы и летает воздушный шарик с надписью “Добро пожаловать домой!”. На лице военнослужащей написаны сложные чувства. Собака радостно виляет хвостом.

Когда был сделан этот снимок? Скорее всего, в последние десять лет. Где он был сделан? Вероятно, в аэропорту. Почему военнослужащая гладит собаку? Вероятно, она была в длительной командировке, повидала многое – и хорошее, и плохое, – очень скучала по своей собаке и теперь рада вернуться домой. Возможно, собака символизирует все, что для нее есть “дом”. Что случилось до того, как был сделан этот снимок? Вероятно, военнослужащая вышла из самолета и прошла через зону безопасности аэропорта в зал прилетов, где собрались встречающие. Ее друзья и близкие обняли ее, подарили ей цветы и шарик, а потом отпустили собачий поводок. Собака подскочила к военнослужащей, которая положила на пол все, что держала в руках, и опустилась на колени, осторожно прижимая ленточку от шарика ногой, чтобы он не улетел. Что случится дальше? Вероятно, она встанет на ноги, возможно, смахнет слезы, поднимет с пола цветы, шарик и ноутбук, возьмет в руку поводок, а потом вместе с собакой, друзьями и близкими пойдет в зону выдачи багажа.


Идиот или гений? Как работает и на что способен искусственный интеллект

Рис. 6. Что вы видите на этой фотографии?


Когда вы смотрите на эту фотографию, на самом базовом уровне вы видите чернильные точки на бумаге (или пиксели на экране). Ваши глаза и мозг берут эту сырую информацию и за несколько секунд каким-то образом превращают ее в подробную историю, в которой описываются люди, предметы, отношения, места, чувства, мотивы, а также прошлые и будущие действия. Мы смотрим, видим и понимаем. Более того, мы знаем, на что не стоит обращать внимания. Мы не включаем в историю множество видимых на фотографии деталей, которые не имеют для нее значения: узор ковра, висящие ремни на рюкзаке военнослужащей, заколки у нее в волосах, пристегнутый к лямке рюкзака свисток.

Мы, люди, обрабатываем огромный объем информации почти мгновенно, но практически – или совершенно – не сознаем, что и как при этом делаем. Если вы не слепы с рождения, обработка зрительной информации на разных уровнях абстракции главенствует в вашем мозге.

Безусловно, способность описывать фотографию (или видео, или идущую в прямом эфире трансляцию) таким образом станет одним из первых навыков, которых мы будем ждать от общего ИИ человеческого уровня.

Простые вещи делать сложно (особенно в области зрения)

С 1950-х годов исследователи ИИ пытались научить компьютеры понимать визуальные данные. На заре ИИ казалось, что достичь этой цели относительно нетрудно. В 1966 году Марвин Минский и Сеймур Пейперт – выступающие за символический ИИ профессорá MIT, которых вы помните из первой главы, – предложили организовать “Летний проект по зрению” и дать студентам “сконструировать значительную часть зрительной системы” [98]. Один историк ИИ описал проект так: “Минский нанял первокурсника и поставил ему задачу на лето: подключить телекамеру к компьютеру и научить машину описывать то, что она видит” [99].

Студент не добился впечатляющих результатов. Хотя после этого летнего проекта подобласть ИИ, называемая компьютерным зрением, значительно продвинулась вперед, создание программы, которая могла бы смотреть на фотографии и описывать их так же, как это делают люди, по-прежнему не представляется возможным. Зрение – и умение смотреть, и умение видеть – оказалось одной из самых сложных из “простых” вещей.

Чтобы описывать визуальную информацию, прежде всего необходимо распознавать объекты, то есть узнавать в конкретной группе пикселей на изображении конкретный объект категории, такой как “женщина”, “собака”, “воздушный шарик” или “ноутбук”. Как правило, мы, люди, быстро и легко справляемся с распознаванием объектов, так что поначалу казалось, что не составит большого труда научить этому и компьютер, но не тут-то было.


Идиот или гений? Как работает и на что способен искусственный интеллект

Рис. 7. Распознавание объектов: легко для человека, сложно для компьютеров


Что такого сложного в распознавании объектов? Допустим, нужно научить компьютерную программу распознавать собак на фотографиях. На рис. 7 показаны некоторые сложности этой задачи. Если на входе программа получает просто пиксели изображения, то первым делом ей необходимо понять, где среди них “собачьи” пиксели, а где “несобачьи” (например, пиксели фона, теней, других объектов). Более того, разные собаки выглядят по-разному: у них разные окрасы, формы и размеры, они могут смотреть в разных направлениях, освещенность на изображениях может значительно различаться, собаку могут частично перекрывать другие предметы (например, решетки, люди). К тому же “собачьи” пиксели могут сильно напоминать “кошачьи” – и вообще “звериные”. При определенном освещении даже облако на небе может быть очень похоже на собаку.

С 1950-х годов сфера компьютерного зрения неизменно сталкивалась с этими и другими проблемами. До недавних пор исследователи компьютерного зрения в основном разрабатывали специализированные алгоритмы обработки изображений для выявления “инвариантных признаков” объекта, по которым его можно опознавать, несмотря на описанные выше сложности. Обработка изображений совершенствовалась, но способности программ по распознаванию объектов по-прежнему не могли сравниться с человеческими.

Революция глубокого обучения

Невероятный прорыв в способности машин распознавать объекты на изображениях и видео случился в 2010-х годах и был вызван успехами в сфере глубокого обучения.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация