Книга Идиот или гений? Как работает и на что способен искусственный интеллект, страница 28. Автор книги Мелани Митчелл

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Идиот или гений? Как работает и на что способен искусственный интеллект»

Cтраница 28

Учитывая, что длительная тренировка сверточных нейронных сетей возможна лишь на специализированных компьютерах – как правило, на мощных графических процессорах, – неудивительно, что цена акций ведущего производителя графических процессоров, корпорации NVIDIA, с 2012 по 2017 год возросла более чем на 1000 %.

СНС превзошли людей в распознавании изображений?

Чем больше я узнавала о необыкновенном успехе сверточных нейронных сетей, тем больше мне хотелось выяснить, насколько близко они подошли к соперничеству с человеческими способностями к распознаванию изображений. Опубликованная в 2015 году (после скандала с жульничеством) статья исследователей из Baidu имела подзаголовок “Как превзойти человеческие возможности в классификации ImageNet”^[121]. Примерно в то же время в исследовательском блоге Microsoft объявили о “крупном прорыве в технологии, разработанной для идентификации объектов на фотографии или видео, позволившем создать систему, точность которой соответствует человеческому уровню и порой превосходит его”^[122]. Хотя обе компании подчеркнули, что говорят о точности только при работе с ImageNet, пресса была не столь осторожна и печатала такие сенсационные заголовки, как “Компьютеры теперь распознают и сортируют изображения лучше людей” и “В Microsoft разработали компьютерную систему, которая распознает объекты лучше, чем человек”^[123].

Давайте разберемся с утверждением, что машины теперь “лучше людей” справляются с распознаванием объектов в ImageNet. Оно основано на мнении, что люди ошибаются примерно в 5 % случаев, в то время как у машин (на момент написания этих строк) частота возникновения ошибок близка к 2 %. Подтверждает ли это, что машины лучше людей справляются с задачей? Как часто случается с громкими заявлениями об ИИ, это утверждение предполагает несколько оговорок.

Вот первая. Читая, что машина “верно идентифицирует объекты”, вы думаете, что если машине показать, скажем, изображение баскетбольного мяча, то ее выходным сигналом будет “баскетбольный мяч”. Но не стоит забывать, что при работе с ImageNet идентификация признается верной, если нужная категория вошла в число пяти категорий, в которых машина уверена сильнее всего. Если при получении изображения баскетбольного мяча машина последовательно выдает категории “крокетный мяч”, “бикини”, “бородавочник”, “баскетбольный мяч” и “движущийся фургон”, ее ответ считается верным. Стоит отметить, что на конкурсе ImageNet 2017 года точность топ-1 – то есть доля тестовых изображений, для которых верная категория была первой в списке, – составила около 82 %, в то время как точность топ-5 составила 98 %. Насколько мне известно, никто не сообщал о сравнении машин и людей при точности топ-1.

Вот вторая оговорка. Рассмотрим утверждение: “При работе с ImageNet люди ошибаются примерно в 5 % случаев”. Выясняется, что говорить “люди” не совсем корректно, поскольку этот результат был получен в ходе эксперимента, в котором принял участие один человек, Андрей Карпатый, который в то время учился в аспирантуре Стэнфорда и исследовал глубокое обучение. Карпатый хотел проверить, сможет ли он натренироваться так, чтобы соперничать с лучшими сверточными нейронными сетями в ImageNet. Учитывая, что СНС тренируются на 1,2 миллиона изображений, а затем классифицируют 150 000 тестовых изображений, для человека это был серьезный вызов. Карпатый написал об этом в своем популярном блоге об ИИ:

В итоге я тренировался на 500 изображениях, а затем перешел к [урезанному] тестовому множеству из 1500 изображений. Присвоение меток [то есть определение пяти категорий для каждого изображения] шло со скоростью около 1 изображения в минуту, но со временем скорость снижалась. Я с удовольствием разметил лишь первые изображений 200, а остальное доделал исключительно #воимянауки… Одни изображения узнаются сразу, а другие (например, редкие породы собак, виды птиц и обезьян) требуют нескольких минут концентрации. Теперь я очень хорошо различаю породы собак^[124].

Карпатый обнаружил, что ошибся при классификации 75 из 1500 тестовых изображений, проанализировал ошибки и пришел к выводу, что большинство затруднений у него возникло при работе с изображениями, на которых было несколько объектов, при идентификации конкретных пород собак, видов птиц, растений и т. п., а также в случаях, когда он не знал о наличии той или иной категории объектов. Сверточные нейронные сети совершают другие ошибки: хотя они тоже путаются при классификации изображений с несколькими объектами, в отличие от людей они, как правило, не замечают на изображении мелкие объекты, объекты, искаженные примененными фильтрами цвета и контраста, и “абстрактные репрезентации” объектов, например портреты или статуи собак и плюшевых собак. Таким образом, не следует всецело верить утверждению, что компьютеры превзошли людей в ImageNet.

А вот оговорка, которая может вас удивить. Когда человек говорит, что на фотографии изображена собака, мы считаем, что он действительно увидел собаку на снимке. Однако, если сверточная нейронная сеть верно распознает “собаку”, как нам понять, основана ли ее классификация на наличии собаки на изображении? Может, на нем есть другой объект – теннисный мяч, фрисби, погрызенный ботинок, – который часто ассоциировался с собаками на тренировочных изображениях, и СНС узнает этот объект и приходит к выводу, что на изображении есть собака? Такие связи часто вводят машины в заблуждение.

Мы можем попросить машину не просто выдавать категорию объекта на изображении, но и помещать целевой объект в рамку, чтобы мы поняли, что машина действительно “увидела” этот объект. Именно так поступили организаторы конкурса ImageNet на второй год, устроив “состязание по локализации”. Для решения задачи по локализации целевые объекты на тренировочных изображениях заключили в рамки (нарисованные работниками Mechanical Turk), и на тестовых изображениях задача программы состояла в том, чтобы определить пять категорий объекта, снабдив каждую координатами соответствующей рамки. Как ни странно, глубокие СНС очень хорошо справлялись с локализацией, но все же показывали значительно более низкие результаты, чем при проведении классификации, несмотря на то что последующие соревнования уделяли основное внимание именно локализации.

Вернуться к просмотру книги Перейти к Оглавлению Перейти к Примечанию

Вход

Регистрация | Забыли пароль?

Поиск по сайту

Календарь

Навигация