Распознавание образов [1987 Марш П., Александер И., Барнетт П., Дулинг Д., Гилл К., Мэтьюз П., Моравек Г.

За последние пять лет был достигнут некоторый прогресс в деле создания устройств совершенно нового типа, которые позволяют решать проблемы машинного зрения абсолютно по-иному - методами распознавания образов. Такие устройства, называемые искусственными нейронными сетями (поскольку каждый их элемент действует подобно нейрону мозга), представляют собой параллельные процессоры, аналогичные упомянутому выше компьютеру CLIP. Они содержат сотни и даже тысячи электронных приборов для обработки информации, которые одновременно исследуют различные части изображения. Однако в отличие от подобных устройств реальные нейронные сети не нуждаются в предварительном программировании: как будет показано далее, они, по существу, составляют собственную программу на основе зрительного восприятия и таким образом при необходимости способны настраиваться на решение новых задач.

Наиболее перспективной из созданных ныне адаптивных систем распознавания образов, пожалуй, можно считать систему WISARD, разработанную группой специалистов Брюнельского университета под руководством профессора Игоря Александера. WISARD (по звучанию эта аббревиатура схожа с англ. wizard- волшебник) обрабатывает изображение примерно тех же размеров и разрешения, что и кадр на экране домашнего телевизора с сеткой 512x512- элементов отображения. Каждый логический компонент системы (на практике они представляют собой стандартные микросхемы запоминающих устройств с произвольной выборкой - ЗУПВ) принимает информацию от восьми датчиков (соответствующих элементам отображения), которые расположены в произвольных узлах сетки. Процесс обучения системы WISARD довольно прост: ее наводят на отображаемый объект и нажимают клавишу "обучение", которая соединена со всеми произвольно расположенными логическими элементами общимчислом 30 тыс. В результате "обучения" каждый логический элемент приобретает способность выдавать двоичную 1 только в том случае, если на него повторно поступает та же последовательность из восьми двоичных цифр (см. рис. на с. 72).

Разумеется, одна и та же последовательность цифр никогда не повторяется - даже если сами изображения идентичны, то все равно вследствие интерференции, а также влияния других факторов двоичная информация на входе всегда претерпевает некоторые изменения. Однако система WISARD присваивает каждому новому изображению определенное количество очков (равное числу логических элементов, на выходах которых формируется 1), которое, по сути, показывает, насколько новое изображение соответствует "заученному". Если система содержит несколько независимых блоков памяти, или дискриминаторов, в каждый из которых путем обучения записано свое, отличное от других изображение, то система будет реагировать на новое изображение, указывая, какие из уже записанных изображений оно больше всего напоминает.

Исключительно высокая эффективность подобного метода подтверждается на примере системы WISARD. В частности, опыт ее использования показал, что она способна распознавать человеческие лица и даже отличать улыбающееся лицо от хмурящегося. Более того, эти сложнейшие процедуры выполняются за доли секунды, причем воспринимаются не какие-то застывшие, а именно "живые" образы, т. е. изображения лиц с динамичной мимикой. Особо следует подчеркнуть, что все это делается без предварительной подготовки специальных программ. Интересно отметить также, что конфигурация системы WISARD, в которой для распознавания образов используются независимые дискриминаторы, по-видимому, аналогична структуре одного из участков головного мозга. Исследования Д. Хьюбела и Т. Визела, удостоенных Нобелевской премии, показали, что в зрительной коре мозга животных имеются группы нервных клеток (называемые гиперколонками), которые, по всей видимости, выполняют подобные же функции. В частности, гиперколонка, вероятно, определяет общую ориентацию объекта на изображении, позволяя судить о том, как он расположен - вертикально, горизонтально или наклонно.

Благодаря системе 'Нельсон II' (см. справа) робот ПУМА приобрел 'зрительные способности', которые могут оказаться полезными, например, при выполнении простых сборочных операций

Наиболее важной и впечатляющей особенностью систем типа WISARD является их способность обучаться восприятию обобщенных изображений. Если, например, машина изучает лицо конкретного индивидуума, то она пользуется не каким-то одним неподвижным изображением: ее камера воспринимает лицо в динамике, и для этого требуется, чтобы человек двигал головой, менял выражение лица, улыбался и гримасничал, показывал язык и т. д. Тогда в дальнейшем система может "узнавать" этого человека, различая его лицо среди множества других, даже если оно возникает под таким ракурсом и с таким выражением, какие система ранее не наблюдала. Более того, она способна узнавать знакомое лицо и при наличии простейшего камуфляжа - например, очков или накладных усов.

Возможность распознавания столь трудноразличимых и сложных изображений, как человеческое лицо, далеко превосходит самые дерзновенные мечты тех, кто работает с традиционными системами машинного зрения и которые, очевидно, могут многому поучиться у создателей "системы WISARD. Главный урок успеха последних, по-видимому, заключается в том, что сначала объект восприятия лучше всего трактовать как некий образ, а не множество линий, которые можно расшифровать путем формализованных логических расчетов. Обычный компьютер с его точностью и логическими способностями, возможно, понадобится на более позднем этапе; однако тот факт, что система WISARD может распознавать объекты за доли секунды (тогда как системы анализа сцен в течение столь короткого времени с трудом осуществляют даже начальные этапы процесса "видения"), говорит о преимуществе искусственных нейронных сетей как основы для создания идеальных устройств распознавания образов (так называемых препроцессоров), рассчитанных на применение в робототехни-ческих системах зрения.

Система машинного зрения 'Нельсон II' разработанная в Национальной технической лаборатории (Шотландия), может распознавать детали 25 различных форм

Система WISARD в своем первоначальном, простейшем, варианте представляла собой так называемую одноуровневую нейронную сеть. Это означает, что каждое из элементарных ЗУПВ, образующих дискриминаторы, реагирует на информацию только от тех элементов-датчиков изображения, из которых состоит часть изображения, соответствующая этим ЗУПВ. В то же время одна из основных особенностей мозга заключается в том, что соединения нервных клеток обеспечивают восприятие огромного числа сигналов обратной связи; когда информация, поступающая от глаза или другого органа чувств (она может быть даже результатом активности самого мозга), приводит к тому, что нейроны возбуждаются, т. е. посылают электрические импульсы, они (нейроны) не только обрабатывают исходную информацию, поступающую извне, но и реагируют на сигналы обратной связи, возникающие в результате их собственного возбуждения. Принцип работы системы WISARD несколько иной. Она не имеет окна с более высокой разрешающей способностью, зафиксированного в центре ТВ-экрана, и ее камера не поворачивается в разные стороны - наоборот, видеокамера системы остается неподвижной, а окно перемещается по всему полю экрана. Такое подвижное окно очень напоминает полиэкранное отображение, которым иногда пользуются в телевидении для того, чтобы одновременно показать на экране и : общий вид, и отдельные его детали; эти окна, как и полиэкранное изображение, формируются с помощью кадрового ЗУ. Режим работы системы WISARD, при котором - по крайней мере вначале - можно изменять положение не всей телекамеры, а только экранного окна, выбран из соображений удобства и отнюдь не является принципиальным отличительным признаком данной системы. Важно другое: каким образом эта установка обучается концентрировать свое "внимание" на существенных особенностях отображаемого объекта? И здесь также ключевую роль играет обратная связь. Сначала перемещениями окна управляет оператор, наблюдая за экраном монитора и пользуясь рукояткой управления, подобной той, что имеется в игральных автоматах. Оператор выполняет несколько простых сеансов обучения системы, например проводя окно вдоль контура объекта или, если необходимо отобразить несколько различных объектов, поочередно накладывая окно на каждый из них. Одновременно происходит обучение искусственной нейронной сети: элементарные ЗУПВ настраиваются таким образом, что возбуждаются при поступлении новых входных последовательностей цифр, которые формируются на основе как самого изображения, так и информационной обратной связи, причем сигналы возбуждения генерируются в соответствии с информацией об изображении в целом и о его деталях, охватываемых движущимся окном.

Специалист из калифорнийской фирмы 'СРИ Интернэшнл' Боб Боллс разработал систему трехмерного машинного зрения для роботов, извлекающих детали из бункеров. Роботы, оснащенные такой системой, могут обнаруживать и извлекать нужные детали из беспорядочного их нагромождения. Приведенные фотографии иллюстрируют алгоритм работы системы 3DPO (Three Dimensional Part Orientation - система определения ориентации деталей в трехмерном пространстве): 1 - формируется трехмерная модель детали

Специалист из калифорнийской фирмы 'СРИ Интернэшнл' Боб Боллс разработал систему трехмерного машинного зрения для роботов, извлекающих детали из бункеров. Роботы, оснащенные такой системой, могут обнаруживать и извлекать нужные детали из беспорядочного их нагромождения. Приведенные фотографии иллюстрируют алгоритм работы системы 3DPO (Three Dimensional Part Orientation - система определения ориентации деталей в трехмерном пространстве): 2 - формируется изображение всех беспорядочно расположенных деталей

Специалист из калифорнийской фирмы 'СРИ Интернэшнл' Боб Боллс разработал систему трехмерного машинного зрения для роботов, извлекающих детали из бункеров. Роботы, оснащенные такой системой, могут обнаруживать и извлекать нужные детали из беспорядочного их нагромождения. Приведенные фотографии иллюстрируют алгоритм работы системы 3DPO (Three Dimensional Part Orientation - система определения ориентации деталей в трехмерном пространстве): 3 - с помощью датчика расстояния воспроизводятся наиболее выступающие участки изображения

Специалист из калифорнийской фирмы 'СРИ Интернэшнл' Боб Боллс разработал систему трехмерного машинного зрения для роботов, извлекающих детали из бункеров. Роботы, оснащенные такой системой, могут обнаруживать и извлекать нужные детали из беспорядочного их нагромождения. Приведенные фотографии иллюстрируют алгоритм работы системы 3DPO (Three Dimensional Part Orientation - система определения ориентации деталей в трехмерном пространстве): 4 - выделяются слабо различимые контуры

Специалист из калифорнийской фирмы 'СРИ Интернэшнл' Боб Боллс разработал систему трехмерного машинного зрения для роботов, извлекающих детали из бункеров. Роботы, оснащенные такой системой, могут обнаруживать и извлекать нужные детали из беспорядочного их нагромождения. Приведенные фотографии иллюстрируют алгоритм работы системы 3DPO (Three Dimensional Part Orientation - система определения ориентации деталей в трехмерном пространстве): 5 - обработанные таким образом изображения деталей сравниваются с записанной в памяти моделью, что позволяет идентифицировать конкретную деталь

Нейронная сеть усвивает все это очень быстро (всего после нескольких учебных процедур) и в дальнейшем будет поочередно наводить окно на отдельные объекты или перемещать его вдоль контура объекта, даже если последний в корне отличается от того, который использовался в процессе обучения системы.

Возможности нейронных сетей с точки зрения "разумного" анализа сцен открывают путь к созданию робототех-нических систем зрения, которые будут способны отыскивать то, что им нужно, или выбирать конкретный объект из их хаотического нагромождения. Следует также отметить, что систему, которая может освоить необходимые движения своего единственного "глаза", можно было бы без особых усилий и теми же средствами научить двигать "рукой" или, что еще важнее, перемещать "руку" и "глаз" согласованно.

В системе WISARD обратная связь реализуется путем отображения количества очков (числа единиц), набранного каждым дискриминатором, в виде столбца гистограммы на телевизионном экране. Затем информация о гистограмме поступает обратно в сеть вместе с данными о наблюдаемом изображении. Если обратная связь осуществляется в то время, когда один из дискриминаторов исследует свою часть отображаемого объекта, то этот дискриминатор, разумеется, отреагирует, показав максимальное (100%-ное) количество очков. Ведь процесс обучения заключается просто в нажатии соответствующей клавиши, в результате чего элементарные ЗУПВ компьютера запоминают и в ответ на вводимое изображение выдают двоичные единицы. Таким образом дискриминатор учится распознавать не только само изображение, но и свою собственную 100%-ную реакцию на него.

Роль обратной связи можно наглядно продемонстрировать на примере, когда два дискриминатора изучают очень похожие образы, например два изображения, где на белом фоне имеется по одной черной точке, но в разных местах. Без обратной связи система после своего обучения не сможет уверенно различать эти изображения. Действительно, реакция обоих дискриминаторов на них будет эквивалентна весьма значительному количеству очков, поскольку указанные изображения в основном совпадают (большая часть каждого из них занимает белый фон). Но поскольку дискриминаторы получили информацию обратной связи, показывающую их собственный отклик на ту или иную черную точку, реакция этих устройств изменится. Если изображению, которое поступает на один из дискриминаторов, сопутствует информация обратной связи, указывающая на несколько большую степень достоверности, то количество очков (т. е. достоверность отклика) на выходе этого дискриминатора возрастает; это в свою очередь сказывается на обратной связи, и в результате степень достоверности отклика еще более повышается. Обратный процесс наблюдается во втором дискриминаторе: по мере поступления сигналов обратной связи степень достоверности его реакции уменьшается.

Действие нейронной сети в таких условиях весьма напоминает нашу собственную реакцию в случае, когда нам покажется, что мы кого-то узнали. Вначале у нас мелькает мысль: "А не Петр ли там?",- после чего эта мысль быстро подтверждается: "Конечно, это он",- или отбрасывается: "Нет, ничего общего с ним". Вполне логично предположить, что подобные восприятия обусловлены действием обратной связи в мозге человека, аналогичным тому, что имеет место в системе WISARD.