Техническое зрение [1988 Накано Э. - Введение в робототехнику]

Среди органов чувств человека главенствующая роль отводится органам зрения. Объясняется это способностью человека правильно и быстро оценивать визуальную информацию, воспринимаемую глазами, другими словами, способностью выделять такие характеристики объектов окружающего мира, как яркость, форма, цвет, удаленность, объемность, качество, а также размеры. Зрительный аппарат высокоорганизованных живых существ, включая и человека, работает таким образом, что фокусируемое на сетчатке глазного дна изображение через зрительные нервы и проводящие пути центральной нервной системы передается в зрительные центры головного мозга, где возникает зрительное ощущение. Именно мозг обеспечивает основную обработку и осмысливание поступающих образов. Не будет преувеличением сказать, что мы видим головой с помощью органов зрения.

У низших живых существ функция распознавания образов реализована почти исключительно на обработке информации в нервных клетках и волокнах, сосредоточенных в районе органов зрения; роль головного мозга в этих процессах ничтожно мала. Поэтому методология обработки визуальной информации как наиболее типичной формы методологии распознавания образов является классическим примером современной проблематики искусственного интеллекта.

Приборы, обеспечивающие техническое зрение роботов, - визуальные датчики^*, функционально подобны глазам человека, причем после преобразования датчиком оптического изображения в электрический сигнал вся основная обработка информации ведется ЭВМ. Чрезвычайно низкая скорость обработки при использовании подобных методов явилась причиной развития в США и Японии тенденции создания специализированных больших интегральных схем, предназначенных для типовых способов и алгоритмов обработки информации в форме двумерных изображений.

^* (Например, телевизионные передающие камеры с обрамляющей электроникой.)

Способы обработки зрительной информации, поступающей в форме изображений от визуальных датчиков, можно разделить на две группы:

● способы, базирующиеся на методологии искусственного интеллекта, с характерной для них логической последовательностью организации обработки, что позволяет производить анализ и классификацию сравнительно сложных изображений (например, распознавание многогранников);

● способы изначально прикладной ориентации, целью которых является обеспечение требуемого быстродействия обработки информации, как правило, для ограниченного числа изображений объектов.

В первом случае исследования ориентированы на создание универсальной системы технического зрения - "глаз" робота, во втором - на создание узкоспециализированной системы технического зрения с характеристиками, определяемыми потребностями промышленности.

Опубликован ряд великолепных работ, в том числе и обзорных, посвященных техническому зрению. Данная работа является только введением в основы методологии обработки изображений, которая в настоящее время быстро развивается. Одной из наиболее важных проблем, которую, по-видимому, предстоит решать в дальнейшем исследователям по робототехнике, - это совмещение противоречивых требований обработки изображений в реальном масштабе времени с обеспечением обработки сложного типа, подобной той, которая используется в исследованиях по проблематике искусственного интеллекта.

Выделение контурного изображения многогранника

При автоматическом анализе и распознавании объектов традиционно использовался метод многогранников. Основная причина этого заключалась в сравнительно простом определении формы многогранника по числу образующих его плоскостей, которые выделялись из исходного изображения путем анализа прямых линий. Другая немаловажная причина состояла в том, что сфера основных интересов многочисленных исследований была ограничена, как правило, логическим анализом визуальных сцен, образованных несколькими частично перекрывающимися многогранниками. Считалось, что расширение методов анализа и распознавания визуальной сцены, включающей частично перекрывающие друг друга многогранники, может оказаться перспективным с точки зрения методологического и алгоритмического обеспечения анализа реальных сцен как в лабораторных, так и в естественных условиях.

Ввод информации о яркости элементов изображения

Для распознавания объекта необходимо прежде всего ввести в ЭВМ данные о градациях яркости элементов изображения, образующих визуальную сцену. На начальном этапе исследований изображения объекта вводились с фотографий. Для этой цели использовалась стандартная факсимильная аппаратура, электрические сигналы которой после аналого-цифрового преобразования вводились в ЭВМ. Затем стали применять телевизионные передающие камеры, а в последнее время предпочтение отдается организации ввода данных при помощи твердотельных устройств без телевизионных передающих трубок, например на базе ПЗС-матриц^*.

^* (Такие устройства считаются весьма перспективными благодаря возможности дальнейшего сокращения их массы и габаритов, а также потребляемой электроэнергии.)

После ввода данных о градациях яркости требуется определить точки на изображении (или его элементы), по которым будет вестись обработка изображения в целом, в первую очередь - число таких точек. Это число, в частности, важно для определения времени обработки изображения. Обычно на одно изображение используется 256×256 точек, яркость элементов изображения в каждой из которых кодируется 4-8 двоичными разрядами. Такой массив данных вводится в ЭВМ. В отдельных случаях изображение объекта разбивается на 1024×1024 точек. Такая необходимость возникает иногда при анализе сложных сцен или при нетрадиционных подходах к решению задачи ввода изображения в ЭВМ (рис. 5.20).

Рис. 5.20. Выборка информации из телевизионного кадра изображения

Основной недостаток ввода изображения с помощью телевизионной передающей камеры заключается в невозможности целенаправленной выборки из изображения данных градаций яркости только для требуемых элементов изображения, поскольку информация о яркости точек на изображении поступает в процессе строчной развертки электронного луча последовательно по строке от точки к точке и далее последовательно от строки к строке по всему кадру. Например, при разбиении кадра 256×256 точек (элементов изображения) необходимо выполнить аналого-цифровое преобразование и последовательно ввести в ЭВМ полученный цифровой код для всех этих точек. Стандартная частота кадров для телевизионных передающих камер - 60 кадр/с, поэтому каждую секунду должно пройти аналого-цифровое преобразование и быть передано в память ЭВМ 60×256×256 (около 4 млн.) элементов изображения. Недостаточно высокие быстродействие и пропускная способность современных ЭВМ делают невозможным прямую передачу в ЭВМ такого потока данных.

Для решения этой проблемы был предложен способ предварительного накопления содержащейся в кадре информации в быстродействующем буферном запоминающем устройстве и последующей обработки этой информации со скоростью, определяемой программно-аппаратными возможностями ЭВМ. Другой способ заключается в том, что данные о градациях яркости элементов изображения выбираются не последовательно один за другим, а через каждые n элементов с последующим n-кратным повторением такой последовательности выборки. В результате наложения этих выборок получается полный кадр.

Если выбрать шесть разрядов для кодирования градаций яркости каждого элемента изображения, то на весь кадр потребуется 256×256×6 (около 400 тыс.) бит. Ввод и обработка в ЭВМ такого информационного массива в реальном масштабе времени практически нереальны. Операция выборки графического (контурного) изображения представляет собой выборку из массива 400 тыс. бит только самой необходимой информации; другими словами, она может рассматриваться как этап сжатия (или фильтрации) исходного информационного массива.

Обычная традиционная процедура выделения контурного изображения в основном сводится к определению ребер многогранника путем выделения элементов изображения с резким перепадом градаций яркости. Сначала для каждого элемента информационного массива вычисляются отклонения в градациях яркости, а затем последовательно соединяются элементы с большой величиной такого отклонения. После этого на изображении выделяются ребра и вершины. Такая обработка существенно осложняется влиянием помех, основными причинами которых являются: пятна на поверхности объектов, тени от других объектов, помехи, создаваемые телевизионной передающей камерой. В результате, например, невозможно выделить ребро, разделяющее две смежные плоскости, при совпадении, или при близком значении градаций яркости этих плоскостей ребро неразличимо на уровне помех.

Изменение градаций яркости на ребре многогранника

Дифференциальный оператор первого порядка

Согласно классификации профилей изменения яркостей точек при переходе через ребро, существует три типа профилей: "ступень", "свод" и "концевой эффект" (рис 5.21). Тип профиля изменения яркости определяется путем последовательного вычисления изменений градаций яркости двух соседних точек. Последовательное вычисление приращения градации яркости двух соседних точек называется дифференциальным оператором первого порядка.

Рис. 5.21. Типичные конфигурации изменения яркости точек при переходе через ребро

Дифференциальный оператор второго порядка

В тех случаях, когда невозможно определить направления ребра, изменение яркости по всем направлениям вычисляется с помощью дифференциального оператора второго порядка. Типичные примеры таких операторов приведены на рис. 5.22. Для выделения точек изменения яркости Роберте предложил использовать окно размерностью 2×2. Использованный им дифференциальный оператор приведен на рис. 5.22, а результаты обработки - на рис. 5.23. Для сокращения объема и времени вычислений использовался упрощенный способ (2) (рис. 5.22).

Рис. 5.22. Типичные дифференциальные операторы второго порядка

Рис. 5.23. Пример обработки дифференциальным оператором. Слева - исходное изображение; Справа - результат обработки

При работе с изображениями, характеризующимися большим уровнем помех, эффективен оператор на окне размерностью 3×3. Примеры таких операторов приведены на рис. 5.22 (выражения (4) и (5)). Используя выражения (1)-(5) (рис. 5.22), можно определить вектор изменения яркости b (х, у) в плоскости изображения

Для определения экстремальных значений яркости рассмотрим дифференциальный оператор второго порядка, который определим следующим образом:

Выражения (7) и (8) (рис. 5.22) позволяют численно в приращениях определить производную второго порядка. При оценке яркости в центральной точке оператор оказывается более результативным, чем оператор (5). В операторе (6) величины U, V характеризуют изменение яркости по двум взаимно перпендикулярным направлениям. Направление а максимального приращения яркости для этого случая можно определить из следующего выражения:

Такой дифференциальный оператор, по-видимому, предпочтителен для определения ребер тела с криволинейными поверхностями (рис. 5.24). По сравнению с многогранником распознавание такого тела представляет собой более сложную процедуру, чем выделение ребер, и требует введения дополнительных приемов и эвристических правил.

Рис. 5.24. Пример типичного изменения яркости точек при переходе через ребро объекта с криволинейными поверхности. а - визуальная сцена; б - профили изменения яркости; в - значения дифференциала

Удаление помех и выделение линейных элементов

Рассмотренные в предыдущем разделе дифференциальные операторы, безусловно, эффективны при выделении ребер многогранников, но при этом они усиливают помехи на изображении. Дифференциал определяет пороговую величину фильтрации элементов изображения без разделения на помехи и элементы ребер. Допустим, что А, В, С, D, Е - элементы изображения, образующие ребро (рис. 5.25), а Р - помеха. Тогда, согласно Робертсу, выполняется следующая последовательность операций: после определения максимального значения дифференциала на области 4×4 оставляем только элементы со значением дифференциала больше порогового, а остальные считаем помехой. Затем для выделенных таким образом элементов изображения проводим корреляционный анализ с целью сравнения их взаимного расположения с четырьмя прямыми линиями, имеющими наклон 1, 0, -1, ∞, причем оставляем только те из них, для которых отношение максимальной и минимальной величин корреляции больше пороговой, а остальные идентифицируем как помеху. Было предложено проводить подобную корреляцию по восьми прямым линиям на области 7×7 (рис. 5.26) и в качестве линейных элементов выбирать только те, для которых результаты корреляции больше пороговой величины.

Рис. 5.25. Результат обработки участка изображения дифференциальным оператором

Рис. 5.26. Фильтр удаления помех на изображении для выделения линейных элементов по восьми направлениям

Формирование контурного изображения

Состыковка полученных по таким алгоритмам линейных элементов должна дать контурное изображение. Поскольку, однако, среди этих элементов остались помехи, их следует удалить. Для этого можно воспользоваться методом, который предусматривает выполнение следующих операций (рис. 5.27):

а) Соединение линейных элементов. Соединяются граничащие линейные элементы, ориентированные приблизительно в одну сторону. Несоединяемые линейные элементы и элементы, образующие в результате соединения короткие отрезки, отбрасываются как помехи.

б) Подгонка линий. Оставшиеся после операции (а) линейные отрезки состыковываются в единую прямую линию методом наименьших квадратов.

в) Формообразование. Среди полученных таким образом сравнительно длинных линейных отрезков проводится объединение отрезков, лежащих на одной линии, и объединение рядом расположенных и параллельных отрезков.

г) Формирование вершин. В результате состыковки полученных линейных отрезков формируются вершины многогранника. При этом исследуется возможность появления точки пересечения одного линейного отрезка с продолжением другого отрезка. При наличии такой возможности точка пересечения принимается за вершину многогранника, а соответствующий отрезок удлиняется до этой точки.

Рис. 5.27. Стадии формирования контурного изображения. Вверху: слева - выделение линейных элементов; справа - соединение граничащих линейных элементов; Внизу: слева - состыковка и подгонка линий; справа - контурное изображение

Анализ изображения в целом

Рассмотренные выше способы обработки изображений позволяют отчетливо выделять линии ребер только для крайне ограниченного числа простых многогранников. Пусть в результате подобной обработки удалось получить изображение типа приведенного на рис. 5.28, а. Тогда, исходя из имеющейся информации, можно соединить отдельные, несвязанные между собой линейные отрезки, анализируя изображение в целом. Способность человека к оперативному анализу и распознаванию изображений позволяет ему хорошо справиться с этой работой. Для выделения плохо просматриваемых линий изображения, подобного приведенному на рис. 5.29, было предложено объединять разрозненные короткие элементы и отрезки, выходящие из вершин многогранника, или отдельные детали на изображении и таким образом получать линейные отрезки. Из полученного графического изображения (рис. 5.29, а) выделяют гипотетические линии (рис. 5.29, б), сравнение которых с исходными данными позволяет принять решение об их реальности и провести объединение линий. Такой способ дает возможность избежать выделения законченных линий ребер и тем самым упростить сложную, трудоемкую по времени процедуру обработки.

Рис. 5.28. Пример эффективности использования информации об изображении в целом для его обработки. а - изображение после подгонки линий; б - фрагмент изображения

Рис. 5.29. Процесс составления контурного изображения. а - выделенные при первичной обработке линии; б - предполагаемые линии; в - результат обработки

Кроме рассмотренных выше способов обработки изображений были предложены такие, как использование различной цветовой раскраски объектов визуальной сцены, соединение соседних точек равной яркости для обработки отдельных фрагментов изображения, получение пары независимых изображений одной визуальной сцены при ее освещении с разных сторон с последующей совместной обработкой этих изображений и ряд других.

Интерпретация контурного изображения

Рассмотренные выше способы обработки сводятся лишь к выделению и прорисовке контурного изображения по ребрам многогранника и не предусматривают интерпретацию этого изображения (рис 5.30). В связи с этим был предложен следующий способ интерпретации контурного изображения.

Рис. 5.30. Пример многогранника

Поскольку наиболее характерными участками на контурном изображении многогранника являются точки преломления и ветвления линий, были выведены типичные конфигурации линий в этих точках (рис. 5.31) и сформулировано правило их соединения, позволяющее определить, относятся или нет две соседние плоскости к одному объекту. Применение этого способа в случае контурного изображения, показанного на рис. 5.30, поясняется на рис. 5.32.

Рис. 5.31. Характерные фрагменты изображения многогранника

Рис. 5.32. Правило состыковки смежных плоскостей многогранника

Очевидно, что плоскости А, В, С относятся к одному объекту, так же как и плоскости D, Е, а объекты ABC и DE различны (рис. 5.33). Применив этот способ к изображению тела, представленного на рис. 5.34, г, получим схему связи плоскостей, показанную на рис. 5.34. б. Здесь между В и D имеется одиночная связь, хотя на самом деле эти плоскости относятся к различным телам. Следовательно, плоскости с двойными связями относятся к одному телу, а наличие одиночной связи дает основание предполагать, что две плоскости принадлежат к различным телам. Конечно, возможны ситуации, когда такая методика не позволяет провести правильную интерпретацию (например, многогранника, изображенного на рис. 5.34, в), однако детализация такого методологического подхода позволяет анализировать сравнительно сложные визуальные сцены.

Рис. 5.33. Графические обозначения типа соединения плоскостей

Рис. 5.34. Примеры многогранников и графические обозначения типов соединений плоскостей. а - многогранник; б - тип соединения плоскостей; в - многогранник; г - тип соединения плоскостей

Использование информации о дальности до объекта

Бинокулярное зрение

Наличие бинокулярного зрения позволяет человеку визуально определить расстояние до объекта. По двум изображениям одного объекта, полученным с двух различных точек О_L (левая точка) и O_R (правая точка), и соответствующим им контурным изображениям сравнительно легко определить расстояния от объекта до двух точек обзора. Однако полутоновой характер изображений существенно усложняет решение этой задачи. Например, в случае, представленном на рис. 5.35, окно W_L определено в окрестности точки P_L на левом изображении. Оценочную функцию подобия обоих окон вычисляем в окрестности нескольких предполагаемых точек на проходящей через P_L горизонтальной линии и определяем соответствующую точку на правом изображении как точку с максимальной величиной подобия. Так, сравнивая два окна W_R и W'_R на правом изображении, можно относительно просто установить, что окно W_R более вероятно, и, следовательно, точка P_R скорее соответствует точке P_R, чем P'_R.

Рис. 5.35. Определение расстояния до объекта по методу бинокулярного зрения

Были предложены различные оценочные функции, но наиболее простой из них, по-видимому, является оценка разности градаций яркости на обоих изображениях. Для значений градаций яркости I_L (i, j), I_R (i, j) в точке (i, j) максимальному подобию соответствует минимальная величина суммы

Использование хорошо сфокусированного, направленного луча (например, лазерного) делает ненужной работу по выделению подобных точек соответствия, поскольку каждое из двух изображений представлено только одной точкой - световым пятном луча, отраженного от объекта. При известном угле проекции луча расстояние до объекта определяется методом триангуляции (рис. 5.36). Как следует из рисунка, расстояние до точки А можно вычислить по углу β наклона лазерного луча относительно базовой линии, соединяющей излучатель и приемник (в данном случае - телевизионная камера). Сканирование объекта лазерным (или обычным сфокусированным) лучом в этом случае осуществляется качанием самого излучателя, однако сканирование целесообразнее осуществлять качанием зеркала, на которое падает луч, с фиксацией угла поворота зеркала. Но и в этом случае затраты времени на качание луча до завершения обследования объекта оказываются незначительными.

Рис. 5.36. Способ определения расстояния до объекта по световому пятну отражения лазерного луча. 1 - лазер; 2 - объект; 3 - телевизионная передающая камера

На рис. 5.37 поясняется метод объемного видения, положенный в основу французской системы INRIA. Отраженный зеркалом лазерный луч падает на объект и после отражения последним улавливается двумя группами оптических детекторов, установленных с двух сторон (относительно объекта). При этом исключается операция установления соответствия точек на обоих изображениях и возникает возможность получения сразу в цифровой форме координат местоположения освещенного участка объекта. Парное расположение групп датчиков позволяет (методом триангуляции) определить расстояние до требуемой точки на изображении даже при неизвестном угле поворота отражающего зеркала. Наличие подвижной подставки для объекта приводит к дополнительным затратам времени на угловое и линейное перемещение объекта, но в то же время именно такое перемещение позволяет получить о нем исчерпывающую информацию даже с помощью пары горизонтально установленных линеек оптических детекторов.

Рис. 5.37. Система объемного видения INRIA (Франция). 1 - двигатель (привод); 2 - объект; 3 - линейка оптических датчиков; 4 - отражательное Зеркало; 5 - поворотный стол; 6 - лазерный луч

Метод лучевого сектора

В Научно-исследовательском институте "Дэнси гидзюцу сого кэнкюсё" (Токио, Япония) был разработан и исследован метод оперативного определения расстояния до объекта (рис. 5.38). Согласно этому методу, вертикальный секторный (щелевой) луч, полученный в результате прохождения исходного луча через щель, после отражения от объекта фиксируется на светочувствительной поверхности телевизионной передающей камеры, которая смещена относительно источника оптического луча на определенное расстояние. При известном угле α₀ наклона камеры, который остается неизменным, и переменном угле β проекции лучевого сектора, а также при известных местоположениях точек изображения в кадре расстояние до каждого элемента визуальной сцены можно определить из простых тригонометрических выражений.

Рис. 5.38. Определение расстояния до объекта щелевым лучом. 1 - щель; 2 - объект; 3 - телевизионная передающая камера; 3 - изображение объекта в кадре; угол Р переменный, угол а0 постоянный

Рис. 5.38. Определение расстояния до объекта щелевым лучом. 1 - щель; 2 - объект; 3 - телевизионная передающая камера; 3 - изображение объекта в кадре; угол β переменный, угол α₀ постоянный

Один из способов выделения многогранника по изображению, полученному таким методом, состоит в следующем. Из массива входных данных, полученных путем проекции на объект лучевого сектора (рис. 5.39, б), формируются группы прямых линий (рис. 5.39, в). Способ их формирования аналогичен рассмотренным ранее приемам первичной обработки визуальной сцены. Линии группируются и объединяются по углу наклона, и таким образом получаются группы параллельных непрерывных линий; возможна классификация линий и по интервалу между ними. После определения групп линий, относящихся к отдельным плоскостям, выявляются ребра на пересечении этих плоскостей. Такой подход позволяет легко распознавать простые многогранники.

Рис. 5.39. Изображение объекта, полученное методом щелевого луча

Визуальный сенсор (рис. 5.40) был использован для управления работой манипулятора. В этом случае щелевой луч формировался из светового потока, излучаемого импульсной лампой, установленной на захвате. Луч света после отражения от объекта попадает на светочувствительную поверхность телевизионной передающей камеры, установленной над захватом на базовом расстоянии h от источника света. Такая организация системы излучатель-приемник позволяет оперативно определять местоположение объекта при постоянных углах установки импульсного источника света и камеры. При импульсном освещении объектов A₁, А₂ местоположение их изображений на светочувствительной поверхности камеры (другими словами, углы α₁, α₂ относительно вертикали) преобразуется путем вычисления простых триангуляционных выражений в дальности (расстояния) d₁, d₂ до объекта. Импульсное освещение визуальной сцены устраняет влияние фоновой засветки на обработку данных. Использование щелевого луча дает возможность за сравнительно короткое время получить информацию не только о расстоянии до объекта, но и о его форме (при сравнительно простых конфигурациях объектов) путем обработки, аналогичной рассмотренной ранее (рис. 5.39). Оперативность получения информации делает этот способ перспективным для использования при манипулировании движущимися объектами.

Рис. 5.40. Визуальный сенсор на схвате манипулятора. 1 - источник импульсного освещения; 2 - манипулятор робота; 3 - передающая камера; 4 - схват; 5 - объект

Методы распознавания простых форм объектов

Рассмотрим метод оперативного распознавания формы объекта, основанный на анализе его контурного изображения. Характерной особенностью такого метода является не только распознавание многогранника по уравнениям его ребер, но и идентификация формы многогранника (исходя из расположения углов, образованных пересечением этих ребер) по трем характерным признакам. Такими характерными классификационными признаками формы многогранника являются: число углов, тип угла, последовательность чередования углов. Выделяют два типа углов. Выступ (кодируется "0") - угол, который не превышает 180° (при рассмотрении с внутренней части изображения), другими словами, это вершина многогранника, которая на его контурном изображении при рассмотрении изнутри проецируется в виде угла менее 180°. Впадина (кодируется "1") - угол, который при аналогичном рассмотрении превышает 180°. Возможны следующие комбинации чередования выступов и впадин на изображении:

тип 1 - фигура, у которой впадина находится между двумя выступами: 0-1-0;

тип 2 - фигура, у которой две впадины находятся между двумя выступами: 0-1-1-0;

тип 3 - фигура с чередованием углов как по типу 1, так и по типу 2.

Важное значение имеет число одинаковых последовательностей чередования углов (выступов и впадин) - число масок. Например, маска 1 - последовательность 1-0-0-1, маска 2 - последовательность 0-1-1-0. На рис. 5.41 приведены девять конфигураций изображений, среди которых Н-образная и Е-образная конфигурации эквивалентны по числу и типам углов. Идентифицировать их можно только по числу масок. При заранее определенном числе конфигураций изображения, по-видимому, наиболее эффективными в распознавании образов являются методы классификации по результатам предварительного анализа числовых показателей для наиболее характерной его фигуры.

Рис. 5.41. Характерные признаки для классификации различных геометрических изображений. Цифры на рисунке - кодированное описание каждой из конфигураций изображений с помощью трех характерных классификационных признаков. В верхних числах столбцов (число углов) левое число означает общее число углов, правое - число впадин на изображении

После точной индикации изображения необходима классификация фигуры в целом, к которой относится это изображение, однако сначала надо получить точное изображение. Для этой цели используется метод отслеживания контурных линий на изображении. Согласно этому методу, каждая точка на изображении в кадре представляется в виде матрицы размерностью 2×2 с двумя уровнями градации по яркости, и с помощью такой матрицы отслеживаются контурные линии изображения. Угол на изображении идентифицируется по резким изменениям направления отслеживания контурной линии. Сначала анализируются только внешние контурные линии изображения. Информация о направлении этих линий кодируется и представляется в виде матрицы. При этом используются следующие семь типов символов: <-> - горизонтальная черта, <|> - вертикальная черта, <)> - правая скобка, <(> - левая скобка, <*> - тело, < > - пустое пространство, <+> - угол (рис. 5.42).

Рис. 5.42. Двоичные кодовые комбинации на окне размерностью 2X2

Рис. 5.42. Двоичные кодовые комбинации на окне размерностью 2×2

Таким образом, углы выделяются путем последовательного сканирования по строкам кадра, и первый обнаруженный угол (кодовое обозначение <+>) запоминается вместе с координатами его положения в кадре. Затем обследуется окрестность этого угла на изображении и в зависимости от типа матрицы выбирается направление дальнейшего отслеживания. Данный способ в сочетании со способом разделения фигур по пробелам на общем изображении кадра позволяет эффективно и за короткое время классифицировать порядка сотен типов различных механических деталей. Однако он пригоден при условии, что проведена адекватная цифровая обработка исходного полутонового изображения в виде контурных линий с двумя уровнями градации яркости. На практике изображение на светочувствительной поверхности телевизионной передающей камеры зависит от характера и качества освещения, что не позволяет избежать помех на изображении, получаемом с выхода этой камеры. Удаление этих помех за малое время, выделенное на обработку видеосигнала, остается одной из серьезных проблем.

Применение способов распознавания образов в промышленности

Рассмотренные выше методы распознавания изображений визуальной сцены находятся на стадии макетной проработки и экспериментального исследования. Наиболее важными и общими аспектами такого исследования с точки зрения их использования в различных производственно-технологических процессах являются надежность, стоимость, возможность обработки видеоинформации в реальном масштабе времени. Ниже приводятся примеры практического использования способов обработки визуальных образов.

Выявление дефектов на печатных платах

Характерная особенность метода, примененного разработчиками фирмы системы выявления дефектов на печатных платах, - отсутствие необходимости в дополнительной информации: правильное, бездефектное изображение получается путем соответствующей обработки исходного изображения печатной платы с дефектами^*. При этом используется такая характеристика дефектов, как их сравнительно малые размеры (по сравнению с соответствующим бездефектным участком платы). Отдельные этапы обработки с целью выявления дефектов методом масштабирования изображения показаны на рис. 5.43, а. Исходное изображение платы с дефектами увеличивается в масштабе, что приводит к исчезновению дефектов в виде трещин и неоднородностей электропроводящего слоя (минус-дефекты). Затем изображение уменьшается до тех пор, пока не исчезнут такие дефекты, как отдельные пятна на изолирующей подложке и неровности краев электропроводящего слоя (плюс-дефекты). После восстановления исходного масштаба изображения получают бездефектное изображение печатной платы и отдельно изображения выявленных дефектов. На рис. 5.43, б приведена схема устройства, реализующего оперативную обработку по рассмотренному выше алгоритму. Применение устройства контроля печатных плат с помощью цветной передающей камеры позволяет увеличить производительность в семь раз по сравнению с ручным контролем и значительно повысить эффективность эксплуатации телевизионной аппаратуры.

^* (Система была разработана японской фирмой Hitachi.)

Рис. 5.43. Способ выявления дефектов на печатных платах. а - выделение дефектов методом масштабирования изображения; б - схема выявления дефектов методом масштабирования изображения

Автоматическое подсоединение проводников к подложке транзистора

Разработчики фирмы Hitachi предложили способ автоматического выполнения операции соединения площадок выводов корпуса транзистора с выводами на его подложке (рис. 5.44). На бинарном телевизионном изображении подложки транзистора автоматически определяются местоположения электродов и затем также автоматически с высокой производительностью осуществляются трассировка и прикрепление к подложке проводника диаметром около 20 мкм. Для этого в оперативную память ЭВМ предварительно заносятся характерные фрагменты P₁, Р₂, Р₃, ..., Р₉ бинарного изображения объекта (рис. 5.44 А, а). Последовательно просматривая фрагменты находящегося в поле зрения изображения и сравнивая их в реальном масштабе времени с эталонными изображениями фрагментов, определяют точные координаты требуемого участка на изображении. На одну операцию сравнения фрагмента изображения с эталонным затрачивается около 0,016 с; среднее время обследования одной подложки 0,15 с.

Рис. 5.44. Автоматическое подсоединение проводников к подложке транзистора. А - последовательность операций подсоединения проводников на транзисторе: а - до сборки; б - после сборки; Б - способ стыковки фрагментов изображения для определения местоположения участков прикрепления проводников: а - бинарное телевизионное изображение, б - примеры фрагментов изображения. 1 - каркас для крепления выводов; 2 - эмиттерная площадка; 3 - коллекторная площадка; 4 - подложка; 5 - капилляр; 6 - горелка; 7 - площадка базы; 8 - золотой провод; 9 - кристалл транзистора

Дуговая сварка

Для неразъемного соединения металлических листов, например кузова автомобиля, используется точечная сварка. Ширина свариваемых участков листов равна 8-10 мм, поэтому требуется особая точность состыковки. Дуговая сварка стальных листов средней и большой толщины, используемых при корпусных работах в судостроении, также требует особой точности состыковки свариваемых листов (на этапе подготовки технологической операции). При дуговой сварке стальных листов в результате подготовительной операции соединяемые кромки листов образуют V-образную канавку. Использование традиционных датчиков в этом случае сопряжено с предварительным программированием перемещения сварочной головки относительно свариваемых кромок, что требует значительного времени на подготовку сварочной операции. Поэтому желателен способ, позволяющий непосредственно в процессе сварки в реальном масштабе времени определять границы участка сварки. Такой способ выполнения сварочной операции иллюстрируется на рис. 5.45.

Рис. 5.45. Отслеживания профиля канавки визуальным сенсором. 1 - сигнал прерывания; 2 - видеосигнал; 3 - процессор; 4 - процессор изображений; 5 - сварочная горелка; 6 - сервопривод; 7 - направление сварки; 8 - оптический квантовый генератор щелевого лазерного луча; 9 - приводной двигатель; 10 - датчик числа оборотов приводного двигателя; 11 - визуальный сенсор

Изображение V-образного профиля канавки формируется визуальным сенсором, наклонно установленным в вертикальной плоскости, проходящей через линию стыка. Это изображение образуется в результате отражения от поверхности профиля канавки щелевого луча установленного вертикально лазерного излучателя, плоскость развертки луча которого перпендикулярна линии стыка. Полученное изображение V-образного профиля кромок по линии сварки позволяет управлять перемещением сварочной головки посредством следящей системы с приводом и не требует предварительной операции программирования ее перемещения. Такой способ использован в системе непрерывного изготовления железных труб для гидроэлектростанций. Излучатель щелевого лазерного луча содержит оптический квантовый генератор на газовом лазере гелий-неонового типа (длина волны 0,6328 мкм излучаемая мощность 6·10^-3 Вт) и оптическую систему фокусировки луча. Оптический приемник (визуальный сенсор) состоит из твердотельной 32×32-матрицы светочувствительных элементов узкополосного интерференционного фильтра, пропускающего лучи только длиной волны 0,6328 мкм, и оптической фокусирующей системы. Следует отметить, что системы с таким визуальным сенсором имеют высокую надежность и не загрязняют рабочий участок; кроме того, полученное изображение после удаления помех полностью удовлетворяет требованию "высокого быстродействия при хорошей точности" (рис. 5.46).

Рис. 5.46. Цифровая обработка телевизионного кадра с изображением сварочной дуги. I. Поиск в кадре эффективных данных: среди массива данных, полученных при отслеживании по яркости контуров изображения, выделение (с определением их местоположения в кадре) группы данных, наиболее эффективных для дальнейшего анализа; II. Операция сглаживания: вычисление отклонений в значениях соседних данных и удаление отдельных выбросов в этих данных; III. Операция дифференциального сжатия: завершение предобработки видеосигнала для выборки характерных точек сжатием с помощью дифференциала первого порядка; IV. Выборка характерных точек: выделение обоих краев канавки на изображении, положения сварочного электрода, положения линии стыка листов на изображении канавки

Амплитуда телевизионного видеосигналу получаемого от обычного визуального сенсора, не является постоянной. Она зависит от оптических характеристик поверхности по линии стыка и освещенности визуальной сцены. Для двухуровневого квантования видеосигнала необходим пороговый детектор, который может быть реализован в виде специализированной схемы, если требуется повышенное быстродействие системы. Сформированный таким образом видеосигнал кроме изображения профиля канавки в отраженном щелевом луче содержит помехи, вызванные свечением дуги и брызг расплавленного металла в процессе сварки. Для устранения этих помех предусмотрена специальная логическая схема совпадения. Отдельные этапы такой обработки видеосигнала показаны на рис. 5.47.

Рис. 5.47. Этапы обработки в реальном масштабе времени изображения кадра с засветкой от сварочной дуги

Фирма FIAT предложила иной способ контроля положения линии стыка свариваемых кромок - с помощью магнитных датчиков. Согласно этому способу, местоположение свариваемых кромок определяется в реальном масштабе времени с помощью четырех неконтактных магнитных датчиков, установленных в ряд в плоскости, перпендикулярной линии стыка (рис. 5.48). Два наружных датчика поддерживают постоянной величину зазора между поверхностью свариваемых листов и электродом сварочной головки, два внутренних датчика отслеживают канавку. На работу датчиков должно влиять тепло, выделяемое в процессе сварки, однако это влияние оказывается не столь уж значительным вследствие разбрызгивания расплавленного металла, и в этом отношении рассмотренный способ (рис. 5.47), по-видимому, является достаточно надежным.

Рис. 5.48. Отслеживание положения линии стыка свариваемых кромок с помощью неконтактных магнитных датчиков

Процессор изображений

Как видно из приведенных выше примеров, визуальный сенсор промышленного применения в большинстве случаев должен работать в реальном масштабе времени, чтобы обеспечить непрерывность технологического процесса. Это в свою очередь означает сокращение времени на обработку изображений. Для этого могут быть использованы дифференциальные операторы типа тех, что были рассмотрены ранее.

Повышение быстродействия обработки изображений может быть также достигнуто использованием специализированных больших интегральных схем для схемотехнической (непрограммной) реализации многократно повторяющихся процедур типа таких дифференциальных операторов. Введение процессора изображений между визуальным датчиком (передающей камерой) и ЭВМ (рис. 5.49), а также схемотехническая реализация алгоритмов, ранее выполнявшихся программным способом, позволяют существенно сократить время обработки видеоинформации. На рис. 5.50 показан принцип использования процессора изображений с дифференциальным оператором 3×3. Разработаны и выпускаются быстродействующие процессоры изображений по принципу последовательных схем конвейерного типа с использованием большого числа арифметических и логических узлов, выполненных на уровне больших интегральных схем.

Рис. 5.49. Способ цифровой обработки телевизионного кадра с помощью видеопроцессоров. а - традиционный способ ввода изображения в ЭВМ; б - оперативная обработка с помощью видеопроцессора; в - использование нескольких видеопроцессоров для оперативной обработки телевизионных кадров, поступающих от группы передающих камер