|
7.6. Логический анализ и распознавание сценАдаптивный РТК с элементами искусственного интеллекта должен обладать способностью анализировать окружающую производственную обстановку, распознавать целевые объекты (детали, инструменты и т. п.), идентифицировать препятствия. Для решения этих задач традиционные методы распознавания образов не приспособлены, а иногда и не пригодны. Главная трудность связана с тем, что РТК обычно приходится иметь дело не с одним объектом, принадлежащим тому или иному классу, а с совокупностью объектов из разных классов. Другая трудность обусловлена сильной вариативностью объектов в поле зрения РТК- Так, например, могут сильно изменяться расстояния до окружающих объектов, ракурс, в котором они воспринимаются, условия освещения и т. д. Более того, одни объекты могут заслонять другие, затрудняя тем самым их распознавание. Поэтому от системы управления РТК требуется определенная активность и интеллектуальность, необходимые для преодоления охарактеризованных выше трудностей. Немногочисленные известные алгоритмы анализа сцен ввиду своей эвристичности далеко не всегда приводят к успеху даже в очень упрощенных и стилизованных условиях распознавания [4, 26, 44, 71]. Значительный интерес для практики представляют метод и системы инвариантного распознавания изображений, использующие в качестве видео датчиков средства когерентной и не когерентной оптики [44, 116]. Однако и этому методу присущи определенные ограничения и недостатки. К ним относятся требование группового характера преобразований объектов на изображении сцены (что на практике выполняется далеко не всегда) и сложность выделения отдельных объектов путем вычисления их инвариантов. Имеются также хорошо зарекомендовавшие себя эвристические подходы к выделению отдельных объектов на сложной сцене без каких-либо попыток к их распознаванию. Так, в работе [44] описана программа для ЭВМ, позволяющая выделять отдельные объекты на контурном изображении сцены путем предварительной разметки линий и выявления среди них граничных линий на основе анализа типа узлов. В работе [133] описаны алгоритмы лингвистического анализа сложных (главным образом, контурных) изображений. Принципиально иной подход к распознаванию сцен по их изображениям базируется на предварительном (в процессе обучения РТК) формировании понятий в виде аксиом классов с последующим выделением тех или иных объектов сцены посредством логического анализа и распознавания. Этот подход воплощен в рассматриваемом ниже адаптивном методе логического распознавания сцен [9, 108, 123]. Предлагаемый метод свободен от отмеченных недостатков: он позволяет сравнительно легко и просто с помощью ЭВМ преодолеть возникающие трудности. Основная идея метода заключается, во-первых, в логическом представлении (в терминах предикатов-признаков) понятий, формируемых в процессе обучения РТК в виде проблемно-ориентированных аксиом классов, и, во-вторых, в организации процесса распознавания (включая режимы идентификации, классификации и анализа объектов сцены) с помощью алгоритмических средств поиска логического вывода. Метод хорошо приспособлен для реализации на ЭВМ, причем программирование логических алгоритмов формирования понятий и распознавания сцен удобно осуществлять как на языках высокого уровня (типа "РЕФАЛ", PL/1 и др.), так и на языке логического программирования "ПРОЛОГ". Управляющая система РТК, реализующая этот метод, обладает важным свойством: она легко дообучается новым понятиям и адаптируется к изменяющимся производственным условиям, что позволяет надежно распознавать на сцене как известные, но сильно преобразованные объекты, так и совершенно новые классы объектов. В режиме обучения РТК предъявляются в различных ракурсах эталонные объекты (например, детали или инструменты) из разных классов. При этом автоматически строятся описания классов в виде формул исчисления предикатов А1(ω), ..., АM(ω), связывающих исходные предикаты-признаки ξ1,… ,ξn и принимающих истинные значения по меньшей мере на элементах обучающей выборки. Структура, свойства и способы построения таких формул, называемых аксиомами классов, подробно описаны выше. Здесь остановимся только на одном важном свойстве этих аксиом - их инвариантности по отношению к заданной совокупности преобразований. Дело в том, что на практике объекты из каждого класса часто отличаются только преобразованиями g из некоторой фиксированной совокупности преобразований G. В других случаях для по-рождения всех элементов некоторого класса Ωk может оказаться недостаточно одного эталонного элемента из этого класса и может потребоваться некоторое множество "эталонов", соответствующее, например, существенно различным ракурсам восприятия объектов из данного класса. В подобных случаях естественно потребовать, чтобы РТК одинаково классифицировал объекты, отличающиеся допустимыми преобразованиями g из G. Поскольку конкретное преобразование g, подействовавшее на распознаваемый объект, обычно неизвестно, то РТК, по существу, является адаптивным по отношению к совокупности возможных преобразований. При конструировании распознающей системы такого РТК весьма важно выбрать исходные предикаты-признаки так, чтобы они были инвариантны относительно допустимых преобразований. Смысл такой инвариантности заключается в том, что предикаты-признаки должны принимать одни и те же значения на объектах, отличающихся друг от друга допустимыми преобразованиями. Однако одной инвариантности признаков мало. Нужно еще, чтобы совокупность инвариантных признаков обладала определенной полнотой, а именно: они должны обеспечить возможность восстановить любое конкретное преобразование g из G, отличающее распознаваемый объект от эталонного. Важно отметить, что если аксиомы классов строятся на основе инвариантных предикатов-признаков, то они сами также будут инвариантны относительно совокупности допустимых преобразований. Если же система предикатов ξ1, ...,ξn полна по отношению к совокупности преобразований G, то синтезированные из них аксиомы классов обладают следующими свойствами: во-первых, они дают полное описание классов, инвариантных относительно G; во-вторых, они позволяют найти неизвестное преобразование g∈G, отличающее данный объект от эталонного. Благодаря этому обеспечивается принципиальная возможность безошибочного распознавания классов объектов, инвариантных по отношению к заданной совокупности преобразований при обучении РТК по выборке минимального объема - по одному эталонному представителю из каждого класса. В режиме распознавания перед РТК могут возникнуть задачи трех типов: идентификация, классификация и анализ. Цель идентификации заключается в том, чтобы РТК отыскал на изображении сцены объект данного класса. Целью классификации является выяснение вопроса: объекты каких классов представлены на изображении сцены. Наконец, цель анализа заключается в выяснении того, объекты каких классов и в каком количестве имеются на изображении сцены, а также в определении их расположения, ориентации и т. п. Рассмотрим сначала задачу идентификации на сцене объекта данного класса. Пусть - некоторая рабочая сцена в поле зрения РТК. Обозначим через z(ω) ее логическое описание в терминах предикатов-признаков, имеющее вид (7.10) или (7.11). Предположим, что требуется идентифицировать на данной сцене объект k-го класса. Решение этой задачи в рамках исчисления предикатов формально сводится к выводу формулы (7.18)
Смысл утверждения этой формулы заключается в следующем: сцена , имеющая логическое описание z(ω), включает некоторый объект ω, на котором верна аксиома Ak(ω). Это позволяет идентифицировать объект k-го класса. Для автоматического решения этой задачи можно воспользоваться описанным выше методом резолюций. Основное достоинство этого метода применительно к рассматриваемой задаче распознавания заключается в том, что объект ω полностью идентифицируется и в результате "означивания переменных" в процессе поиска логического вывода отделяется от остальных объектов на изображении рабочей сцены. Это позволяет, в частности, вычислить параметры преобразования g, отличающего идентифицированный объект от эталонного. Задача классификации объектов на рабочей сцене сводится к многократному решению задач идентификации для каждого класса объектов. При этом последовательно выясняется, имеются ли на данной сцене объекты первого, второго и других классов. Формально классификация сводится к логическому выводу следующих формул: (7.19)
Задача анализа рабочей сцены также сводится к многократному решению задачи идентификации для всех классов объектов. Отличие ее от задачи классификации заключается в том, что в процессе анализа должны быть идентифицированы и выявлены все объекты, составляющие сцену. Поэтому по мере идентификации того или иного объекта предметные константы, определяющие этот объект, исключаются, Одновременно из описания сцены z() вычеркиваются все предикаты, которые входят в описание идентифицированного объекта. Эта операция сводится к "стиранию" изображения идентифицированного объекта из оперативной памяти, где хранится изображение рабочей сцены. Для оставшейся части анализируемой сцены вновь решается задача идентификации, пока не будет получен ответ, что объектов данного класса на сцене нет. Тогда описанная процедура идентификации повторяется для нового класса объектов. В результате такого логического анализа выделяются все объекты, составляющие рабочую сцену, и указывается: к какому классу каждой из них принадлежит, где расположен и как ориентирован. Таким образом, в рамках описанного метода разделение рабочей сцены на отдельные объекты разных классов происходят в процессе их распознавания. В этом заключается одно из принципиальных отличий и преимуществ данного метода от других известных, которые сводятся либо только к разбиению сцены на объекты (без каких-либо попыток к их распознаванию), либо к распознаванию заранее выделенных объектов. Общая схема описанной адаптивной системы логического распознавания рабочих сцен представлена на рис. 7.1. Здесь штриховыми стрелками обозначены каналы передачи информации в режиме обучения РТК, а сплошными - каналы передачи информации в режиме распознавания, т. е., в процессе идентификации, классификации или анализа сцены. Продемонстрируем особенности логического метода распознавания на примере решения задачи автоматического анализа сцен по их контурным изображениям. Изображение со будем задавать матрицей координат вершин на плоскости изображения и матрицей связности, элементы которой определяются следующим образом: mi,j=1, если из i-й вершины выходит ребро, оканчивающееся в j-й вершине, и mi,j=0 - в противном случае. Таким образом, если на изображении сцены имеется N вершин, то она задается N2≠2N числами. Рис. 7.1. Адаптивная система логического распознания рабочих сцен Для простоты изложения метода ограничимся случаем, когда объекты, составляющие рабочую сцену, являются многогранниками. Как показано в работе [44], при указанных ограничениях на изображении сцены могут встретиться вершины только следующих четырех типов:
Определим исходные предикаты-признаки таким образом, чтобы каждой вершине на изображении сцены соответствовал предикат, указывающий ее тип. Такие предикаты задаются соотношениями, представленными на рис. 7.2. По матрице координат и матрице связности легко определить тип каждой вершины и порядок аргументов в соответствующем предикате. Рис. 7.2. Исходные предикаты контурных изображений Рассмотрим для определенности сцены, состоящие из объектов четырех классов, изображения которых в различных характерных ракурсах представлены на рис. 7.3. В режиме обучения РТК предъявляются отдельные объекты с указанием, к какому классу они относятся. По каждому изображению j- объекта из k-го класса автоматически строится его логическое описание zkj(ω) (аксиома k-го подкласса). Так как выбранная система предикатов полна (в смысле однозначности проекций вершин многогранников), то нет необходимости выписывать все предикаты для каждой вершины изображения, - достаточно вычислить предикат, истинный для данной вершины. Этим обеспечивается совпадение ранга конъюнкции логического описания объекта с числом вершин на его изображении. Аксиомы классов строятся по обучающей выборке. Поставим перед РТК задачу распознавания сложной сцены , изображенной на рис. 7.4. Решая задачу идентификации объекта 1-го класса, распознающая система РТК выводит формулу (7.18) при k=1. Согласно дереву логического вывода, представленному на рис. 7.5, получаются следующие результаты: на изображении сцены z() имеется объект 1-го класса, причем система подстановок в процессе распознавания позволяет однозначно восстановить изображение идентифицированного объекта (на рис. 7.4 оно выделено жирной линией). Решая задачу классификации объектов рабочей сцены на рис. 7.4, РТК выделяет четыре класса объектов. В результате анализа сцены РТК легко выделит и распознает все объекты. Для распознавания же класса заслоненных объектов нужны специальные методы (см., например, [9, 119]).
Рис. 7.3. Изображения объектов из обучающей выборки Рис. 7.4. Изображение сложной сцены и ее кодирование Рис. 7.5. Процесс логического распознавания Таким образом, описанные средства логического распознавания позволяют РТК осуществлять автоматический анализ сложных рабочих сцен по их контурным изображениям. Они применимы также и в тех случаях, когда изображения объектов и сцен заданы в виде матрицы яркости. При этом достаточно в качестве исходных предикатов-признаков взять трехместные предикаты, первыми аргументами которых являются соответствующие номера столбца и строки матрицы яркости, а третьим - градация яркости данного элемента изображения. Использование и программная реализация на управляющей ЭВМ алгоритмов логического распознавания позволяют существенно расширить функциональные (интеллектуальные) возможности адаптивных РТК. Острая практическая потребность в таких РТК с элементами искусственного интеллекта возникает сегодня во многих ГАП. |
|
|||
© ROBOTICSLIB.RU, 2001-2019
При копировании материалов проекта обязательно ставить ссылку на страницу источник: http://roboticslib.ru/ 'Робототехника' |