Особенности алгоритмов идентификации образов человеком и компьютером Владимир И. Андреев

Вид материалаДокументы

Содержание


Первый главный вывод.
Второй вывод
Третий вывод
Подобный материал:




Особенности алгоритмов

идентификации образов человеком и компьютером

Владимир И. Андреев

Россия, Санкт-Петербург

Февраль 16, 2009

В процессе исследования задачи идентификации речевых сигналов на ЭВМ было установлено, что мозгом человека эта задача решается значительно эффективнее.

И возникло естественное предположение, что в мозгу реализован иной алгоритм решения таких задач. Есть основания полагать, что при идентификации сигналов человеческий мозг использует многоступенчатую схему приня­тия решения, на первом уровне которой работает процедура простого узна­вания путем сравнения входных сигналов со всем множеством ранее накоп­ленных в памяти.

На основании этого вывода был предложен трехуровневый алгоритм идентификации включающий следующие этапы принятия решения [1]:

- первый этап: «Узнавание» - сравнение на «полное» совпадение входного сигнала (в неко­торой системе описания) со всей информацией в памяти системы о сигналах, подлежащих «распознаванию»;

- второй этап: «Опознавание» - при неоднозначном решении на пер­вом этапе, как процедура выявления искомого класса из подмножества, сокращен­ного на пер­вом этапе, но уже используя статисти­чес­кие параметры, накопленные в процессе обучения; - третий этап: «Распознавание» – когда в памяти сис­темы вообще нет данного варианта описания, то есть, система не обучена или «недообучена». На этом этапе должны быть использованы все «классические» вероятностно-статистичес­кие методы, включая процедуру «обнаружение сигнала на фоне шума».

Автором этой работы была детально исследована модель идентификации первого этапа, реализованная в виде технического блока преобра­зования речевого сигнала в код и комплекса программ ЭВМ [2].

Технический блок обеспечивал предварительную «компрессию» аналогового сигнала, преобразование его в дискретный код и сопряжение с ЭВМ.

Программный комплекс системы включал две основные программы: «Фор­мирование дифференциальных признаков описания» и «Обу­чение-узнавание».

Первая программа преобразовывала дискретное представление речевых сигналов в систему двоичных признаков, размерности «m».

Программа «Обу­чение-узнавание», реализованная в виде логического дешиф­ратора, обеспечивала «ассоциативное» запоминание и поиск опи­сания сигналов в памяти ЭВМ, без перебора всего множества материала обучения, представленного в двоичной метрике описания.

При размерности описания каждого «среза» сигнала, равной « двоичных разрядов, в памяти компьютера формировались матрицы «обучения», размерности N х Q,

где: N = - длина матрицы обучения; Q - ширина матрицы обучения (равная числу классов сигнала).

Алгоритм работы программы следующий.

Входной сигнал в «- мерной метрике описания принимался как относительный адрес строки матрицы обучения. Исполнительный адрес получается в результате арифметического сложения базового адреса АБ (адрес начала матрицы обучения) и входного кода описания m. Аисп = АБ + m

На этапе обучения системы в полученной строке матрицы обучения, в разряд, соответствующий i-му номеру класса сигналов, записывается «1», означающая, что данный фрагмент сигнала i-го класса имеет такой вариант представления в метрике признаков описания.

Поскольку каждый реальный сигнал имеет описание, состоящее из К фрагментов (временны´х) параметров, представленных m - мерными кодами, то общее поле обучения содержит К матриц размерности N Q, которые по мере обучения системы заполняются «единицами».

На этапе «узнавания» схема работает аналогично.

По входному сигналу формируется Аисп = АБ + m. Из памяти извлекается строка длиной Q разрядов и проверяется, какие из разрядов «не нулевые».

Номера «нену­левых» разрядов обозначают классы, в которых встречается данный фраг­мент входного сигнала.

Решение об «узнавании» всего сигнала принимается после проверки на совпадение всех «К» признаков описания по следующему алгоритму:

- выбираются строки из всех «К» матриц обучения - Х(Q)i - и полученные частные результаты логически перемножаются Х(Q)1  Х(Q)2  ...  Х(Q)i  Х(Q)k = X(Q)fin.

При этом в результате возможны три варианта ситуаций:

- X(Q)fin = 0 - означающее, что сигнал не принадлежит ни одному из заданных классов или, что система еще не обучена;

- X(Q)fin  0 и, в одном из разрядов строки имеется «1», это означает, что сигнал принадлежит одному конкретному классу – система его «узнала»;

- X(Q)fin  0, но, «1» имеются в нескольких разрядах, что означает - класс сигнала на данном этапе однозначно не определен и требуется перейти на следующий уровень идентификации - опознавание.

В результате испытания модели «Обучения-Узнавания» и анализа полученных результатов, были получены следующие выводы:

Во-первых, процесс накопления информации в памяти ЭВМ идет по закону, близкому к экспоненте и система достаточно быстро «насы­щается». Объем информации, запоминаемый системой, значительно мень­ше, чем поступающий в нее в процессе обучения [2].

Во-вторых, на материале 27 дикторов (мужчин и женщин) было экспериментально установлено, что вероятность «неузнавания» системой сигналов очередного нового диктора убывает по мере обучения системы, изменяясь по закону гиперболы 1/N, где N – количество участво­вавших в обучении системы. Следовательно, принципиально, ее можно научить «узнавать» сигналы с любой, наперед заданной, достоверностью.

В-третьих, описанный выше алгоритм «Обучения-Узнавания» обладает следующими свойствами:

- процесс «узнавания» на ЭВМ не требует высокого быстродействия и происходит практически мгновенно, так как решение принимается после нескольких обращений к памяти и операции логического перемножения промежуточных результатов (про­стейшая функция, легко выполняемая аппаратно или в нейронной сети);

- алгоритм требует памяти большой размерности для организации матриц обучения - полей хранения материала обучения.

Но, как показывает анализ, именно такими свойствами и обладает мозг человека, что и позволяет допустить, что в мозгу человека, видимо, реализо­вана именно такая схема идентификации.

Известно, что в нейронной сети мозга скорость передачи сигналов не превышает тысячи «импульсов» в секунду. Иначе говоря, «быстродействие мозга» на несколько порядков ниже быстродействия обычных компью­теров.

В то же время, информационная емкость мозга очень велика, что и позволяет мозгу осущест­влять идентификацию смыслового содержания слов и фраз из словаря в нес­ко­лько десятков тысяч слов прак­тически мгновенно.

Таким образом, если быть последовательными, следует признать, что наиболее естественно к этим свойствам мозга подходит именно алгоритм узнавания.

Но, как может мозг, при наличии в коре мозга всего 1010 нейронов, хранить всю поступающую информацию, если только один зрительный канал человека в течение 80 лет жизни принимает около 1016 - 1017 бит инфор­мации?

Остальные органы чувств добавляют еще лишь незначи­тельную часть от объема информации зрительного канала, но и одного потока зрительного канала вполне достаточно, чтобы переполнить емкость мозга. Но, этого не происходит, и мозг успешно справляется с задачей. Каким образом?

Чтобы показать, реальность схемы идентификации мозгом вход­ных сигналов, путем детерминированного узнавания, покажем, что воз­можна такая схема организации памяти, при которой информационная емкость системы (в частности, мозга) на несколько порядков превышает число отде­льных элементов памяти (нейронов в коре головного мозга) и даже во много раз превышает объем информации, поступающей в мозг на протяжении всей жизни.

Известно, что нейроны - элементы нервной системы и мозга, имеют один выход (аксон) и множество входов. В коре головного мозга они образуют сети, состоящие из многих совокупностей, так называемых «ансамблей». Нейроны в таких ансамблях могут иметь до сотен входов (синап­сов), через которые они устанавливают связи друг с другом и с другими ансамблями.

Полагаем, что процесс обучения и накопления информации в мозгу заключается в том, что в нейронных сетях в процессе развития организма, при многократном повторении входных сигналов (обучении), образуются и закрепляются новые синаптические связи и нейрон, видимо, таким образом накапливает информацию. Следовательно, нейрон головного мозга это вовсе не аналог одного элемента памяти компьютера, как считалось ранее.

Нейроны коры головного мозга это целые сети, которые способны при большом числе синапсов (входов нейрона) запоминать, накап­ливать и хранить в одном нейроне тысячи бит информации. Покажем возможность реализации нейронной сети мозга, на примере аналогичной сети - схемы организации памяти на маг­нитных (фер­ритовых) сердечниках в старых ЭВМ (см. рис.).



Рис. 1 Варианты организации памяти в ЭВМ

Левая схема - организация «оперативной» (ОЗУ) памяти «матричного типа», позволявшая записывать, считывать и стирать любую информацию.

Правая схема - реализация «постоянной» (ПЗУ) памяти ЭВМ, позволявшая только считывать информацию, «записанную» в нее при создании.

Как явствует из алгоритмов работы, вторая схема более «прими­ти­вна», так как может выполнять лишь одну функцию - хранить инфор­мацию и выдавать ее по запросу. Но, она более экономична с точки зрения затрат энергии и расхода элементов памяти.

В ОЗУ объем информации равен количеству элементов памяти - n, а количество информации, которое может хра­ниться во второй системе (ПЗУ) на тех же n элементах, равно n .

Как показывают исследования функциональных возможностей моз­­га, именно такими свойствами он и обладает. У мозга низкие энергозатраты и информация в мозгу хранится постоянно (оперативно не сти­рается). А это подтверждает возможность организации нейронной сети мозга по функцио­нальным возможностям подобной схеме орга­низации ПЗУ ЭВМ.

На основании этого вывода произведем оценку информационной емкости памяти мозга по той же методике, что и оценка памяти ПЗУ.

Предполагая организацию сети нейронов в коре мозга аналогичной организации (ПЗУ), считаем, что запоминание и хра­нение информации осуществляется ансамблями по n нейронов в ансамбле.

Каждый ансамбль может хранить объем информации , бит.

Число ансамблей Nan в общем поле памяти из Nn нейронов будет (1)

Суммарная емкость данных, которые могут быть запомнены в поле памяти , определится как (2)

Предположив, для простоты, что все ансамбли имеют одинаковую размерность, получим возможную емкость памяти в следующем виде

и окончательно (3)

Принимая, что общее число нейронов в коре мозга 1010, допускаем, что для запоминания информации используется только 1 % нейронов, то есть Nn = 108.

Будем считать, что остальные 99 % нейронов мозга участвуют в логической обработке, осуществляя «дешифрацию» входных сигналов и организуя связи ансамблей нейронов памяти с аналитической областью мозга.

Тогда, при Nn = 108 и размерности ансамбля n = 20, емкость памяти составит

I = 108  220  108  106  1014 бит.

Однако в реальной структуре мозга известны ансамбли из 100 и более нейронов. Поэтому, с учетом такой возможности ансамблей мозга, реальная емкость мозга может достигать величины 1020 - 1030 бит, что в миллионы раз больше, чем это требуется для хранения информации, получаемой человеком в течение жизни всеми органами чувств.

Следовательно, имеющиеся данные о количестве нейронов в коре мозга при описанной схеме хранения информации вполне могут обеспечить информационную емкость для хранения не только всей информации, пос­тупающей через все органы чувств на протяжении жизни человека, но и некой «дородовой» (наследственной) информации, иногда проявляющейся у некоторых людей в виде «памяти» о событиях, в которых данный человек принципиально не мог присутствовать.

Какие выводы можно сделать в завершение прове­денного анализа?

Первый главный вывод. Рассмотренную схе­му идентификации сигналов в мозгу человека можно считать реальностью.

Мозг, в отличие от компьютера, рабо­тает по другому алгоритму. Он ничего не вычисляет, а только запо­минает новую инфор­мацию и извлекает из памяти то, что ему было уже когда-то предъя­влено ранее.

Мозг - это не арифмометр, а огромный дешифратор, при­водящий вход­ные сиг­налы от разных органов к однооб­разной струк­туре, в комплексе с запоминающим устрой­ством, по схеме ассо­циативной «записи», хранения и поиска информации.

Второй вывод. Для успешной реализации технических систем идентификации образов любого типа, они должны строиться по аналогии с мозгом и на первом этапе должен исполь­зоваться алгоритм «узна­вания» по описанной схеме.

Третий вывод. Используя трехуровневую схему идентификации, включая уровень вероятностно-статистического «распознавания», можно построить систему, спо­собную к самообучению (самосовершенствованию).

Сигнал, «неузнанный» технической системой на первом уровне, после его «распознавания» на третьем уровне, может быть запомнен в поле памяти «обу­чения». Повысив свой уровень «обученности», в дальнейшем система идентификации будет реже обращаться к высшему уровню принятия решения, на основе длительной и сложной процедуры.

Литература

1. Андреев В.И. Концептуальная модель автоматической классификации речевых сигналов. Тезисы XI Всесоюзной школы-семинара АРСО-11. Ереван 1983. с.385.

2. Андреев В.И. Некоторые свойства автоматической распознающей сис­темы, построенной по принципу узнавания речевых сигналов. Тезисы докладов и сообщений 12-го Всесоюзного семинара “Автоматическое распознавание слуховых образов”. Киев-Одесса 1982. Ч.1, с.6-8.