Устройство для распознавания речевых образов

Номер патента: 290186

Автор: Фатеев

ZIP архив

Текст

явлено 28 1(11,1969 ( 1351350(18 исоединением заявки М 1 риоритеКомитет ло деламзобретениб и открытийлри Совете МинистровСССР.391.19 (088.8 Опубликовано 22.Х 1.1970. Вюлл Дата опубликоваццп описания 18 ген ь,Ъза 197 1.1971 Авторизобретения Заявител УСТРОЙСТВ( РАСПОЗНАВА 11 И Е ЕВЫХ ОБРАЗОВ 1Изобретение относится к области распозц- вация речевых образов и может быть использовано в качестве устройства ввода речевых команд в ЭВМ.Известны устройства для распознавания Оечевых образов, но они не учитывают существующую нестабильность речевых образов. Под нестабильностью здесь понимаются изменения в речевом образе, наблюдающиеся при его повторном произношении одним и тем )ке диктором, при произношении его рзлцпьымц дикторами (например, мужчиной ц женщицой), дефекты речи, проглатывание фонем и т. д.В связи с нестабильностью речевых образов при разработке устройств для их распознавания возникают такие затруднения, как нормализация по длительности и установление Объективных признаков образов, Отсутствие четко установленных обьектпвцых крцтерцеь разграничения элементов речевого потока и отсутствие в этом потоке четких стационарных участков затрудняют сегментацию, т. е, выделение элементов речи (фоцем, слогов),Известно устройство, выдающее заключение о принадлежности воспринятого речевого сигнала данной команде по сочетанию распознанных фонем (распознает десять цифр, произнесенных голосом), В нем распознавание производится по огибающим частотных спектров фонем. Эги огибающие выявляют формацтцые области, цх шцрцпы и средние частоты формант, а также дают распределение средньй плотности по частотам.Устройство содержит анализатор мгновенного спектра и два распознающих каскада.состоящих пз последовательно соедццеш 1 ых матриц эталонов, блоков распознающих эле- .1 нтов и О:10 ка индикации. Для каждой фо немы путем многочисленных проб на опытевыбираются эталошцде изображения спектров, по которым настраивают аппаратуру. Распозцаваьше этик фонем осуществляется с гомощью матрицы переменных о)и еских со 1,ротцвленцй. Входные сигналы подвергаютсякомпрессии и тоцкоррекциц с цлью нормировки. Недостатком известного устройства являет ся то, что оно це у штыват нестабильнотьречевых образов ц последовательность слдованця фонем. Кроме того, оцо це производит сегментацию речи.Прц существующей нестабильности распознаваемых образов выделение максцмальцдго глгнала является неприемлемым, так как црц э Ом 0 принадлежности фонем делаОт 5 Окончательные заключения, хотя в дальцецшсм этц заклОчеыия могут Оказатьс 51 Ошпбоць 1- зо мц. Ошибка прц предварительном анализе вданном устройстве неизбежно приведет к ошибочному результату на его выходе.Отсутствие сегментации фонем приводит к ложным срабатываниям реле первого каскада (например, к последовательному срабатыванию двух реле при произнесении диктором одной фонемы или срабатыванию реле под воздействием смычных звуков), что приведет к ошибкам при распознавании,Последовательность поступления фонем является важным фактором при распознавании. Так, многие современные устройства по распознаванию речевых образов учитывают информацию о вероятностной последовательности фонем с помощью блока использования лингвистической информ аццц, су ц 1 естве 1 п 1 о увеличивающего надежность распознавания,Целью изобретения является увеличение количества распознаваемых образов и надежность их распознавания, Для этого делается попытка при предварительном анализе образа, т. е. при распознавании мелких элементов речевого потока (фонем и небольших звукосочетаний), не делать окончательного заключения о принадлежности данного элемента к данному классу, а запомнить все классы, к которым с определенной вероятностью относится данный образ, причем запоминание производить с индексом вероятности принадлежности данного элемента к данному классу. Таким ооразом, заменяется пороговая логика типа да - нет (О или 1) непрерывной логикой ( - 1,0) и О+1) и учитывается корреляция сигнала во времени,Указанная цель достигается тем, что устройство дополнительно содержит матрицу эталонов дифференциальных признаков, блок выделения дифференциальных признаков и матрицу эталонов фонем, причем вертикаль. ные шины матрицы эталонов дифференциальных признаков подкл 1 очены к выходам анализагора мгновенного спектра, а горизонтальные - ко входам блока выделения дифференциальных признаков, горизонтальные шины матрицы эталонов фонем подключены к выходам блока выделения дифференциальных признаков, а вертикальные - к тормозящим входам распознающих элементов, выходы которых через переменные резисторы подключены к возбуждающим входам последующих распознающих элементов, образуя последовательные цепи цо числу распознаваемы.; команд, выходы последнего элемента каждой цепи подключены ко входам блока индикации.Вместо реле, обладающих пороговой характеристикой зависимости выходного сигнала от входного, в устройстве используются цейронообразные элементы (называемые далее нейронами) с характеристикой, имеющей зону нечувствительности, зону усиления и зону насыщения. Такая характеристика распознающих элементов позволяет получать на выходе его сигнал, пропорциональный вероятцостц наличия в распознаваемом образе данного элемента речевого потока,5 10 15 20 25 30 35 40 45 5 Э 55 60 65 Матрицы переменных омических сопротивлений первого каскада настроены так, что нейроны первого каскада распознают не фонемы, а дифференциальные признаки фонем.что делает анализ речевого образа более гиоким и позволяет в дальнейшем более полно анализировать имеющуюся информацию.Выражение нейрон распознает или ней.рон выделяет тот или иной элемент речевого потока означает то, что на выходе этого нейрона появляется сигнал при появлении на входе всего устройства того элемента речевого потока, который дол 1 кен распознавать данный нейрон,Для выделе 1 гия дифференциальных признаков с положительным и отрицательным знаками в устройсгве имеются две группы нейронов первого каскада и две соответствующие матрицы переменных омическцх сопротивлений.Нейроны второго каскада имеют по два входа; возбуждающий и тормозящий, Сигнал на выходе каждого из нейронов второго каскада, производящих распознавание фонем, це исчезает по прекращении входного сигнала (по окончании фонемы), а убывает во времени по экспоненте с некогорой постоянной времени. Такая кратковременная память о принадлежности воспринятого звука к данной фонеме позволяет учитывать данные предварительного анализа при окончательном анализе образа и делать исправления ранее допущенных ошибок.Нейроны второго каскада соединяются последовательно группами, каждая из которых образует цепочку, Сигнал в таких цепочках продвигается тактами от одного нейрона к другому согласно последовательности расположения фонем в слове.Для каждого слова (команды), которое распознает усгройство, необходимо наличие своей отдельной цепочки. Описанные нейронные цепочки позволяют использовать информацшо о порядке следования фонем, решают вопрос сегментации и нормализации по длительности, реализуют использование усгройством лингвистической информации.При выходе из строя какой-либо связи или нейрона первого каскада все устройство це выйдет пз строя, а только снизит надежность распознавания, Если ке произвести перенастройку сопротивления матриц, то можно практически ликвидировать полученные поврежденияя.При выходе из строя одного из нейронов второго каскада устройство перестанет распознавать только одно слово (команду), в распозна 1 ощую цепь которого входил вышедший цз строя нейрон. Таким образом достигается достаточно высокая надежность всего устройства цри низкой надежности составляющих его элементов.Выбор наиболее вероятного решения производится устройством сразу без переброса всех возможных вариантов путем пропускания сиг 290186нала по правильнымпутям и гашения его в остальных цепочках,На чертеже изображена блок-схема устройства, где:1 - вход устройства; 2 - анализатор мгно. венного спектра, который представляет собой набор полосовых фильтров; 3, 4 - матрицы э 1 алоиов дифференциальных признаков;5 - блок распознающих элементов первого каскада (выделяет дифференциальные признаки); б - дополнительный блок выдсления дифференциальных признаков; 7, 8 - матрицы эталонов фонем; 9 - блок распознающих элементов второго каскада, 10, 1, , и - распознающие элементы (нейронные цепи): 12,.13, , к - переменные резисгоры; 14 - блок индикации.Сигнал со входа 1 поступает в анализатор 2 мгновенного спектра, которьш представляет собой набор полосовых фильтров. С точки зрения как простоты технического выполнения, так и полноты описания наиболее целесоооразно разбиение на 12 - 1 б полос, выбранных в соответствии со шкалой Кенига. Косвенным подтверждением этого являются результаты опытов по создашио полосовых вокодеров.Выходы фильтров подсоединяются к двум матрицам 3 и 4 переменных омических сопротивлений. Горизонтальные шины этих матриц (строки матриц) подключены ко входам двух блоков 5 и б выделения дифференциальных признаков первого каскада. Выходы нейронов, входящих в блоки выделения дифференциальных признаков, соединяются с горизонтальными шинамп матриц 7 и 8 второго каскада, которые являются матрицами эталонов фонем. Вертикальные шины этих матриц подключены ко входам блока 9 распознаю.цих элементов второго каскада. Шины матрицы 7 подключены к возбуждающим входам распознающих элементов, а шипы матрицы 8 - к тормозящим входам,Цепи нейронов 10, 11, , п образуются за счет резисторов 12, 13, , к, передающих сигнал с выхода одного нейрона на возбуждающий вход другого. Величиной сопротивления резисторов 12, 13 , к регулируется амплитуда возбуждения, подаваемого с данного нейрона на последующий в цепи.Количество цепей нейронов второго каскада определяется количеством распознаваемых устройством команд (речевых образов). Для распознавания каждой команды необходимо столько нейронов одной цени, сколько фонем содержит данная команда,Выход последнего в цепи нейрона подсоединяется к одному из входов блока индикации 14, который определяет выход с максимальным сигналом, соответствующая опреле. ленной команде.При произнесении диктором некоторой фонемы распознаваемой команды звуковые колебания, преобразуясь в микрофоне в электрические, после усиления и нормализации их по амплитуде поступают на вход 1 полосовых 5 10 15 20 25 30 35 40 45 53 55 60 55 6фиро анализатора 2 сра. Анализатор спектра разлагает колебания в мгновенный спектр, который представлен в устройстве в виде сочетания сигналов различнои амплитуды на выходах полосовых фильтров анализатора спектра.Выделеиие дифференциальных признаков производится блоками 5 и б в результате анализа мгновенного спектра с помоцтью матриц 3 и 4 эталонов путем сравнения полученного спектра с эталоиыми значениями, которые находягся путем проб иа некотором числе предварительных опытов. По ним настранва.отся матрииы эталонов, Например, для выделения дифференциального признака звонкости, которьш характеризуется наличием гармонических колебашш на низких частотах. необходимо уменьшить величины сопротивлений соответствующей строки матрицы на ниж. них частота.; и увеличить иа высоких,Для выделения признака гласности, который характеризуется наличием общего уровня энергии во всем спектре. необходимо, чтобы сопротивления соответствующей строки матрицы имели некоторое среднее значение. Тогда в первом случае сигнал иа строке появится при наличии сигналов значительной амплитуды на выходах фильтров низкой частоты, а во втором - при наличии достаточно больших сигналов на выходах всех фильтров, Чем больше полученный спектр совпадает с эталонным значением спектра некоторого дифференциального признака, тем больше вероятность того, что в полученном звуке имеется данный дифференциальный признак, тем большая амплигуда на выходе соответствующего нейрона первого каскада, Таким образом, сигнал на выходе одного из нейронов блока 5 или 6 пропорционален вероятности наличия данного дифференциального признака в принятом речевом сигнале.Анализ сигналов на выходах блоков 5 и б выделения дифференциальных признаков производится нейронами второго каскада с помощью матриц 7 и 8.Сопротивления матрицы 7 настраиваются так, чтобы при появлении на выходе неироиа блока 5 сигнала о некотором дифференциальном признаке этот сигнал проходил на возбуждающие входы соответствующих нейронов блока 9, распознающих фонемы, для которы.;. этот признак характерен, с большои амплигудой, т. е, чтобы этот сигнал проходил через чалые сопротивления матрицы 7. Если выделенныи признак не характерен для неко- горой фонемы, то сигнал о его появлении не должен попасть на возбуждающие входы соответствуюших нейронов блока 9, т. е, соответствующие сопротивления матрицы должнь 1 иметь большую величину.В матрице 8 сопротивления настраиваются противоположным образом, При появлении дифференциального признака, характерного для фонемы, сигнал об этом признаке не попадает на тормозящий вход соответствующе.го нейрона, а при появлении нехарактерного признака - воздействует на тормозящий вход этого нейрона с большей амплитудой.Е 1 аирмер, дифференциальпьй признак гласности должен вызывать торможение пя всех нейронах второго каскада 10, 11,и, распознающих согласные, и возбуждение па всех нейронах 10, 11, ,. и, распознающих гласные фонемы, Чем больше полученное сочетание сигналов па выходах неиронов блоков 5 и б выделения дифференциальных признаков совпадает с некоторым эталонным зця чением, тем большая вероятность наличп даной фонемы в распознаваемом речевом сбразе в рассматриваемый момент времени и тем значительнее сигнал возбужления превь шает сигнал торможения и соответствующем нейроне блока 9, Лмплитуда сигнала на вьхо. де нейронов 10, 11, , и пропорциональна ве. роятности того, что поступивший на вход уст. ройства речевой сигнал есть фонема, на распозназанпе которой настроены сопротивления вертикальных шиц матриц 7 и 8 этого цейроаС выхода нейрона 10 (илп 11) через иере. мепный резистор 12 (соответственно 13) сигнал, спадая по экспоненте во времени, поступает на столбец матрицы 7, соедиеньй с последующим в цепи нейроном в течение некоторого времени (0,2 - 0,3 сек) после окончания данной фонемы.Сопротивления матриц 7 и 8 подобраны так, что под воздейсгвием первой фонемы команды достаточно большой сигнал может по. явиться только на первых в цепи нейронах. Остальные нейроны цепей могут выдавать сигнал значительной амплитуды только прп о- овреленном поступлении сигналов кя( о Г предылущего в цепочке нейрона через резисторы 2, 13, , к, так и со столбцов марпц 7 и 8.Распознавание команд условно мо кно представить тактами, которые следуют согласно последовательности поступления фонем, Фонема, пришедшая первой, вызове г сигнал па выходах первых в цепочках нейронов, настроенных на ее распознавание, Фонема, пришедшая второй, заставит выдать сигнал только ца вторые в цепях нейроны, которые, во-первых, получают возбуждение от предыдущих и, во-вторых, настроены на восприятие этой второй фонемы. Лналогичньш процесс происходит до нейрона, последнего в цепи, выход которого подсоединен к одномуиз входов блока индикации 14.Для учета нестабильности распознаваемыхобразов настройку переменных резисторов 12,5 13, , к и матриц 7 и 8 можно произвеститак, что даже при проглатывянии одной изфонем или сильном ее искажении сигнал в цепочке не затухает, а лишь уменьшает своюамплитуду.10 Ллтельность кратковременной памятиподво;яет воздействовать не только на после;.,уоший нейрон цепочки, но и через этот второп нейрон воздействовать на третий в цепочке, т. е. как бы через олин нейрон, В этомотношении продвижение сигнала по цепочкампротекает не тактами, а скорее лавинообразши когда по одним путям сигнал продвигается, все усиливаясь, а по другим - ослабеваяили под воздействием тормозящих входов20 резко обрываясь,Гели поданной на вход команде нет соответствуощей цепи, то на блоке индикации цезафиксируется ни одной команды, т. е, устройство не распознает команду.75Предмет изобретенияУстройство лля распознавания речевых образов, содержащее анализатор мгновенногоспектра и два распознающих каскада, со 30 стоящих из последовательно соединенных матриц эталонов и блоков распознающих элементов, и блок индикации, отличшощееся тем,,:то, с целью увеличения надежности распознавания, оно дополнительно содержит мат 35 ршу эталонов дифференциальных признаков,блок выделения дифференциальных признаков и матрицу эталонов фонем, причем вертикальные шины матрицы эталонов дифференциальных признаков подключены к выхо 40 дям аалзагоря мгновенного спектра, я горизонтальные - ко входам блока выделениядиффереца,ьшях признаков, горизонтальные шины матрицы эталонов фонем подключены к выходам блока выделения лифферец 45 ппальных признаков, а вертикальные - к тормозящим входам распознающих элементов,выходы которых через переменные резисторыолключены к возбуждающим входам последующих распознающих элементов, образуя50 последовательные цепи по числу распознаваемых команд, выходы последнего элементакаклой цепи подключены ко входам блокаиндикации,здат.134 Заказ 242/17 Тираня 480 ПодписноеНИИПИ Комитета по делам изобретений и открытий при Совете Министров СССРМосква, Ж, Раушская наб., д. 45Типография, пр Сапунова, 2

Смотреть

Заявка

1351350

М. К. Фатеев

МПК / Метки

МПК: G10L 15/02, G10L 19/02

Метки: образов, распознавания, речевых

Опубликовано: 01.01.1971

Код ссылки

<a href="https://patents.su/5-290186-ustrojjstvo-dlya-raspoznavaniya-rechevykh-obrazov.html" target="_blank" rel="follow" title="База патентов СССР">Устройство для распознавания речевых образов</a>

Похожие патенты