Способ обнаружения пауз в речевомсигнале
Похожие патенты | МПК / Метки | Текст | Заявка | Код ссылки
Текст
ОП ИСАНИЕИЗОБРЕТЕН ИЯК АВТОРСКОМУ СВИДЕТЕЛЬСТВУ н 836656 Союз СоветсимкСоцнвпнстичесиикРесп 1 тбаии) 2797642/18-10 Заявлено 1 7.79аявки 0 1. 1/04 присоединением фАвркткввкйй ССС вв йвлкю взк в вткрмтв,06, 81, Бюллете 3) УДК 615 .47(088,8) 2 Дата оп писания 09. 06. 8 ован Князев,Богино.М. ГомжиВ.А. Та ки АН Укр бер) Заявнтел ина инсти рде ПОСОБ ОБНАРУЖЕНИЯ ПАУЗ В РЕЧЕВОМ СИГНАЛЕ на проогогим. к областиользованоразработкпознаваниом Изобретение относится к области приборостроения, а именно акустики, и может быть исп в кибернетике и связи при систем автоматического рас ния речевых сигналов.Известен способ обнаружения пау в речевом сигнале, при использовании которого паузу в речевом сигна ле можно обнаружить при анализе ег описания полученного путем формирования асимметричности огибающей речевого сигнала 1.11.Однако 1 во-первых, помехоустойчивость вьщеления пауз в речевом сигнале по известному способу остается по-прежнему невысокой. Вовторых, невозможность формирования этими способами сигнала не позволя ет испольэовать технически легко выделяемые моменты достижения огибающей своего нулевого уровня в качестве признаков пауз в речен сигнале, так как временная огибающа в этом случае изменяет знак тивоположный и при смене одн группового признака фонем друНаиболее близким по своей тех ческой сущности к описываемому является способ обнаружения пауз в речевом сигнале, использующий коррекцию спектральных характеристик,речевого сигнала, создание в нем фазовых сдвигов, сложение этого сигнала с амплитудно-частотным откорректированным сигналом, ра дельное детектирование положительных и отрицательных полуволн и их алгебраическое сложение 121,Недостатком известного способа является трудность создания фазовых сдвигов одновременно во всем частотном диапозоне речевого сигнала, поэтому его огибающая будет иметь "информационную" полярность при наличии в речи лишь ограниченного числа групповых признаков, фоне например только тональных ипи в со836656 4 слова, произнесенного на фоне. речевой помехи (речь мешающего диктора, находящегося на расстоянии 50 см от микрофона).Для более помехоустойчивого обнаружения пауз в речевом сигнале обесЧпечивают минимальный коэффициент усиления входного сигнала, позволяющий 10 Производят компрессию усиленного сигнала (например, по логарифмическо 20 и высоких (4-8 кГц), осуществляя подь 25 ственно, Кроме того, необходимо произвессоставляющих ( возможные их величиныв пределах 15-20 ) для полученияОавтосимметрии сигналов, осуществитьразделение сигналов этих областейна положительные и отрицательные повать полученные полуволны, каждую сосвоим весовым коэффициентом (значесигнал подвергаютчастотно-зависимо 40 во-первых, ось симметрии сигналасдвигают фиксированно на 30-357 всторону, совпадающую со знаком полярности выделяемой автоасимметрииалгебраической суммы полуволн фазосдвинутых сигналов. Во-вторых,в меньшей полуволнепроизводят амплитудно-зависимое дифференцирование, осуществляя, таким образом, не 50 четании с,сонорными, или же толькошумных фонем. В остальных случаяхогибающая будет иметь противоположную, помеховую полярность. Известнымспособом нельзя получить полную,содержащую все звуки речи, помехоустойчивую временную огибающую речевого сигнала, следовательно, некоторые паузы не могут быть надежно обна- проводить его дальнейшие преобраружены на фоне маскирующей акустичес- зования и внешнее регулирование кокой помехи, спектральный состав ко- эффициента усиления с перекрытием неторой вызывает появление "помеховой" менее, чем в два раза.полярности огибающей,Целью изобретения является повышение надежности обнаружения пауз в ре му закону) для обеспечения динамичевом сигнале. ческого диапазона 42-45 дБ; произУказанная цель достигается тем,водят коррекцию спектральных харакчто в способе обнаружения пауз в теристик компрессированного сигналаречевом сигнале, использующем коррек- в перекрывающихся областях низкихцию спектральных характеристик речево- (1,5-3 кГц), средних (2,5-4,5 кГц)го сигнала, создание в нем фазовыхсдвигов, сложение этого сигнала сем спектральных составляющих в укаамплитУдно-частотным откорректиРо- занных областях на 2,8-3,2 дБ/окт;ванным сигналом, раздельное детекти-4,8 дБ/окт, и 6 дБ/окт соответрование положительных и отрицательных полуволн и их алгебраическоесложение, предварительно усиленный ти в этихобластях фазовые сдвигисигнал параллельно с частотно-зависимым усилением и последующим нелинейным преобразочанием подвергают ккомпрессии, затем амплитудной коррекции одновременно в нескольких частотных областях, создают в них фазо- луволны и алгебраически просуммировые сдвиги, разделяют полученные сигналы на положительные и отрицательные полуволны и алгебраически их скла- ния весовых коэффициентов подбираютдывают, а затем регулирующий сигнал ся экспериментально) .суммируют с нелинейно преобразован- Предварительно усиленный речевойным сигналом и фильтруют. В.результате получают регулирующую величину му усилению с возрастанием амплитудыпредварительного усиления речевого на 3 дБ/окт. Затем нелинейно преобсигнала - выходную огибающую, в ко- разовывают этот сигнал, Для этоготорой выделяют точки переходов черезсвой нулевой уровень, определяющиемоменты появления и исчезновения 45пауз в речевом сигнале.На фиг. 1 представлена блок-схема устройства для реализации способа; на фиг. 2 - кривая разности интегралов полуволн выходного сигналанелинейного преобразователя; нафиг. 3 - кривая соотношения инте - линейное увеличение (до н =5-6)гралов полуволн выходного сигнала коэффициента диспропорции (величинуоперационного усилителя, на фикси- отношения) интегралов большой и марованной частоте; на фиг. 4 - оги-. 55 лой полуволн при превышении входнымбающая слова "начало", произнесен- сигналом установленного значения,ного на рабочем расстоянии (15 см) Сущчируют нелинейно-преобразованныйот микрофона беэ акустических помех; сигнал с алгебраической суммой полуна фиг. 5 а, б - огибающая того же волн фазосдвинутых сигналов, Произ36656 20 30 35 50 водят сглаживание суммарного сигнала для получения выходной огибающейречевого сигнала. Используют выходную огибающую для регулированиякоэффициента предварительного усиле"ния, увеличивая его при наличии"информационной" полярности огибающей. Далее выделяют точки переходаогибающей через нуль, фиксируя ихкак моменты появления и исчезновения паузы.В результате проделанных операций получают описание речевого сигнала в виде низкочастотной аналоговой Функции, одна полярностькоторой символизирует наличие распознаваемого речевого сообщения,момент перехода ее нулевого уровняозначает появление обнаруживаемойпаузы, а другая полярность сигнализирует о наличии акустических помех,уровень которых в момент появленияпаузы речевого сигнага на 7-8 дБи более ниже уровня речи распознаваемого диктора,Устройство (фиг. 1) содержитпоследовательно соединенные регулируемый предварительный усилитель1, компрессор 2, корректирующуюсхему 3 с тремя выходами, к каждомуиз которых подключена своя .Фазосдвигающая схема 4, 5 и 6, к выходам ко-торых, в свою очередь, подключеныдетекторные пары 7, 8; 9, 1 О и 11,12 для разделения положительных и отрицательных полуволй. Выходы детекторов 7-12 подключаются, каждый сосвоим весовым коэффициентом, к суммирующему входу операционного усилителя 13, играющего роль алгебраического сумматора с интегрированиемвыходного сигнала. Выход операционного усилителя 13 соединен со входомнуль-органа 14, являющимся выходомустройства, а также с управляющимвходом регулируемого предварительного усилителя 1. Кроме того, к выходурегулируемого усилителя подключенацепочка, состоящая из частотно-зависимого усилителя 15 и нелинейногопреобразователя 16, выход которогосоединен со вторым, дифференциальным,входом операционного усилителя 13. В статике, при отсутствии речевого сигнала на выходе, выходное напряжение операционного усилителя 13, а значит, и нуль-органа 4 равно ну" лю, и коэффициент передачи регули 6руемого предварительного усилителя1 равен минимальному Фиксированномузначению (р=5-10).Работа схемы в динамике,Речевой сигнал поступает с выхода регулируемого предварительногоусилителя 1 на обработку одновременно по двум каналам, В одном каналеречевой сигнал выравнивается,по амплитуде с помощью частотно-зависимого усилителя 15, так как шумныевысокочастотные звуки (4-8 кГц) посравнению с полутональнь 1 ми (2-4 кГц)и особенно низкочастотными (1002000 Гц) звуками имеют низкую интенсивность, После этого он поступаетна нелинейный преобразователь 16,у которого разность интегралов Кположительной и отрицательной полярности выходного сигнала изменяетсянелинейно в зависимости от величинывходного сигнала, т.е, К Ф Г (08).Примерный вид этой зависимости изображен на Фиг. 2. В другом канапе речевой сигнал сжимается компрессором 2, имеющим логарифмическую характеристику, и пос.тупает на корректирующую схему 3, где усиливается в области низких частот на 3 дБ/окт; в области средних - на 6 дБ/окт; в области высоких частот - на 8-9 дБ/окт, Затем сигналы этих областей подаются на фазосдвигающие схемы 4, 5 и 6 для создания оптимальных фазовых сдвигов между гармоническими составляющими внутри выделенных областей с целью получения максимального эффекта автоасимметрии огибающей преобразованного речевого сигнала, после чего сигнал каждой области детектируется парами разнополярных детекторов 7-2. Полученным полуволнам присваиваются весовые коэффициенты и затем они алгебраически складываются с помощью операционного усилителя 13, работающего дополнительно в режиме интегрирования выходного сигнала. На второй вход. операционного усилителя 13 подается сигнал с выхода нелинейного преобразователя 16. В результате взаимодействия сигналов, поступающих по двум входам, выходной сигнал операционного усилителя 13 изменяется по нелинейному закону в зависимости от величины входных сигналов. Например, на Фиксированной частоте(4 кГц) соотношение у интегралов полоямтельной,и отрицательной полярности выходного сигнала операционного усилителя 13 имеет вид, приведенный на фиг. 3, Подобного рода нелинейность объясняется следующим образом.При уровне входного сигнала, при .котором речевой сигнал в канале нелинейного преобразования еще симметричен, а в канале создания авто- асимметрии огибающей еще недостаточен для появления эффекта асимметрии, выходной сигнал операционного усилителя 3 равен нулю и коэффициент передачи регулируемого предварительного усилителя 1 равен минимальному фиксированному значению. Когда выходной сигнал нелинейного преобразователя 16 достигает 60- 707. от своего максимально возможного значения, он становится несимметричен и, будучи поданным наинвертирующий вход операционногоусилителя 13 и имея большую амплитуду по отношению к компрессированному сигналу, в котором начинаетнаблюдаться автоасимметрия, препятствует росту последней и удерживает выходную огибающую операционного усилителя 13 в отрицательной,помеховой полярности,Это происходит до тех пор, пока входной речевой Сигнал не достигнет значения, при котором выходнойсигнал нелинейного преобразователя16 перестает увеличивать свою несимметричность (см. фиг. 2).Вслед-.ствие этого начинает преобладатьсигнал автосимметрии на неинвертирующем входе операционного усилителя 13 и выходная огибающая речевого 40сигнала изменит свою полярность наинформационную. Это, в .свою очередь,вызовет увеличение коэффициентапередачи регулируемого предварительного усилителя 1 до максимального, 45и как следствие, увеличение скорости роста амплитуды информационнойполярности огибающей речевого сигнала на выходе операционного усили-,теля 13.,Цальнейшее увеличение амплитуды входного речевого сигналаведет, к нелинейному (квадратичному)росту несимметричности сигнала на выхо-.В результате амплитуда информационной полярности уменьшается на 2530 от максимальной.Появление в речевом сигнале короткой паузы, вызванной смыканием 8речевого тракта для произношения взрывных звуков "ц, ч, п, т, к", ведет к прохождению указанных процессов в обратном порядке. В результате выходная огибающая речевого сигнала или возвратится на короткое время в помеховую полярность, пересекая свой нулевой уровень, или вернется в исходное (нулевое)"остояние и будет находиться тамдо тех пор, пока не кончится паузаи вновь появившийся сигнал не выведет ее в информационную полярность.Моменты пересечения огибающейречевого сигнала нулевого уровняфиксируются нуль-органом 4 и наего выходе, являющемся выходом устройства, появится дискретный сигнал,характеризующий время исчезновенияи появления пауз в речевом сигнале.Если речевой сигнал отсутствует,но имеются различного рода, в томчисле и речевые, помехи, уровенькоторых на 7-8 дБ ниже уровня распознаваемой речи (в точке приема)нелинейно-преобразованный сигнал всееще больше автоасимметричного сигнала, поэтому полярность выходногосигнала операционного усилителя13 находится в помеховой областии выходной сигнал нуль-органа 14отсутствует. При этом коэффициентпередачи регулируемого предварительного усилителя 1 поддерживается с помощью выходного сигнала операционного усилителя 13 на минимальном уровне, что способствуетпомехоустойчивому обнаружению паузв речевом сигнале,На фиг. 4 приведена осциллограмма огибающей слова "начало", произнесенного диктором в тишине на рабочем расстоянии(15 см) от микрофона, имеющем круговую диаграмму направленности. На фиг. 5 а и 5 б - осциллограммы того же слова, произнесенного нафоне другого, мешающего, диктора,который находился вне рабочей зоныоператора (на расстоянии 50 см),работающего с устройством обнаружения пауз в речевом сигнале. В приведенных осциллограммах положительная полярность огибающей,характеризует помеховую область, отрицательная - наличие речи распознаваемогодиктора, Сравнивая осциллограммы, можно прийти к выводу, что устройствореагирует на мощные посторонние звуки речи, имеющие уровень на 8-9 дБ ниже уровня речи распознаваемого диктора, н правильно классифицирует их как помеху, сохраняя способность надежного, помехоустойчивого обнаружения пауз (в данном случае перед глухим взрывным "ч") в речевом сигнале.Эффективность предлагаемого способа обнаружения пауз в речевом сигнале заключается в повышении надежности выделения моментов появленияЪфонетических, сематических и дыхательных пауз вследствие снижения на 10-13 дБ и более маскирующего действия акустических помех, когда помеха поступает на вход распознавающей системы совместно с анализируемым сигналом; снижения вероятности лож- ной тревоги из-за уменьшения чувствительности к акустическим помехам в режиме "кратковременного молчания" диктора; сохранения всей информации из-за снижения порога селекции выделяемых пауз, что повышает вероятность правильного распознавания речевой информации в целом при работе рас" познавающей системы,в реальных условиях с уровнем шумов 66-70 дБ без дополнительной акустической защиты.Формула изобретенияСпособ обнаружения пауз в речевомсигнале, использующий коррекцию спектральных характеристик речевогосигнала, создание в нем фазовых сдвигов, сложение этого сигнала с амплитудно-частотным откорректированнымсигналом, раздельное детектированиеположительных и отрицательных полуволн и их алгебраическое сложение,о т л и ч а ю щ и й с я тем, что, сцелью повышения надежности ебнаруже 10 .ния пауз, предварительно усиленныйсигнал параплельно с частотно-зависимым усилением и последующим нелинейным преобразованием подвергаюткомпрессии, затем амплитудной коррек 15 ции одновременно в нескольких частотных областях, создают в них фаэовыесдвиги, разделяют полученные сигнапына положительные и отрицательныеполуволны и алгебраически их склады 20 вают, а затем результирующий сигналсуммируют с нелинейно преобразованнымсигналом и фильтруют, в результатеполучают регулирующую величину предварительного усиления речевого сигна 25 ла-выходную огибающую, в которойвыделяют точки переходов через свойнулевой уровень, определяющие моменты появления и исчезновения паузв речевом сигнале,30 , Источники информации,принятые во внимание при экспертизе1, Патент США В 3377428, кл. 1791 1968.2, Авторское свидетельство СССР55 . по заявке У 26 б 4124/18-10,кл. 6 ЗО 1. 1/04, 28,02.79.836656 Составитель И, Куликоваактгр О, Филиппова ТехредЖ,Кастелевич Корректор С. Шомак ПодпСССРю ное аб.д д. 4/Проектиа Филиал ППП каз 3120/38 ВНИИПИ Г по де 113035
СмотретьЗаявка
2797642, 16.07.1979
ОРДЕНА ЛЕНИНА ИНСТИТУТ КИБЕРНЕТИКИАН УКРАИНСКОЙ CCP
БОГИНО ВИТАЛИЙ ИГНАТЬЕВИЧ, ГОМЖИН АЛЕКСАНДР МИХАЙЛОВИЧ, КНЯЗЕВ ЕВГЕНИЙ ПАВЛОВИЧ, КАНЕВЕЦ ЮРИЙ ЯКОВЛЕВИЧ, ТАРАСОВ ВИКТОР АЛЕКСЕЕВИЧ
МПК / Метки
МПК: G10L 19/02
Метки: обнаружения, пауз, речевомсигнале
Опубликовано: 07.06.1981
Код ссылки
<a href="https://patents.su/7-836656-sposob-obnaruzheniya-pauz-v-rechevomsignale.html" target="_blank" rel="follow" title="База патентов СССР">Способ обнаружения пауз в речевомсигнале</a>
Предыдущий патент: Устройство для подавления шума
Следующий патент: Устройство для подвеса тонарма
Случайный патент: Способ получения птеридин-4(3н)-онов или их фармацевтически приемлемых солей с щелочными металлами