Способ обнаружения пауз в речевомсигнале

Номер патента: 836656

Авторы: Богино, Гомжин, Каневец, Князев, Тарасов

Способ обнаружения пауз в речевомсигнале. Страница 1.

Способ обнаружения пауз в речевомсигнале. Страница 2.

Способ обнаружения пауз в речевомсигнале. Страница 3.

Способ обнаружения пауз в речевомсигнале. Страница 4.

Способ обнаружения пауз в речевомсигнале. Страница 5.

Способ обнаружения пауз в речевомсигнале. Страница 6.

Способ обнаружения пауз в речевомсигнале. Страница 7.

ZIP архив

Текст

ОП ИСАНИЕИЗОБРЕТЕН ИЯК АВТОРСКОМУ СВИДЕТЕЛЬСТВУ н 836656 Союз СоветсимкСоцнвпнстичесиикРесп 1 тбаии) 2797642/18-10 Заявлено 1 7.79аявки 0 1. 1/04 присоединением фАвркткввкйй ССС вв йвлкю взк в вткрмтв,06, 81, Бюллете 3) УДК 615 .47(088,8) 2 Дата оп писания 09. 06. 8 ован Князев,Богино.М. ГомжиВ.А. Та ки АН Укр бер) Заявнтел ина инсти рде ПОСОБ ОБНАРУЖЕНИЯ ПАУЗ В РЕЧЕВОМ СИГНАЛЕ на проогогим. к областиользованоразработкпознаваниом Изобретение относится к области приборостроения, а именно акустики, и может быть исп в кибернетике и связи при систем автоматического рас ния речевых сигналов.Известен способ обнаружения пау в речевом сигнале, при использовании которого паузу в речевом сигна ле можно обнаружить при анализе ег описания полученного путем формирования асимметричности огибающей речевого сигнала 1.11.Однако 1 во-первых, помехоустойчивость вьщеления пауз в речевом сигнале по известному способу остается по-прежнему невысокой. Вовторых, невозможность формирования этими способами сигнала не позволя ет испольэовать технически легко выделяемые моменты достижения огибающей своего нулевого уровня в качестве признаков пауз в речен сигнале, так как временная огибающа в этом случае изменяет знак тивоположный и при смене одн группового признака фонем друНаиболее близким по своей тех ческой сущности к описываемому является способ обнаружения пауз в речевом сигнале, использующий коррекцию спектральных характеристик,речевого сигнала, создание в нем фазовых сдвигов, сложение этого сигнала с амплитудно-частотным откорректированным сигналом, ра дельное детектирование положительных и отрицательных полуволн и их алгебраическое сложение 121,Недостатком известного способа является трудность создания фазовых сдвигов одновременно во всем частотном диапозоне речевого сигнала, поэтому его огибающая будет иметь "информационную" полярность при наличии в речи лишь ограниченного числа групповых признаков, фоне например только тональных ипи в со836656 4 слова, произнесенного на фоне. речевой помехи (речь мешающего диктора, находящегося на расстоянии 50 см от микрофона).Для более помехоустойчивого обнаружения пауз в речевом сигнале обесЧпечивают минимальный коэффициент усиления входного сигнала, позволяющий 10 Производят компрессию усиленного сигнала (например, по логарифмическо 20 и высоких (4-8 кГц), осуществляя подь 25 ственно, Кроме того, необходимо произвессоставляющих ( возможные их величиныв пределах 15-20 ) для полученияОавтосимметрии сигналов, осуществитьразделение сигналов этих областейна положительные и отрицательные повать полученные полуволны, каждую сосвоим весовым коэффициентом (значесигнал подвергаютчастотно-зависимо 40 во-первых, ось симметрии сигналасдвигают фиксированно на 30-357 всторону, совпадающую со знаком полярности выделяемой автоасимметрииалгебраической суммы полуволн фазосдвинутых сигналов. Во-вторых,в меньшей полуволнепроизводят амплитудно-зависимое дифференцирование, осуществляя, таким образом, не 50 четании с,сонорными, или же толькошумных фонем. В остальных случаяхогибающая будет иметь противоположную, помеховую полярность. Известнымспособом нельзя получить полную,содержащую все звуки речи, помехоустойчивую временную огибающую речевого сигнала, следовательно, некоторые паузы не могут быть надежно обна- проводить его дальнейшие преобраружены на фоне маскирующей акустичес- зования и внешнее регулирование кокой помехи, спектральный состав ко- эффициента усиления с перекрытием неторой вызывает появление "помеховой" менее, чем в два раза.полярности огибающей,Целью изобретения является повышение надежности обнаружения пауз в ре му закону) для обеспечения динамичевом сигнале. ческого диапазона 42-45 дБ; произУказанная цель достигается тем,водят коррекцию спектральных харакчто в способе обнаружения пауз в теристик компрессированного сигналаречевом сигнале, использующем коррек- в перекрывающихся областях низкихцию спектральных характеристик речево- (1,5-3 кГц), средних (2,5-4,5 кГц)го сигнала, создание в нем фазовыхсдвигов, сложение этого сигнала сем спектральных составляющих в укаамплитУдно-частотным откорректиРо- занных областях на 2,8-3,2 дБ/окт;ванным сигналом, раздельное детекти-4,8 дБ/окт, и 6 дБ/окт соответрование положительных и отрицательных полуволн и их алгебраическоесложение, предварительно усиленный ти в этихобластях фазовые сдвигисигнал параллельно с частотно-зависимым усилением и последующим нелинейным преобразочанием подвергают ккомпрессии, затем амплитудной коррекции одновременно в нескольких частотных областях, создают в них фазо- луволны и алгебраически просуммировые сдвиги, разделяют полученные сигналы на положительные и отрицательные полуволны и алгебраически их скла- ния весовых коэффициентов подбираютдывают, а затем регулирующий сигнал ся экспериментально) .суммируют с нелинейно преобразован- Предварительно усиленный речевойным сигналом и фильтруют. В.результате получают регулирующую величину му усилению с возрастанием амплитудыпредварительного усиления речевого на 3 дБ/окт. Затем нелинейно преобсигнала - выходную огибающую, в ко- разовывают этот сигнал, Для этоготорой выделяют точки переходов черезсвой нулевой уровень, определяющиемоменты появления и исчезновения 45пауз в речевом сигнале.На фиг. 1 представлена блок-схема устройства для реализации способа; на фиг. 2 - кривая разности интегралов полуволн выходного сигналанелинейного преобразователя; нафиг. 3 - кривая соотношения инте - линейное увеличение (до н =5-6)гралов полуволн выходного сигнала коэффициента диспропорции (величинуоперационного усилителя, на фикси- отношения) интегралов большой и марованной частоте; на фиг. 4 - оги-. 55 лой полуволн при превышении входнымбающая слова "начало", произнесен- сигналом установленного значения,ного на рабочем расстоянии (15 см) Сущчируют нелинейно-преобразованныйот микрофона беэ акустических помех; сигнал с алгебраической суммой полуна фиг. 5 а, б - огибающая того же волн фазосдвинутых сигналов, Произ36656 20 30 35 50 водят сглаживание суммарного сигнала для получения выходной огибающейречевого сигнала. Используют выходную огибающую для регулированиякоэффициента предварительного усиле"ния, увеличивая его при наличии"информационной" полярности огибающей. Далее выделяют точки переходаогибающей через нуль, фиксируя ихкак моменты появления и исчезновения паузы.В результате проделанных операций получают описание речевого сигнала в виде низкочастотной аналоговой Функции, одна полярностькоторой символизирует наличие распознаваемого речевого сообщения,момент перехода ее нулевого уровняозначает появление обнаруживаемойпаузы, а другая полярность сигнализирует о наличии акустических помех,уровень которых в момент появленияпаузы речевого сигнага на 7-8 дБи более ниже уровня речи распознаваемого диктора,Устройство (фиг. 1) содержитпоследовательно соединенные регулируемый предварительный усилитель1, компрессор 2, корректирующуюсхему 3 с тремя выходами, к каждомуиз которых подключена своя .Фазосдвигающая схема 4, 5 и 6, к выходам ко-торых, в свою очередь, подключеныдетекторные пары 7, 8; 9, 1 О и 11,12 для разделения положительных и отрицательных полуволй. Выходы детекторов 7-12 подключаются, каждый сосвоим весовым коэффициентом, к суммирующему входу операционного усилителя 13, играющего роль алгебраического сумматора с интегрированиемвыходного сигнала. Выход операционного усилителя 13 соединен со входомнуль-органа 14, являющимся выходомустройства, а также с управляющимвходом регулируемого предварительного усилителя 1. Кроме того, к выходурегулируемого усилителя подключенацепочка, состоящая из частотно-зависимого усилителя 15 и нелинейногопреобразователя 16, выход которогосоединен со вторым, дифференциальным,входом операционного усилителя 13. В статике, при отсутствии речевого сигнала на выходе, выходное напряжение операционного усилителя 13, а значит, и нуль-органа 4 равно ну" лю, и коэффициент передачи регули 6руемого предварительного усилителя1 равен минимальному Фиксированномузначению (р=5-10).Работа схемы в динамике,Речевой сигнал поступает с выхода регулируемого предварительногоусилителя 1 на обработку одновременно по двум каналам, В одном каналеречевой сигнал выравнивается,по амплитуде с помощью частотно-зависимого усилителя 15, так как шумныевысокочастотные звуки (4-8 кГц) посравнению с полутональнь 1 ми (2-4 кГц)и особенно низкочастотными (1002000 Гц) звуками имеют низкую интенсивность, После этого он поступаетна нелинейный преобразователь 16,у которого разность интегралов Кположительной и отрицательной полярности выходного сигнала изменяетсянелинейно в зависимости от величинывходного сигнала, т.е, К Ф Г (08).Примерный вид этой зависимости изображен на Фиг. 2. В другом канапе речевой сигнал сжимается компрессором 2, имеющим логарифмическую характеристику, и пос.тупает на корректирующую схему 3, где усиливается в области низких частот на 3 дБ/окт; в области средних - на 6 дБ/окт; в области высоких частот - на 8-9 дБ/окт, Затем сигналы этих областей подаются на фазосдвигающие схемы 4, 5 и 6 для создания оптимальных фазовых сдвигов между гармоническими составляющими внутри выделенных областей с целью получения максимального эффекта автоасимметрии огибающей преобразованного речевого сигнала, после чего сигнал каждой области детектируется парами разнополярных детекторов 7-2. Полученным полуволнам присваиваются весовые коэффициенты и затем они алгебраически складываются с помощью операционного усилителя 13, работающего дополнительно в режиме интегрирования выходного сигнала. На второй вход. операционного усилителя 13 подается сигнал с выхода нелинейного преобразователя 16. В результате взаимодействия сигналов, поступающих по двум входам, выходной сигнал операционного усилителя 13 изменяется по нелинейному закону в зависимости от величины входных сигналов. Например, на Фиксированной частоте(4 кГц) соотношение у интегралов полоямтельной,и отрицательной полярности выходного сигнала операционного усилителя 13 имеет вид, приведенный на фиг. 3, Подобного рода нелинейность объясняется следующим образом.При уровне входного сигнала, при .котором речевой сигнал в канале нелинейного преобразования еще симметричен, а в канале создания авто- асимметрии огибающей еще недостаточен для появления эффекта асимметрии, выходной сигнал операционного усилителя 3 равен нулю и коэффициент передачи регулируемого предварительного усилителя 1 равен минимальному фиксированному значению. Когда выходной сигнал нелинейного преобразователя 16 достигает 60- 707. от своего максимально возможного значения, он становится несимметричен и, будучи поданным наинвертирующий вход операционногоусилителя 13 и имея большую амплитуду по отношению к компрессированному сигналу, в котором начинаетнаблюдаться автоасимметрия, препятствует росту последней и удерживает выходную огибающую операционного усилителя 13 в отрицательной,помеховой полярности,Это происходит до тех пор, пока входной речевой Сигнал не достигнет значения, при котором выходнойсигнал нелинейного преобразователя16 перестает увеличивать свою несимметричность (см. фиг. 2).Вслед-.ствие этого начинает преобладатьсигнал автосимметрии на неинвертирующем входе операционного усилителя 13 и выходная огибающая речевого 40сигнала изменит свою полярность наинформационную. Это, в .свою очередь,вызовет увеличение коэффициентапередачи регулируемого предварительного усилителя 1 до максимального, 45и как следствие, увеличение скорости роста амплитуды информационнойполярности огибающей речевого сигнала на выходе операционного усили-,теля 13.,Цальнейшее увеличение амплитуды входного речевого сигналаведет, к нелинейному (квадратичному)росту несимметричности сигнала на выхо-.В результате амплитуда информационной полярности уменьшается на 2530 от максимальной.Появление в речевом сигнале короткой паузы, вызванной смыканием 8речевого тракта для произношения взрывных звуков "ц, ч, п, т, к", ведет к прохождению указанных процессов в обратном порядке. В результате выходная огибающая речевого сигнала или возвратится на короткое время в помеховую полярность, пересекая свой нулевой уровень, или вернется в исходное (нулевое)"остояние и будет находиться тамдо тех пор, пока не кончится паузаи вновь появившийся сигнал не выведет ее в информационную полярность.Моменты пересечения огибающейречевого сигнала нулевого уровняфиксируются нуль-органом 4 и наего выходе, являющемся выходом устройства, появится дискретный сигнал,характеризующий время исчезновенияи появления пауз в речевом сигнале.Если речевой сигнал отсутствует,но имеются различного рода, в томчисле и речевые, помехи, уровенькоторых на 7-8 дБ ниже уровня распознаваемой речи (в точке приема)нелинейно-преобразованный сигнал всееще больше автоасимметричного сигнала, поэтому полярность выходногосигнала операционного усилителя13 находится в помеховой областии выходной сигнал нуль-органа 14отсутствует. При этом коэффициентпередачи регулируемого предварительного усилителя 1 поддерживается с помощью выходного сигнала операционного усилителя 13 на минимальном уровне, что способствуетпомехоустойчивому обнаружению паузв речевом сигнале,На фиг. 4 приведена осциллограмма огибающей слова "начало", произнесенного диктором в тишине на рабочем расстоянии(15 см) от микрофона, имеющем круговую диаграмму направленности. На фиг. 5 а и 5 б - осциллограммы того же слова, произнесенного нафоне другого, мешающего, диктора,который находился вне рабочей зоныоператора (на расстоянии 50 см),работающего с устройством обнаружения пауз в речевом сигнале. В приведенных осциллограммах положительная полярность огибающей,характеризует помеховую область, отрицательная - наличие речи распознаваемогодиктора, Сравнивая осциллограммы, можно прийти к выводу, что устройствореагирует на мощные посторонние звуки речи, имеющие уровень на 8-9 дБ ниже уровня речи распознаваемого диктора, н правильно классифицирует их как помеху, сохраняя способность надежного, помехоустойчивого обнаружения пауз (в данном случае перед глухим взрывным "ч") в речевом сигнале.Эффективность предлагаемого способа обнаружения пауз в речевом сигнале заключается в повышении надежности выделения моментов появленияЪфонетических, сематических и дыхательных пауз вследствие снижения на 10-13 дБ и более маскирующего действия акустических помех, когда помеха поступает на вход распознавающей системы совместно с анализируемым сигналом; снижения вероятности лож- ной тревоги из-за уменьшения чувствительности к акустическим помехам в режиме "кратковременного молчания" диктора; сохранения всей информации из-за снижения порога селекции выделяемых пауз, что повышает вероятность правильного распознавания речевой информации в целом при работе рас" познавающей системы,в реальных условиях с уровнем шумов 66-70 дБ без дополнительной акустической защиты.Формула изобретенияСпособ обнаружения пауз в речевомсигнале, использующий коррекцию спектральных характеристик речевогосигнала, создание в нем фазовых сдвигов, сложение этого сигнала с амплитудно-частотным откорректированнымсигналом, раздельное детектированиеположительных и отрицательных полуволн и их алгебраическое сложение,о т л и ч а ю щ и й с я тем, что, сцелью повышения надежности ебнаруже 10 .ния пауз, предварительно усиленныйсигнал параплельно с частотно-зависимым усилением и последующим нелинейным преобразованием подвергаюткомпрессии, затем амплитудной коррек 15 ции одновременно в нескольких частотных областях, создают в них фаэовыесдвиги, разделяют полученные сигнапына положительные и отрицательныеполуволны и алгебраически их склады 20 вают, а затем результирующий сигналсуммируют с нелинейно преобразованнымсигналом и фильтруют, в результатеполучают регулирующую величину предварительного усиления речевого сигна 25 ла-выходную огибающую, в которойвыделяют точки переходов через свойнулевой уровень, определяющие моменты появления и исчезновения паузв речевом сигнале,30 , Источники информации,принятые во внимание при экспертизе1, Патент США В 3377428, кл. 1791 1968.2, Авторское свидетельство СССР55 . по заявке У 26 б 4124/18-10,кл. 6 ЗО 1. 1/04, 28,02.79.836656 Составитель И, Куликоваактгр О, Филиппова ТехредЖ,Кастелевич Корректор С. Шомак ПодпСССРю ное аб.д д. 4/Проектиа Филиал ППП каз 3120/38 ВНИИПИ Г по де 113035

Смотреть

Заявка

2797642, 16.07.1979

ОРДЕНА ЛЕНИНА ИНСТИТУТ КИБЕРНЕТИКИАН УКРАИНСКОЙ CCP

БОГИНО ВИТАЛИЙ ИГНАТЬЕВИЧ, ГОМЖИН АЛЕКСАНДР МИХАЙЛОВИЧ, КНЯЗЕВ ЕВГЕНИЙ ПАВЛОВИЧ, КАНЕВЕЦ ЮРИЙ ЯКОВЛЕВИЧ, ТАРАСОВ ВИКТОР АЛЕКСЕЕВИЧ

МПК / Метки

МПК: G10L 19/02

Метки: обнаружения, пауз, речевомсигнале

Опубликовано: 07.06.1981

Код ссылки

<a href="https://patents.su/7-836656-sposob-obnaruzheniya-pauz-v-rechevomsignale.html" target="_blank" rel="follow" title="База патентов СССР">Способ обнаружения пауз в речевомсигнале</a>

Похожие патенты

Способ передачи речевых сигналов

Номер патента: 464975

Опубликовано: 25.03.1975

Автор: Рожков

МПК: H04B 1/10

Метки: передачи, речевых, сигналов

...сггнала сг:.;баошей;о спектром рсчезсгс с:гнала цли их взаимное влияние не презь:шало бы допустивой зелцчицы.В блоке 4 производится сложение сцгналоз, постунцвшцх на входы 8 ц 5. Блок 2 за464975 Предмет изобретения Приеиная часть Составитель Ю. Хмелюк Редактор А. Батыгин Техред Л 1. Семенов Корректор В, Гутман Заказ 612/085 Изд. 595 Тираж 740 Подписное ЦНИИПИ Государственного комитета Совета Министров СССР по делам изобретений и открытий Москва, Ж, Раушская наб., д. 4/5Тип. Харьк. фил. пред, Патент держки; фильм рации обес 1 печивает временное соглассзание согнала огибающей и речевого ситцала. Это необходимо, 1 поскольку сигнал огибающей, хара 1 ктеризующийся более узким спектром, чем речевой сигнал, 1 претер 1 певает большие...

Устройство для контроля телефонных каналов с использованием пауз в речевом сигнале

Номер патента: 515307

Опубликовано: 25.05.1976

Авторы: Лосихин, Толмачев

МПК: H04M 1/24

Метки: использованием, каналов, пауз, речевом, сигнале, телефонных

...степени перекрытияогибаюших последовательностей контрольныхтональных посылок, при этом первые входыквантователя 2-4 и блока 2-7 для выделения огибающих последовательностей контрольных тональных посылок подключены к объединенным входам управляемого фильтра 2-1и анализатора 2-2, вторые входы - к выходу анализатора .2-2 сигнала пауз, а выходблока 2-7 является третьим входом блока2-4, выходы же блока 2-6 и выход блока2-9 через решающее устройство 2-10 подключены к блоку 2-3.Устройство работает следующим образом.На передающей стороне 1 речевая информация поступает одновременно на входы блока 1-1 и блока 1-3, который передает еенепосредственно в канал колебаний тональной частоты. При паузе в речевой информации блок 1.-1 своим сигналом...

Дельта-модулятор для передачи речевых сигналов

Номер патента: 1785079

Опубликовано: 30.12.1992

Авторы: Бухинник, Трофимов, Щербатый

МПК: H03M 3/02

Метки: дельта-модулятор, передачи, речевых, сигналов

...сигнала на совпадение формируемого кодером символа с символом, сформированным 2 такта тому назад, осуществляется по первому и третьему выходу четырехразрядного регистра сдвига 2 схемой 10 сложения по модулю 2 с инверсным выходом, При совпадении этих символов на выходе элемента 10 сигнал логической "1", поступающий на вход управления Ч аналогового ключа 13.Ключ 13 замкнут и резистор йза в схеме 14 и основного интегратора зашунтирован, Следовательно уменьшена постоянная времени г 2 схемы 14 основного интегратора (т 2 = = (Я 1+ Йза+ Язб) С 2. Уменьшение 72 приводит к увеличению абсолютного значения отклика на импульс схемы 14, а следовательно к увеличению шага квантования кодера.Таким образом в схеме фиг.1 реализуется Ряс Л 1...

Устройство для разделения речевых сигналов

Номер патента: 1626393

Опубликовано: 07.02.1991

Авторы: Бондин, Лебедянцев, Малинкин, Ривлин, Рубайлов

МПК: H04B 1/52

Метки: разделения, речевых, сигналов

...нулевую ячейку блока памяти записать отклик канала связи до(КЛ 1) .Такая запись необходима для того, чтобынезависимо от состояния блока 6 памятижестко проверять отсутствие принимаемогосигнала. Время работы второго таймера 21выбирается из условия1Ттаймера 21 - р - 1 (5)нгде 1 н - нижняя частота передаваемого сигнала.Режимом работы блока 6 памяти управляет сигнал с выхода коммутатора 2, Сигналом управления работы коммутатора 2является выходной сигнал генератора 7, т,е.частота дискретизации Ее, При поступлениис выхода генератора 7 логического нуля коммутатор 2 коммутирует на управляющийвход блока б памяти сигнал логического нуля. По данному сигналу иэ блока б памятивначале считывается информация по адресу, поступающему с выхода ПЗБ 14....

Устройство для записи речевых сигналов

Номер патента: 687465

Опубликовано: 25.09.1979

Авторы: Беляков, Емельянов, Круглов, Юдовин

МПК: G11B 15/06

Метки: записи, речевых, сигналов

...хема устройства,Устройство для записи речевых ов содержит электроакустический азователь 1, усилитель 2 записи,ку 3 записи, амплитудный детект Формирователь 5, элемент И 6, коммвателя 5. Генератор 9 генерирует сигнал, представляющий собой несколько периодов синусоидальных колебаний фиксированной частоты, выбранной вне диапазона речи, после чего генератор 9 автоматически возвра 1 цается в исходное состояние. Сигнал с выхода генератора 9 усиливается усилителем 2 записи и записывается магнитной голокой 3 на магнит О ную ленту непосредственно в конце выб -раиного слова. формула изобретения15 Устройство для записи речевых сигналов, содержац 1 ее усилитель записи, подключенный одним входом к электроакустическому преобразователю, формирователь,...

Предыдущий патент: Устройство для подавления шума

Следующий патент: Устройство для подвеса тонарма

Случайный патент: Способ получения птеридин-4(3н)-онов или их фармацевтически приемлемых солей с щелочными металлами

В верх страницы

Способ обнаружения пауз в речевомсигнале

Текст

Заявка

МПК / Метки

Код ссылки

О сайте

Архивы

Контакты