Способ обработки речевого сигнала

Номер патента: 404122

Автор: Авторы

ZIP архив

Текст

404122 Союз Советский Социалистических Республикаявлецо цием заявки-с присое оритетбликовацо 26.Х.1973, Бюллетень4а опубликования описания 19.111.1974 осударстаенныи комитетСовета Министров СССРпо делам изобретенийи открытий УДК 621,391.19 (088.8 Авторыизобретецг В. Н. Сорокин и аи Заявитель Институт проблем передачи информации АН СС СПОСОБ ОБРАБОТКИ РЕЧЕВОГ НАЛА Изобретение касается автоматической обработки речевого сигнала,Известные способы обработки речевого сигнала характеризуются недостаточной цадежцостью распозпавапия звуков речи из-за зцачительцой изменчивости соответствующих им акустических сигпалов. Частично эта измепчивость определяется помехами, цакладываемыми ца речевой сигнал в процессе его распрострацеция по каналу связи, и описывается статистическими закономерностями. Осцовцая же доля этой изменчивости вносится за счет различия в геометрических размерах голосовых трактов разных людей. Известно, например, что длины голосовых трактов колеблются в пределах 25%, что приводит, согласно акустической теории речеобразовация, к соответствующему разбросу в значениях резоцацсцых частот (формацт). Влияние других геометрических параметров ца свойства акустического сигнала значительно труднее поддается ацалитической оценке, хотя и це менее велико. Наряду с изменчивостью геометрических размеров голосового тракта зцачительцые вариации речевых сигналов, относящихся к одним и тем же звукам, создают индивидуальные особепцости произцошеция, в частности темпа и громкости речи.Попытки уменьшения влияния изменчивости речевых сигналов ца результаты распозцавация путем более грубого измерения их параметров це дали должных результатов.Нормализация речи по громкости и линейцая нормализация по темпу также цс дают5 существенных результатов. Это объясняетсятем, что ряд геометрических параметров голосового тракта претерпевает це только мешающие измецеция при переходе от одного человека к другому, цо и одцовремецпо создает 10 информативную модуляцию речевого сигцалав процессе артикуляции.Цель изобретения - сжатие речевой ицформации и повышение цадежцости распозцавация,15 Для этого по предлагаемому способу ца огибающей в каждой частотной полосе выделяют амплитуды частоты ц времена характерных точек, которые сравнивают со значениями этих же величиц для соответствующих точек одного 20 из эталонных спектров, из результирующихсигналов сравцеция формируют сигналы, пропорциоцальцые параметрам преобразований мгновенного спектра текущего речевого сигнала к данному эталону, и классифицируют этц 25 сигналы.Если представить речевой сигнал в видедвумерной функции Ь(ю, 1) как мгцовеццый взвешенный амплитудцо-частотный спектр акустических колебаний речи, то искомый спо соб количественного описания уклоцецця45 50 55 спектра 5;,(о,1) 1 - реализации -ого звука от эталона 5;(о,1) состоит в аппроксимации преобразований 5(о,1) уравнениями конечных непрерывных групп преобразований (групп Ли) на плоскости, общая форма записи которых имеет вида =1,(а,1; а, а, ., а)1= ,(а 1; аа, ., ап),где (о, 1) - координаты некоторой точки на 5(о, 1); (а, 1) - координаты соответственной ей точки на 5;(в, 1); (аь , а) - параметры преобразований.Среди групп Ли различают два основных класса - примитивные и импримитивные группы. К числу примитивных групп относятся группы, преобразования которых не связаны с каким-либо фиксированным направлением на плоскости, например группы движения, подобия. Максимальное число параметров в таких группах равно восьми (у проективной группы). Для импримитивных групп характерно наличие некоторого преобладающего направления в плоскости (в каноническом виде - направление оси о) и потому их преобразованиям свойственна некоторая анизотропность. Вместе с тем числом п параметров для большинства импримитивных групп не ограничено.Следующие уравнения дают пример импримитивной группы:=а, +а,- из + и 4 + и 5 + и 6 ++ ОпАпизотроппость преобразований проявляется очевидным образом и в асимметрии этих уравнений.Наличие естественных разрывов в речевом сигнале, например смычек, позволяет использовать уравнения со сравнительно небольшим числом параметров за счет использования кусочной аппроксимации преобразований.Параметры уравнений групп преобразований вычисляются путем решения соответствующего уравнения для 5(со, ) путем подстановки в него координат соответственных точек на видеограммах эталона и текущей реализации некоторого звукосочетания. В качестве таких соответственных точек рационально выбирать характерные, в чем-либо отличающиеся от других, точки, например точки локальных максимумов, миксимумов ее градиентов и т. д.Параметры уравнений групп образуют а-мерное пространство, в котором обычными методами теории распознавания образов проводятся разделяющие границы между звуками и звукосочетаниями. Тогда каждая фонема описывается номером эталона 5;(в, 1) и об 5 10 15 20 25 ЗО 35 40 ластью в пространстве параметров. Достоийствами такого способа обработки является возможность отделить случайные и неинформативные преобразования в речевых сигналах, причем число параметров преобразований можно сколь угодно приблизить к теоретически минимальному, а надежность распознавания - за счет сохранения всей информации о 5 (а, 1) - к потенциально достижимой.На чертеже изображена блок-схема устройства, реализующего предлагаемый способ.Речевой сигнал поступает на микрофон 1, подвергается разложению на ряд частотных полос в гребенке полосовых фильтров 2, на выходах которых стоят амплитудные детекторы 3, выделяющие огибающие в каждой полосе. Огибающие проходят через систему блоков 4, определяющих значения амплитуды, частоты и времени характерных точек разного типа (локальные экстремумы, градиенты и т. д.), а также через блок 5, определяющий тип эталона для текущего звука. Сигналы с выхода системы блоков 4 подаются в блок 6, в котором происходит вычисление параметров уравнений преобразований. Начало и конец вычислений, а также тип используемых уравнений определяются сигналами блока 5.Сигналы из блока 6, пропорциональные параметрам преобразований, вместе с сигналом из блока 5 о типе эталона поступают в канал связи, а в случае распознавания - в блок решающего правила 7, сигналы на выходе которого соответствуют распознанным звукам, Кроме того, в канал связи (или блок решающего правила) подается сигнал, пропорциональный частоте основного тона, выделенной детектором основного тона 8. Тип эталона определяется видом источника возбуждения (голосовой или шумовой) и числом формант в спектральном разрезе. Предмет изобретения Способ обработки речевого сигнала, согласно которому сигнал разлагают на ряд частотных полос, выделяют огибающие в каждой полосе и огибающую спектрального разреза, детектируют частоту основного тона, отличаощийся тем, что, с целью сжатия речевой информации и повышения надежности распознавания, на огибающей в каждой частотной полосе выделяют амплитуды, частоты и времена характерных точек, которые сравнивают со значениями эчих же величин для соответствующих точек одного из эталонных спектров, из результирующих сигналов формируют сигналы, пропорциональные параметрам преобразований мгновенного спектра текущего речевого сигнала к данному эталону, и классифицируют сигналы.404122 тавитель В. КудрявцевТехред Т. Миронова Корректор М. Лейзер Редактор анова каз 612/14ЦНИИ Подписноеов СССР ография, пр. Сапунова, 2 Изд. 1 хз 165осударственного комит по делам изобретен Москва, Ж, Рауш Тираж 467та Совета Минй и открытийкая наб., д. 4/5

Смотреть

Заявка

1624604

В. Н. Сорокин, В. С. Фаин Институт проблем передачи информации СССР

Авторы изобретени

МПК / Метки

МПК: G10L 15/02, G10L 19/02

Метки: речевого, сигнала

Опубликовано: 01.01.1973

Код ссылки

<a href="https://patents.su/3-404122-sposob-obrabotki-rechevogo-signala.html" target="_blank" rel="follow" title="База патентов СССР">Способ обработки речевого сигнала</a>

Похожие патенты