Способ распознавания речи

Номер патента: 329557

Авторы: Заездный, Плоткин, Работкин, Сирота, Трахтман

ZIP архив

Текст

Союа Советских Социалистических Рвспуолик8-24) ПриоритетОпубликовано 09.11.1972. Бюллетень М Комитет по делам иаоорвтеиий и открыт при Совете й 1 ииистро СССРДК 621.391.19(088,8) Дата опубликования описания 1 Ъ 1 о 72 Авторыизобретения М, Заездный, Е. И, Плоткин, О, Н, Работкин, В, Ю. Трахтма и О, Л. Сирота-1 лй 1явите ОСОБ РАСПОЗНАВАНИЯ РЕЧИ Изобретение относится к области распознавания речи и может быть использовано в устройствах для печати устного текста, при управлении механизмами голосом, вводе информации в вычислительные машины, автоматическом переводе с одного языка на другой и т, д,Известны следующие способы распознавания речи: формантный спектрально-полосный, на основе дифференциальных признаков, на основе динамических (спектрально-временных) признаков, на основе метода анализ через синтез, на основе движения артикуляторных органов,Характерной особенностью известных способов распознавания речи является то, что заранее выбирают процедуру обработки и пытаются во всех случаях получить устойчивые параметры речевого сигнала. Поскольку структура речи меняется в широких пределах, то достигнуть устойчивости параметров и вместе с тем высокой достоверности распознавания речи не удается.Это объясняется тем, что к распознаванию речи приступают лишь после того, как сократят поток информации, например, путем априорного выбора способа анализа. Эталоны (маски), с помощью которых производят распознавание, используют лишь на конечном этапе обработки, где имеют дело с варьпруюшими параметрами (прпзнакамп) речевого сш нала.Таким образом, недостатком этих способовявляется неполный анализ речевого сигнала, что приводит к понижению достоверности распознавания речи.Целью изобретения является повышение достоверности распознавания речи. Эта цель достигается тем, что электрический сигнал па раллельно многократно дифференцируют иинтегрируют, затем сопоставляют полученные сигналы между собой и в качестве информативных признаков речевых сигналов принимают результаты этого сопоставления.15 Сущность изобретения заключается в представлении речевого сигнала в функциональном пространстве в виде многомерного фазового портрета, а эталонов структурных свойств в виде граничных гпперповерхностей, 20 моменты пересечения которых с многомернымфазовым портретом речи отражают структурные свойства речи.Повышение достоверности при распознавании речи по предлагаемому способу основано 25 на следующих соображениях.Описание речевого сигнала его многомерным фазовым портретом, т. е, зависимостью производных (плп функций от них) одного порядка от производных (плп функций от них) 30 другого порядка, получепных для заданногоречевого процесса, позволяет сохранить всюсодержащусося информацию о речи в реальном масштабе времени. Прп таком представлении речи в многомерном фазовом пространстве образуют некоторый многомерный обьект, конфигурация которого меняется во ьрсмени,В фазовом пространстве размещают несколько граничных гиперповерхностей и проектируют на них фазовый портрет речи. Каждую проекцию анализируют отдельно, используя для этого другие граничные гиперповерхности низшей размерности,Так как вариации речевого сигнала по различным координатам фазового пространства 15различны, то выбирают такие граничные гиперповерхности, где локализуются отдельнвариации речевого сигнала. Таким образом, спомощью граничных гиперповерхностей управляют ходом анализа в зависимости от 20структуры многомерного фазового пространс:тва речи,Так как эталоны (граничные гиперповерхности) выбирают на всех этапах анализа, тодостигают с одной стороны повышения устойчивости параметров (признаков) речевогосигнала, с другой - снижения размерностифазового портрета и сокращения потока информации (вплоть до дискретного его представления) . 30На чертеже приведена блок-схема, поясняющая предлагаемый способ расссозссаваюс;сречи, где:1 - источник речевого сигнала;2 - анализатор речевого сигнала; 353 - 8 - блоки координат фазового пространства, в совокупности образующие многомерный фазовый портрет (осуществляютдифференцирование и интегрирование сигналов); 409 - блок образования граничных гиперповерхностей К-й размерности;10 - 12 - блоки образования граничных гиперповерхностей К-размерности;13 - 15 - блоки дискретного съема пнформации;1 б - логический блок.Речевой сигнал от источникаподасот ссаанализатор 2 и на блоки 3 - 8 образованиякоординат многомерного фазового пространства, например производных порядка р, д,от сигнала или различных спектральных компонент,В блоке 9 моделируют различные уравнешигиперповерхностей (в общем случае нелинейные, интегродифференциальпые и прочие),определяющие связи между коордипатампмногомерного фазового пространства и отражающие основные закономерности в речевом:игнале. 60 Далее устанавливают блоки 10 - 12, в которых моделируют различссые уравнения гиперповерхностеп низшей размерности, с помощью которых обрабатывают проекции многомерного фазового портрета речи на граничные гисссрссоверхссости более высокой размерности,В блоках 13 - 15 производят дискретный съем информации в логический блок 1 б, где осуществляют классификацию речевых единиц,Речевой сигнал с помощью анализатора 2 и блоков образования координат многомерно. го фазового пространства 3 - 8 представляют в виде многомерной фазовой гиперповерхности. С помощью блока 9 размещают в многомерном фазовом пространстве несколько гра. яичных гиперповерхностей.Разворачиваясь в многомерном пространстве, фазовая гиперповерхность речи проектируется на граничные гиперповерхности, образуя па них фазовые портреты низшей размерности.Выборы граничных гссперповерхпостей нормализуют речевой сигнал, чтобы вариации того или иного параметра уменьшались на проекциях фазового портрета. Дополнительное улучшение получают, выполняя определенные функциональные преобразования при измерении параметров проекции (сглаживание, выбор системы координат и прочее). Например, нужно измерить координаты проекции в полярных координатах, где М - модуль координаты,- фазовый угол относительно некоторой начальной базы. Зависимость р(1) пе зависит от уровня речи (масштаб фазового портрета) ср(1) не зависит от момента начала речевой единицы (сдвиг фазового портрета),Используя граничные гиперповерхности следующего уровня, снижают размерность фазового портрета до дискретного его представления и с помощью логического блока выполняют распознавание речевых единиц.П редм ет изобретенияСпособ распознавания речи путем преобразования звуковых колебаний в электрические сигналы, выделения совокупности признаков распознаваемой речи и сопоставления пх с эталонами. отгичающийся тем, что, с целью повышения достоверности распознавания, электрический сигнал параллельно многократно дифферец и интегрируют, затем сопоставляюг полученные сигналы между собой путем последовательного сравнения и в качестве информативных признаков речевых сигналов принимают сигналы сопоставления.

Смотреть

Заявка

1315858

А. М. Заездный, Е. И. Плоткин, О. Н. Работкин, В. Ю. Трахтман, О. Сирота

МПК / Метки

МПК: G10L 19/02

Метки: распознавания, речи

Опубликовано: 01.01.1972

Код ссылки

<a href="https://patents.su/2-329557-sposob-raspoznavaniya-rechi.html" target="_blank" rel="follow" title="База патентов СССР">Способ распознавания речи</a>

Похожие патенты