Вид РИД
Изобретение
Известны способы распознавания устных команд, основанные на преобразовании звукового сигнала в электрический, выделении амплитудных огибающих в различных полосах частот и спектральном анализе этих огибающих.
Предложенный способ отличается тем, что в различных полосах частот распознаваемого сигнала выделяют и используют для спектрального анализа инфразвуковые части спектров амплитудных огибающих и (или) огибающих частоты переходов через нуль с последующей компенсацией постоянных составляющих и нормализацией полученных спектров по длительности произнесения команд.
Это позволяет повысить достоверность результатов распознавания.
В соответствий с данным способом инфразвуковой спектральный анализ огибающих осуществляют непосредственно в процессе звучания слова. При появлении очередного отсчета огибающих для всех частот Ωi анализируемого спектра параллельно добавляют соответствующее слагаемое в суммах

и

где Δt - шаг квантования огибающих во времени (постоянный для всех реализаций до нормализации);
N - общее число отсчетов огибающих;
F1(tк), F2(tк) - огибающие амплитуд и частоты переходов через нуль, соответственно.
Одновременно с этим измеряют длительность Т анализируемого слова и ведут интегрирование огибающих F1(tк) и F2(tк) в пределах от 0 до Т.
Интегрирование ведут по формулам

По окончании звучания слова вычисляют постоянные составляющие
огибающих и по каждой из огибающих маскирующие спектры


Последние используют для устранения маскирующего влияния постоянных составляющих путем их вычитания из значений S1(Ωi) и S2(Ωi). Полученные после вычитания центрированные спектры огибающих S1°(Ωi) и S2°(Ωi) используют для нахождения их модулей Ф1°(Ωi) и Ф2°(Ωi) соответственно. Модули Ф1°(Ωi) и Ф2°(Ωi) нормируют по темпу речи, для чего предварительно определяют относительную длительность α анализируемого слова
где T0 стандартная длительность, выбираемая произвольно в диапазоне длительностей опознаваемых слов) и нормированные значения частот Ωi инфразвуковых составляющих
, где
- функция, определяемая инвариантностью тех или иных инфразвуковых частотных составляющих к темпу речи). Нормированные модули
спектров находят из выражений огибающих

Идентификацию распознаваемых команд производят путем сравнения полученных значений
с соответствующими эталонными значениями.