29.05.2019

№219.017.6753

Результат интеллектуальной деятельности: СПОСОБ И УСТРОЙСТВО ДЛЯ ЭФФЕКТИВНОГО МАСКИРОВАНИЯ СТЕРТЫХ КАДРОВ В РЕЧЕВЫХ КОДЕКАХ НА ОСНОВЕ ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ

Вид РИД

Изобретение

Юридическая информация Юридическая информация Свернуть Развернуть

Авторы

ВОЙСЭЙДЖ КОРПОРЕЙШН (CA)

Правообладатели

№ охранного документа

0002325707

Дата охранного документа

27.05.2008

Краткое описание РИД Краткое описание РИД Свернуть Развернуть

Аннотация: Изобретение относится к способу и устройству для улучшения маскирования кадров кодированного звукового сигнала, стертых во время передачи от кодера к декодеру и для ускорения восстановления в декодере, после того как были приняты нестертые кадры кодированного звукового сигнала. При определении параметров маскирования/восстановления в кодере их передают в декодер, в котором проводится маскирование стертых кадров и восстановление в соответствии с параметрами маскирования/восстановления. Параметры маскирования/восстановления могут выбираться из группы, состоящей из: параметра классификации сигнала, параметра информации об энергии и параметра информации о фазе. Определение параметров маскирования/восстановления содержит классификацию последовательных кадров кодированного звукового сигнала как невокализованного кадра, невокализованного перехода, вокализованного перехода, вокализованного кадра или кадра приступа, причем эта классификация определяется на основе по меньшей части следующих параметров: параметра нормализованной корреляции, параметра спектрального наклона, параметра отношения сигнал-шум, параметра стабильности основного тона параметра относительной энергии кадра и параметра перехода через нуль. Технический результат, достигаемый при реализации изобретения, состоит в улучшении маскирования стертых кадров кодированного звукового сигнала во время передачи от кодера к декодеру и в ускорении восстановления в декодере после того, как были приняты нестертые кадры кодированного звукового сигнала. 9 н. и 168 з.п. ф-лы, 7 ил., 5 табл.

Реферат Реферат Свернуть Развернуть

Область техники

Настоящее изобретение относится к способу цифрового кодирования звукового сигнала и, в частности, но не исключительно, речевого сигнала с учетом передачи и/или синтеза этого звукового сигнала. В частности, настоящее изобретение касается устойчивого кодирования и декодирования звуковых сигналов для поддержания удовлетворительных рабочих характеристик в случае появления стертого кадра (кадров), например, из-за канальных ошибок в беспроводных системах или потерянных пакетов в сетевых приложениях с пакетной передачей речи.

Уровень техники

В различных прикладных областях, таких как телеконференции, мультимедиа и беспроводная связь, возрастает потребность в эффективных способах цифрового узкополосного и широкополосного речевого кодирования при условии обеспечении приемлемого компромисса между субъективным качеством и скоростью передачи битов. До недавнего времени в приложениях для речевого кодирования использовалась полоса пропускания телефонной связи, ограниченная диапазоном от 200 до 3400 Гц. Однако широкополосные речевые приложения обеспечивают повышенную разборчивость и натуральность связи по сравнению с полосой пропускания стандартной телефонии. Установлено, что полоса пропускания в диапазоне 50-7000 Гц достаточна для обеспечения годного качества, дающего ощущение диалоговой связи. Для обычных аудиосигналов эта полоса пропускания дает приемлемое субъективное качество, но все же уступающее качеству радиосвязи в FM диапазоне или качеству компакт-дисков (CD), которые работают в диапазонах 20-16000 Гц и 20-20000 Гц соответственно.

Речевой кодер преобразует речевой сигнал в цифровой поток битов, который передается по каналу связи или запоминается в запоминающей среде. Речевой сигнал оцифровывают, то есть дискретизируют и квантуют, обычно по 16 бит на один отсчет. Речевой кодер представляет эти цифровые отсчеты небольшим количеством битов, поддерживая удовлетворительное субъективное качество речи. Речевой декодер или синтезатор работает с переданным или сохраненным потоком битов и преобразует его обратно в звуковой сигнал.

Одним из наилучших имеющихся способов, позволяющих достичь удачного компромисса между субъективным качеством и скоростью передачи битов, является линейное предиктивное кодирование с кодовым возбуждением (CELP). Эта технология кодирования является основой нескольких стандартов речевого кодирования как в беспроводных, так и в проводных приложениях. При кодировании CELP дискретизированный речевой сигнал обрабатывают последовательными блоками из L отсчетов, обычно называемых кадрами, где L - заранее установленное число, соответствующее обычно 10-30 мс. В каждом кадре вычисляется и передается линейный предиктивный (LP) фильтр. Для вычисления LP-фильтра обычно требуется предварительный просмотр, (5-15)-миллисекундный речевой сегмент из следующего кадра. Кадр из L отсчетов делят на меньшие блоки, называемые субкадрами. Обычно количество субкадров равно трем или четырем, что дает (4-10)-миллисекундные субкадры. В каждом субкадре сигнал возбуждения обычно получают из двух компонент: прошлого возбуждения и нововведенного возбуждения фиксированной кодовой книги. Компоненту, образованную из прошлого возбуждения, часто называют возбуждением адаптивной кодовой книги или возбуждением основного тона. Параметры, характеризующие сигнал возбуждения, кодируются и передаются в декодер, где восстановленный сигнал возбуждения используется в качестве входного сигнала LP-фильтра.

Так как основные приложения для речевого кодирования с низкой скоростью передачи битов представляют собой системы беспроводной мобильной связи и сети с пакетной передачей голоса, очень актуальным становится повышение устойчивости речевых кодеков в случае стирания кадров. В беспроводных сотовых системах энергия принятого сигнала может проявлять частые и значительные замирания, что приводит к большим значениям частоты ошибок по битам, причем это особенно сильно проявляется на границах сотовых ячеек. В этом случае канальный декодер не в состоянии исправить ошибки в принятом кадре, вследствие чего детектор ошибок, который обычно используется после канального декодера, объявит такой кадр стертым. В сетевых приложениях с пакетной передачей речи речевой сигнал представляют в виде пакетов, где в каждом пакете обычно содержится 20-миллисекундный кадр. В системах связи с коммутацией пакетов пакеты в маршрутизаторе могут оказаться пропущенными, если количество пакетов оказалось очень большим или пакет смог попасть в приемник после длительной задержки и должен объявляться потерянным, если задержка оказалась больше длины буфера дрожания на стороне приемника. В этих системах в кодеке происходят стирания кадров, частота которых обычно составляет от 3 до 5%. Кроме того, использование широкополосного речевого кодирования является важным ценным качеством этих систем, позволяющим им конкурировать с традиционной коммутируемой телефонной сетью общего пользования (PSTN), где используют традиционные узкополосные речевые сигналы.

Адаптивная кодовая книга или предсказатель основного тона в методе CELP играет важную роль в поддержании высокого качества речи при низких скоростях передачи битов. Однако, поскольку содержание адаптивной кодовой книги основано на сигнале из прошлых кадров, модель кодека оказывается чувствительной к потерям кадров. В случае стирания или потери кадров содержание адаптивной кодовой книги в декодере становится отличным от его содержания в кодере. Таким образом, после маскирования потерянного кадра и приема последующих пригодных кадров синтезированный сигнал в принятых пригодных кадрах отличается от предполагаемого сигнала синтеза, поскольку изменился вклад адаптивной кодовой книги. Воздействие потерянного кадра зависит от характера речевого сегмента, в котором произошло стирание. Если стирание появилось в стационарном сегменте сигнала, то тогда можно выполнить эффективное маскирование стирания кадра, и воздействие на последующие пригодные кадры можно минимизировать. С другой стороны, если стирание появилось в начале речи или в переходной области, то эффект стирания может распространиться на несколько кадров. Например, если потеряно начало вокализованного сегмента, то тогда из содержания адаптивной кодовой книги пропадет первый период основного тона. Это серьезно повлияет на предсказатель основного тона в последующих пригодных кадрах, что приведет к большой временной задержке, прежде чем будет обеспечена сходимость сигнала синтеза к предполагаемому сигналу в кодере.

Сущность изобретения

Настоящее изобретение относится к способу для улучшения маскирования стирания кадров, вызванного кадрами кодированного звукового сигнала, стертыми во время передачи от кодера к декодеру, и для ускорения восстановления в декодере после того, как были приняты нестертые кадры кодированного звукового сигнала, причем способ содержит:

определение в кодере параметров маскирования/восстановления;

передачу в декодер параметров маскирования/восстановления, определенных в кодере; и

в декодере, осуществление маскирования стирания кадров и восстановления в декодере в соответствии с принятыми параметрами маскирования/восстановления.

Настоящее изобретение также относится к способу для маскирования стирания кадров, вызванного кадрами, стертыми во время передачи звукового сигнала, кодированного согласно форме параметров кодирования сигнала, от кодера к декодеру, и для ускорения восстановления в декодере после того, как были приняты нестертые кадры кодированного звукового сигнала, причем способ содержит:

определение в декодере параметров маскирования/восстановления из параметров кодирования сигнала;

в декодере, осуществление маскирования стертых кадров и восстановления в декодере в соответствии с принятыми параметрами маскирования/восстановления.

Согласно настоящему изобретению также предлагается устройство для улучшения маскирования стирания кадров, вызванного кадрами кодированного звукового сигнала, стертыми во время передачи от кодера к декодеру, и для ускорения восстановления в декодере после того, как были приняты нестертые кадры кодированного звукового сигнала, причем устройство содержит:

средство для определения в кодере параметров маскирования/восстановления;

средство для передачи в декодер параметров маскирования/восстановления, определенных в кодере; и

в декодере, средство для осуществления маскирования стирания кадров и восстановления в декодере в соответствии с принятыми параметрами маскирования/восстановления.

Согласно изобретению, кроме того, предлагается устройство для маскирования стирания кадров, вызванного кадрами, стертыми во время передачи звукового сигнала, кодированного на основе формы параметров кодирования сигнала, от кодера к декодеру, и для ускорения восстановления в декодере после того, как были приняты нестертые кадры кодированного звукового сигнала, причем устройство содержит:

средство для определения в декодере параметров маскирования/восстановления из параметров кодирования сигнала;

Настоящее изобретение также касается системы для кодирования и декодирования звукового сигнала и декодера звукового сигнала, где используются определенные выше устройства, для улучшения маскирования стирания кадров, вызванного кадрами кодированного звукового сигнала, стертыми во время передачи от кодера к декодеру, и для ускорения восстановления в декодере после того, как были приняты нестертые кадры кодированного звукового сигнала.

Вышеупомянутые и другие цели, преимущества и признаки настоящего изобретения поясняются в последующем, не ограничивающем описании иллюстративных вариантов его осуществления, приведенных только в качестве примеров, со ссылками на сопроводительные чертежи.

Краткое описание чертежей:

фиг.1 - блок-схема системы речевой связи, иллюстрирующая применение устройств речевого кодирования и декодирования согласно настоящему изобретению;

фиг.2 - блок-схема примера устройства широкополосного кодирования (AMR-WB кодер);

фиг.3 - блок-схема примера устройства широкополосного декодирования (AMR-WB декодер);

фиг.4 - упрощенная блок-схема AMR-WB кодера по фиг.2, где модуль субдискретизатора, модуль фильтра верхних частот и модуль предыскажающего фильтра сгруппированы в едином модуле предобработки и где модуль поиска основного тона с обратной связью, модуль вычислителя отклика при нулевом входном сигнале, модуль генератора импульсной характеристики, модуль поиска нововведенного возбуждения и модуль обновления памяти сгруппированы в едином модуле поиска основного тона и нововведенной кодовой книги с обратной связью;

фиг.5 - расширение блок-схемы по фиг.4, в которую добавлены модули, относящиеся к иллюстративному варианту настоящего изобретения;

фиг.6 - блок-схема, проясняющая ситуацию при формировании искусственного приступа; и

фиг.7 - схема, показывающая иллюстративный вариант конечного автомата классификации кадров для маскирования стирания.

Подробное описание иллюстративных вариантов

Хотя в последующем описании иллюстративные варианты настоящего изобретения описаны применительно к речевому сигналу, следует иметь в виду, что концепции настоящего изобретения равным образом применимы к сигналам других типов, в частности, но не исключительно, к звуковым сигналам других типов.

На фиг.1 показана система 100 речевой связи, где используется речевое кодирование и декодирование в контексте настоящего изобретения. Система 100 речевой связи по фиг.1 поддерживает передачу речевого сигнала по каналу 101 связи. Хотя он может содержать, например, провод, оптическую линию или волоконную линию, канал 101 связи обычно содержит, по меньшей мере частично, линию радиочастотной связи. Линия радиочастотной связи часто поддерживает множество одновременно идущих речевых передач, что требует совместного использования ресурсов полосы пропускания, что можно встретить, например, в системах сотовой телефонии. Хотя это не показано, канал 101 связи может быть заменен запоминающим устройством в варианте системы 100 с единым устройством, где кодированный речевой сигнал записывается и сохраняется для последующего воспроизведения.

В системе 100 речевой связи по фиг.1 микрофон 102 создает аналоговый речевой сигнал 103, который подается в аналого-цифровой (A/D) преобразователь 104 для преобразования его в цифровой речевой сигнал 105. Цифровой кодер 106 кодирует цифровой речевой сигнал 105, создавая набор параметров 107 кодирования сигнала, которые кодируются в двоичном виде и доставляются в канальный кодер 108. Необязательный канальный кодер 108 добавляет избыточность в двоичное представление параметров 107 кодирования сигнала перед их передачей по каналу 101 связи.

В приемнике канальный декодер 109 использует указанную избыточную информацию в принимаемом потоке 111 битов для обнаружения и исправления канальных ошибок, появившихся во время передачи. Речевой декодер 110 преобразует поток 112 битов, принимаемый от канального декодера 109, обратно в набор параметров кодирования сигнала и создает из восстановленных параметров кодирования сигнала цифровой синтезированный речевой сигнал 113. Цифровой синтезированный речевой сигнал 113, восстановленный в речевом декодере 110, преобразуется в аналоговую форму 114 цифро-аналоговым (D/A) преобразователем 115 и воспроизводится через блок 116 динамиков.

Раскрытый в настоящем описании иллюстративный вариант эффективного способа маскирования стирания кадров может быть использован узкополосными или широкополосными кодеками с линейным предсказанием. Данный иллюстративный вариант изобретения раскрыт применительно к широкополосному речевому кодеку, стандарты для которого разработаны Международным союзом телекоммуникаций (ITU) в виде Рекомендаций G722.2, известному как кодек AMR-WB (адаптивный многоскоростной широкополосный кодек) [ATU-T Recommendation G. 722.2 "Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)", Geneva, 2002]. Этот кодек также был выбран для Проекта партнерства третьего поколения (3GPP), предназначенного для широкополосной телефонии в беспроводных системах третьего поколения [3GPP TS 26.190, "AMR Wideband Speech Codec: Transcoding Functions", 3GPP Technical Specification]. AMR-WB кодек может работать с 9 скоростями передачи битов, лежащими в диапазоне от 6,6 до 23,85 кбит/с. В иллюстративных целях в настоящем изобретении использована скорость передачи битов, равная 12,65 кбит/с.

При этом следует понимать, что данный иллюстративный вариант эффективного маскирования стирания кадров может быть применен для кодеков других типов.

В последующих разделах сначала дается общее представление о AMR-WB кодере и AMR-WB декодере. Затем раскрывается иллюстративный вариант нового подхода к повышению устойчивости работы кодека.

Общее представление о AMR-WB кодере

Дискретизированный речевой сигнал кодируется на поблочной основе устройством 200 кодирования по фиг. 2, которое разбито на одиннадцать модулей под номерами с 201 по 211.

Таким образом, входной речевой сигнал 212 обрабатывают на поблочной основе, то есть в вышеупомянутых блоках из L отсчетов, называемых кадрами.

Согласно фиг.2, входной речевой сигнал 212 подвергается субдискретизации с пониженной частотой в модуле 201 субдискретизатора. Сигнал подвергается субдискретизации с понижением частоты от 16 до 12,8 кГц с использованием способов, хорошо известных специалистам в данной области техники. Субдискретизация повышает эффективность кодирования, поскольку кодируется меньшая полоса пропускания. Это также уменьшает алгоритмическую сложность, поскольку уменьшается количество отсчетов в кадре. После субдискретизации частоты кадр из 320 отсчетов длительностью 20 мс сокращается до кадра из 256 отсчетов (коэффициент субдискретизации составляет 4/5).

Затем входной кадр подается в необязательный модуль 202 предобработки. Модуль 202 предобработки может состоять из фильтра верхних частот с частотой среза 50 Гц. Фильтр 202 верхних частот устраняет нежелательные звуковые компоненты с частотой ниже 50 Гц.

Сигнал, прошедший субдискретизацию и предобработку, обозначается как s_p(n), n=0,1,2,...,L-1, где L - длина кадра (256 при частоте дискретизации 12,8 кГц). В иллюстративном варианте предыскажающего фильтра 203 в сигнал s_p(n) вводятся предыскажения с использованием фильтра, имеющего следующую передаточную функцию:

P(z)=1-μz^-1,

где μ - коэффициент предыскажений со значением, лежащим между 0 и 1 (стандартное значение μ составляет 0,7). Назначение предыскажающего фильтра 203 состоит в увеличении высокочастотного содержимого входного речевого сигнала. Он также уменьшает динамический диапазон входного речевого сигнала, что делает его более подходящим для реализации вычислений с фиксированной точкой. Предыскажения также играют важную роль в достижении правильного итогового перцептивного взвешивания ошибки квантования, что способствует повышению качества звука. Сказанное более подробно объясняется ниже.

Выход предыскажающего фильтра 203 обозначен как s_p(n). Этот сигнал используют для выполнения LP-анализа в модуле 204. LP-анализ относится к способам, хорошо известным специалистам в данной области техники. В данном иллюстративном варианте реализации используется автокорреляционный метод. При автокорреляционном методе сигнал s_p(n) сначала подвергается обработке обычно с использованием окна Хэмминга, имеющего длину порядка 30-40 мс. На основе этого сигнала, обработанного методом окна, вычисляются значения автокорреляции, а для вычисления коэффициентов а_j LP-фильтра используют рекурсию Левинсона-Дурбина, где j=1,...p и где p - порядок LP, который обычно равен 16 при широкополосном кодировании. Параметры a_j являются коэффициентами передаточной функции А(z) LP-фильтра, которая задается следующим соотношением:

LP-анализ выполняется в модуле 204, который также выполняет квантование и интерполяцию коэффициентов LP-фильтра. Коэффициенты LP-фильтра сначала преобразуют в другой эквивалентную область, более подходящую для квантования и интерполяции. Области линейных спектральных пар (LSP) и спектральных пар иммитанса (ISP) являются двумя областями, в которых можно эффективно выполнить квантование и интерполяцию. 16 коэффициентов LP-фильтра a_j могут квантоваться с использованием порядка 30-50 битов посредством расщепленного или многоступенчатого квантования или их комбинации. Целью интерполяции является возможность обновления коэффициентов LP-фильтра в каждом субкадре при их передаче единовременно в каждом кадре, что улучшает рабочие характеристики кодера без увеличения скорости передачи битов. Поскольку нет сомнений, что квантование и интерполяция коэффициентов LP-фильтра хорошо известны специалистам в данной области техники, они далее в настоящем описании не описываются.

Ниже описаны остальные операции кодирования, выполняемые на основе субкадров. В данном иллюстративном варианте реализации входной кадр делится на 4 субкадра по 5 мс (64 отсчета при частоте дискретизации 12,8 кГц). В последующем описании фильтр А(z) обозначает неквантованный интерполированный LP-фильтр субкадра, а фильтр В(z) обозначает квантованный интерполированный LP-фильтр субкадра. Фильтр В(z) подает каждый субкадр в мультиплексор 213 для передачи по каналу связи.

В кодерах "анализа через синтез" поиск параметров оптимального основного тона и нововведенных параметров выполняется путем минимизации среднеквадратической ошибки между входным речевым сигналом 212 и синтезированным речевым сигналом в перцептивно взвешенной области. Взвешенный сигнал s_w(n) вычисляется в перцептивно взвешенном фильтре 205 в соответствии с сигналом s(n) из предыскажающего фильтра 203. Используется перцептивно взвешенный фильтр 205 с фиксированным знаменателем, подходящий для широкополосных сигналов. Пример передаточной функции для перцептивно взвешенного фильтра 205 задается следующим соотношением:

W(z)=A(z/y₁)/(1-y₂z^-1), где 0<y₂<y₁.

Для упрощения анализа основного тона сначала в модуле 206 поиска основного тона без обратной связи исходя из взвешенного речевого сигнала s_w(n) оценивается запаздывание T_OL основного тона без обратной связи. Затем анализ основного тона с обратной связью, выполняемый в модуле 207 поиска основного тона с обратной связью на субкадровой основе, ограничивается в окрестности запаздывания T_OL основного тона без обратной связи, что значительно упрощает поиск LTP параметров: T (запаздывание основного тона) и b (усиление основного тона). Анализ основного тона без обратной связи обычно выполняется в модуле 206 каждые 10 мс (2 субкадра) с использованием способов, хорошо известных специалистам в данной области техники.

Сначала вычисляется искомый вектор x для анализа LTP (долгосрочное предсказание). Обычно это выполняется путем вычитания отклика s_o при нулевом входном сигнале взвешенного фильтра синтеза W(z)/В(z) из взвешенного речевого сигнала s_w(n). Этот отклик s_o при нулевом входном сигнале вычисляется вычислителем 208 отклика при нулевом входном сигнале в соответствии с квантованным интерполяционным LP-фильтром В(z) из модуля 204 LP-анализа, квантования и интерполяции, и начальными состояниями взвешенного фильтра синтеза W(z)/В(z), хранящимися в модуле 211 обновления памяти в соответствии с LP-фильтрами A(z) и В(z) и вектором u возбуждения. Эта операция хорошо известна специалистам в данной области техники и поэтому далее не описывается.

В генераторе 209 импульсной характеристики вычисляется N-мерный вектор h импульсной характеристики взвешенного фильтра синтеза W(z)/В(z) с использованием коэффициентов LP-фильтра A(z) и В(z) из модуля 204. Эта операция хорошо известна специалистам в данной области техники и поэтому далее подробно не описывается.

Параметры b, T и j основного тона (или кодового словаря основного тона) с обратной связью вычисляют в модуле 207 поиска основного тона с обратной связью, где в качестве входных данных используется искомый вектор x, вектор h импульсной характеристики и запаздывание T_OL основного тона без обратной связи.

Поиск основного тона состоит в нахождении наилучших значений запаздывания Т и усиления b основного тона, которые минимизируют взвешенную среднеквадратическую ошибку предсказания основного тона, например,

где j=1,2,...k

между целевым вектором x и масштабированной отфильтрованной версией прошлого возбуждения.

В частности, в данном иллюстративном варианте реализации поиск основного тона (кодового словаря основного тона) содержит три этапа.

На первом этапе в модуле 206 поиска основного тона без обратной связи оценивается запаздывание T_OLосновного тона без обратной связи в соответствии с взвешенным речевым сигналом s_w(n). Как показано выше, анализ основного тона без обратной связи обычно выполняют каждые 10 мс (два субкадра) с использованием способов, хорошо известных специалистам в данной области техники.

На втором этапе в модуле 207 поиска основного тона с обратной связью выполняется поиск критерия С поиска для целых значений запаздывания основного тона в окрестности оцененного запаздывания T_OL (обычно ±5) основного тона без обратной связи, что значительно упрощает процедуру поиска. Для обновления отфильтрованного кодового вектора y_T (этот вектор определен в последующем описании) используется простая процедура, не требующая вычисления свертки для каждого запаздывания основного тона. Пример критерия С поиска задается выражением

где t обозначает транспонированный вектор.

Как только на втором этапе найдено оптимальное целое значение основного тона, на третьем этапе поиска (модуль 207) с использованием критерия С поиска проверяют дроби в окрестности этого оптимального целого значения основного тона. Например, в стандарте AMR-WB используется разрешение для суботсчетов, равное 1/4 и 1/2.

В широкополосных сигналах гармоническая структура существует только до определенной частоты, зависящей от речевого сегмента. Таким образом, для обеспечения эффективного представления вклада основного тона в голосовых сегментах широкополосного речевого сигнала необходима гибкость для изменения периодичности в широкополосном спектре. Это достигается обработкой кодового вектора основного тона посредством множества фильтров формирования частоты (например, фильтров нижних частот или полосовых фильтров). Затем выбирается фильтр формирования частоты, который минимизирует среднеквадратическую взвешенную ошибку e^(j). Выбранный фильтр формирования частоты определяется индексом j.

Индекс T кодового словаря основного тона кодируется и передается в мультиплексор 213 для передачи по каналу связи. Усиление b основного тона квантуется и передается в мультиплексор 213. Для кодирования индекса j используется дополнительный бит, причем этот дополнительный бит также подается в мультиплексор 213.

Как только определены параметры b, T и j основного тона или LTP (долгосрочное предсказание), наступает следующий шаг, на котором модуль 210 поиска нововведенного возбуждения по фиг.2 отыскивает оптимальное нововведенное возбуждение. Сначала обновляется искомый вектор x путем вычитания вклада LTP:

x'=x-by_T,

где b - усиление основного тона, а y_T - отфильтрованный вектор кодовой книги основного тона (прошлое возбуждение с задержкой T, отфильтрованной выбранным фильтром формирования частоты (индекс j) и подвергнутое свертке с использованием импульсной характеристики h).

Процедура поиска нововведенного возбуждения выполняется в кодовой книге нововведений для нахождения оптимального кодового вектора возбуждения с_k и усиления g, которые минимизируют среднеквадратическую ошибку Е между искомым вектором x' и масштабированной отфильтрованной версией кодового вектора с_k, например:

где H - нижняя треугольная матрица свертки, полученная из вектора h импульсной характеристики. Индекс k кодовой книги нововведений, соответствующего найденному оптимальному кодовому вектору с_k, и усиление g подаются в мультиплексор 213 для передачи по каналу связи.

Следует отметить, что используемая кодовая книга нововведений является динамической кодовой книгой, состоящей из алгебраической кодовой книги с последующим адаптивным предварительным фильтром F(z), который усиливает конкретные спектральные компоненты, чтобы повысить качество синтезированной речи согласно патенту США № 5444816, выданному Adoul и др. 22 августа 1995 г. В этом иллюстративном варианте реализации поиск в кодовой книге нововведений выполняется в модуле 210 посредством алгебраической кодовой книги, как описано в патентах США №5444816 (Adoul и др.), выданном 22 августа 1995 г.; №5699482, выданном Adoul и др. 17 декабря 1997 г.; №5754976, выданном Adoul и др. 19 мая 1998 г.; и №5701392 (Adoul и др.), датированном 23 декабря 1997 г.

Общее представление о AMR-WB декодере

Речевой декодер 300 по фиг.3, иллюстрирует различные шаги, выполняемые начиная от цифрового входного сигнала 322 (входной поток битов в демультиплексор 317) до выходного дискретизированного речевого сигнала 323 (выход сумматора 321).

Демультиплексор 317 выделяет из двоичной информации (входной поток 322 битов), полученной из цифрового входного канала, параметры модели синтеза. Из каждого полученного двоичного кадра выделяются следующие параметры:

квантованные интерполированные LP-коэффициенты В(z), называемые также параметрами краткосрочного предсказания (STP), которые создаются для каждого кадра;

параметры T, b и j (для каждого субкадра) для долгосрочного предсказания (LTP); и

индекс k кодовой книги нововведений и усиление g (для каждого субкадра).

Текущий речевой сигнал синтезируется на основе этих параметров, как поясняется ниже.

Кодовая книга 318 нововведений в ответ на индекс k формирует кодовый вектор с_kнововведений, который масштабируется декодированным коэффициентом усиления g посредством усилителя 324. В иллюстративном варианте реализации кодовая книга нововведений, как описано в вышеупомянутых патентах США №№5444816, 5699482, 5754976 и 5701392, используют для создания кодового вектора с_k нововведений.

Сформированный масштабированный кодовый вектор на выходе усилителя 324 обрабатывается частотно-зависимым корректором 305 основного тона.

Коррекция периодичности сигнала возбуждения u повышает качество голосовых сегментов. Коррекция периодичности достигается фильтрацией кодового вектора с_k нововведений из кодовой книги нововведений (фиксированного) посредством фильтра F(z) нововведений (корректор 305 основного тона), частотная характеристика которого вводит предыскажения на более высоких частотах в большей степени, чем на более низких частотах. Коэффициенты фильтра F(z) нововведений связаны со значением периодичности в сигнале возбуждения u.

Эффективный иллюстративный способ получения коэффициентов фильтра F(z) нововведений заключается в их привязке к величине вклада основного тона в общем сигнале возбуждения u. Это приводит к зависимости частотной характеристики от периодичности субкадров, причем предыскажения на более высоких частотах оказываются более сильными (сильнее общий спад) для более высоких значений усиления основного тона. Фильтр 305 нововведений обладает эффектом повышения энергии кодового вектора с_k нововведений на более низких частотах, когда сигнал возбуждения u более периодичен, что улучшает периодичность сигнала возбуждения u скорее на более низких частотах, чем на более высоких частотах. Предлагаемая форма для фильтра 305 нововведений выглядит следующим образом:

где α - коэффициент периодичности, полученный из уровня периодичности сигнала возбуждения u. Коэффициент периодичности α вычисляется в генераторе 304 коэффициентов вокализации. Сначала в генераторе 304 коэффициентов вокализации вычисляется коэффициент вокализации r_V в виде

r_v=(E_v-E_C)/(E_V+E_C),

где E_V - энергия масштабированного кодового вектора bv_T, а E_C - энергия масштабированного кодового вектора gc_kнововведений, то есть

Заметим, что значение r_V лежит между -1 и 1 (1 соответствует чисто вокализованным сигналам, а -1 соответствует чисто невокализованным сигналам).

Вышеупомянутый масштабированный кодовый вектор bv_T основного тона создается путем применения задержки T основного тона к кодовой книге 301 основного тона для создания кодового вектора основного тона. Затем кодовый вектор основного тона обрабатывается в фильтре 302 нижних частот, частота среза которого выбирается в соответствии с индексом j из демультиплексора 317, для создания отфильтрованного кодового вектора b_T основного тона. Затем отфильтрованный кодовый вектор v_T основного тона усиливается с коэффициентом усиления b основного тона усилителем 326 для создания масштабированного кодового вектора bv_T основного тона.

В данном иллюстративном варианте реализации, затем в генераторе 304 коэффициентов вокализации вычисляется коэффициент α согласно выражению

который соответствует значению 0 для чисто невокализованных сигналов и значению 0,25 для чисто вокализованных сигналов.

Таким образом, скорректированный сигнал c_f вычисляется путем фильтрации масштабированного кодового вектора gc_k нововведений в фильтре 305 (F(z) нововведений).

Скорректированный сигнал возбуждения u' вычисляется сумматором 320 в виде

Следует заметить, что эта обработка не выполняется в декодере 200. Таким образом, важно обновить содержимое кодовой книги 301 основного тона с использованием прошлого значения сигнала u возбуждения без коррекции, хранящейся в памяти 303, для поддержания синхронизма между кодером 200 и декодером 300. Соответственно, сигнал возбуждения u используется для обновления памяти 303 кодовой книги 301 основного тона, а скорректированный сигнал возбуждения u' используется на входе фильтра 306 LP синтеза.

Синтезированный сигнал s' вычисляется путем фильтрации скорректированного сигнала возбуждения u' в LP-фильтре 306 синтеза, который имеет вид 1/В(z), где В(z) является квантованным интерполированным LP-фильтром в текущем субкадре. Как можно видеть из фиг.3, квантованные интерполированные LP-коэффициенты В(z) по линии 325 от демультиплексора 317 подаются в LP-фильтр 306 синтеза для соответствующей настройки параметров LP-фильтра 306. Фильтр 307 компенсации предыскажений является инверсным по отношению к предыскажающему фильтру 203 по фиг.2. Передаточная функция фильтра 307 компенсации предыскажений задается в виде

где μ - коэффициент предыскажений, значение которого лежит между 0 и 1 (стандартное значение μ=0,7). Можно также использовать фильтр более высокого порядка.

Вектор s' фильтруется в фильтре D(z) 307 компенсации предыскажений для получения вектора s_d, который обрабатывается в фильтре 308 верхних частот для устранения нежелательных частот ниже 50 Гц и затем для получения s_h.

Сверхдискретизатор 309 реализует процесс обратной обработки по отношению к субдискретизатору 201 по фиг.2. В данном иллюстративном варианте при сверхдискретизации происходит преобразование частоты дискретизации 12,8 кГц обратно в исходную частоту дискретизации 16 кГц с использованием способов, хорошо известных специалистам в данной области техники. Сигнал синтеза, прошедший сверхдискретизацию, обозначен как S. Сигнал S также называется синтезированным широкополосным промежуточным сигналом.

Сигнал S синтеза, прошедший сверхдискретизацию, не содержит высокочастотные компоненты, которые были потеряны во время процесса субдискретизации (модуль 201 по фиг.2) в кодере 200. Это обеспечивает восприятие низких частот синтезированного речевого сигнала. Для восстановления полной полосы исходного сигнала в модуле 310 выполняется процедура формирования высокочастотных составляющих, для которой требуется входной сигнал от генератора 304 коэффициентов вокализации (фиг.3).

Результирующая шумовая последовательность z, прошедшая полосовую фильтрацию, от модуля 310 формирования высокочастотных составляющих складывается сумматором 321 с синтезированным речевым сигналом S, прошедшим сверхдискретизацию, для получения конечного восстановленного выходного речевого сигнала s_out на выходе 323. Пример процесса восстановления высокочастотных составляющих описан в Международной патентной заявке PCT, опубликованной под №WO 00/25305 4 мая 2000 года.

Побитовое распределение для AMR-WB кодека при скорости 12,65 кбит/с показано в Таблице 1.

Таблица 1 Побитовое распределение в режиме 12,65 кбит/с
Параметр	Биты/Кадры
Параметры LP	46
Задержка основного тона	30 = 9+ 6+ 9+ 6
Фильтрация основного тона	4 = 1+ 1+ 1+ 1
Коэффициенты усиления	28 = 7+ 7+ 7+ 7
Алгебраическая кодовая книга	144 =36+ 36+ 36+ 36
Бит режима	1
Итого	253 бита = 12,65 кбит/с

Устойчивое маскирование стирания кадров

Стирание кадров является главным фактором, влияющим на качество синтезированной речи в системах цифровой речевой связи, особенно при работе в беспроводных средах и сетях с коммутацией пакетов. В системах беспроводной сотовой связи энергия принятого сигнала может демонстрировать частые сильные замирания, приводящие к высоким частотам ошибок по битам, что более ярко проявляется на границах сотовых ячеек. В этом случае канальный декодер не в состоянии скорректировать ошибки в принятом кадре, и вследствие этого детектор ошибок, обычно используемый после канального декодера, объявляет такой кадр стертым. В сетевых приложениях с пакетной передачей голоса, таких как протокол передачи речи по Интернету (VoIP), речевой сигнал пакетируется, причем в каждом пакете обычно размещается 20-миллисекундный кадр. При связи с коммутацией пакетов в маршрутизаторе пакет может быть потерян, если количество пакетов становится слишком большим, либо пакет может поступить в приемник после длительной задержки, и он должен будет быть объявлен потерянным, если его задержка оказалась больше длины буфера дрожания на приемной стороне. В этих системах работа кодека обычно сопровождается появлением стертых кадров с частотой от 3 до 5%.

Проблема обработки стирания кадров (FER) по существу является двойственной. Во-первых, когда появляется индикатор стертого кадра, должен быть создан пропавший кадр с использованием информации, посланной в предыдущем кадре, и на основе оценки эволюции сигнала в пропавшем кадре. Успешность оценки зависит не только от стратегии маскирования, но также от места в речевом сигнале, где произошло стирание. Во-вторых, должен быть обеспечен плавный переход, когда восстановилась нормальная работа, то есть когда после блока стертых кадров (одного или нескольких) поступил первый пригодный кадр. Это нетривиальная задача, поскольку истинный синтез и расчетный синтез могут развиваться по-разному. При поступлении первого пригодного кадра нарушается синхронизация декодера с кодером. Основной причиной этого является то, что работа кодеров с низкой скоростью передачи битов основана на предсказании основного тона, а во время стертых кадров содержимое памяти предсказателя основного тона уже не совпадает с содержимым памяти в кодере. Эта проблема усугубляется при наличии множества следующих друг за другом стертых кадров. Что касается маскирования, то трудность восстановления стандартной обработки зависит от типа речевого сигнала, в котором появилась ошибка.

Отрицательный эффект от стираний кадров может быть значительно уменьшен путем адаптивного применения маскирования и восстановления стандартной обработки (далее восстановления) для того типа речевого сигнала, в котором произошло стирание. Для этой цели каждый речевой кадр необходимо классифицировать. Эта классификация может быть выполнена в кодере и передана в декодер. В альтернативном варианте такая оценка может быть выполнена в декодере.

Для наилучшего маскирования и восстановления имеется несколько критических характеристик речевого сигнала, которые необходимо тщательно контролировать. Этими критическими характеристиками являются энергия сигнала или его амплитуда, величина периодичности, спектральная огибающая и период основного тона. В случае восстановления речевого сигнала дополнительного улучшения можно достичь, используя управление фазой. При небольшом увеличении скорости передачи битов для обеспечения более качественного управления можно подвергнуть квантованию и передать ряд дополнительных параметров. Если дополнительная полоса пропускания отсутствует, то параметры могут быть оценены в декодере. При обеспечении управления этими параметрами маскирование и восстановление стирания кадров может быть значительно улучшено, в частности, путем повышения сходимости декодированного сигнала с действительным сигналом в кодере и смягчения эффекта несовпадения между кодером и декодером при восстановлении стандартной обработки.

В данном иллюстративном варианте настоящего изобретения раскрыты способы для эффективного маскирования стирания кадров и способы для выделения и передачи параметров, улучшающих рабочие характеристики и сходимость в декодере для кадров, следующих за стертым кадром. Эти параметры включают в себя два или более из следующих параметров: классификация кадра, энергия, информация о речи и информация о фазе. Кроме того, раскрыты способы для выделения указанных параметров в декодере, если передача дополнительных битов невозможна. Наконец, также раскрыты способы для улучшения сходимости в декодере для пригодных кадров, следующих за стертым кадром.

Способы маскирования стирания кадров согласно настоящему иллюстративному варианту были применены в AMR-WB кодеке, описанном выше. Этот кодек будет служить в качестве примерной основы для реализации способов маскирования FER в последующем описании. Как объяснено выше, входной речевой сигнал 212 кодека имеет частоту дискретизации 16 кГц, но он подвергается субдискретизации с понижением частоты дискретизации до 12,8 кГц перед дальнейшей обработкой. В настоящем иллюстративном варианте выполняется обработка FER субдискретизированного сигнала.

На фиг.4 представлена упрощенная блок-схема AMR-WB кодера 400. В этой упрощенной блок-схеме субдискретизатор 201, фильтр 202 верхних частот и фильтр 203 предыскажений сгруппированы вместе в модуле 401 предобработки. Также модуль 207 поиска с обратной связью, вычислитель 208 отклика при нулевом входном сигнале, вычислитель 209 импульсной характеристики, модуль 210 поиска нововведенного возбуждения и модуль 211 обновления памяти сгруппированы в модуле 402 основного тона и поиска кодовой книги нововведений с обратной связью. Эта группировка сделана для упрощения введения новых модулей, относящихся к иллюстративному варианту настоящего изобретения.

На фиг.5 представлено расширение блок-схемы по фиг.4, где добавлены модули, относящиеся к иллюстративному варианту настоящего изобретения. В этих добавленных модулях от 500 до 507 вычисляются, квантуются и передаются дополнительные параметры с целью улучшения маскирования FER и сходимости и восстановления в декодере после стертых кадров. В данном иллюстративном варианте эти параметры включают в себя информацию о классификации, энергии и фазе сигнала (расчетное положение в кадре первого импульса, относящегося к голосовой щели).

В последующих разделах подробно представлено вычисление и квантование этих дополнительных параметров, причем эти операции поясняются со ссылкой на фиг.5. Среди этих параметров более подробно будет рассмотрена классификация сигнала. В последующих разделах объясняется, как выполняется эффективное маскирование FER с использованием этих дополнительных параметров для улучшения сходимости.

Классификация сигнала для маскирования FER и восстановления

Основополагающая идея, лежащая в основе использования классификации речи для восстановления сигнала при наличии стертых кадров, состоит в том, что стратегия идеального маскирования отличается для квазистационарных речевых сегментов и для речевых сегментов с быстро изменяющимися характеристиками. В то время как наилучшая обработка стертых кадров в нестационарных речевых сегментах может быть в итоге сведена к быстрой сходимости параметров речевого кодирования к характеристикам шума окружающей среды, в случае квазистационарного сигнала параметры речевого кодирования не претерпевают значительных изменений и могут поддерживаться практически постоянными в течение нескольких соседних стертых кадров перед демпфированием. Кроме того, оптимальный способ восстановления сигнала вслед за стертым блоком кадров изменяется с изменением классификации речевого сигнала.

Речевой сигнал можно приблизительно классифицировать на вокализованный, невокализованный и паузы. Вокализованная речь содержит значительный объем периодических компонент и может быть дополнительно разделена на следующие категории: вокализованные приступы, вокализованные сегменты, вокализованные переходы и вокализованные сдвиги. Вокализованный приступ определяется как начало вокализованного речевого сегмента после паузы или невокализованного сегмента. В течение вокализованных сегментов параметры речевого сигнала (спектральная огибающая, период основного тона, отношение периодических и непериодических компонент, энергия) изменяются медленно от кадра к кадру. Вокализованный переход характеризуется быстрыми изменениями вокализованной речи, к примеру, переход между гласными. Вокализованные сдвиги характеризуются постепенным уменьшением энергии и звучания голоса в конце локализованных сегментов.

Невокализованные части сигнала характеризуются отсутствием периодической компоненты и могут быть дополнительно разделены на нестабильные кадры, энергия и спектр которых быстро изменяются, и стабильные кадры, где эти характеристики остаются относительно стабильными. Остальные кадры классифицируются как тишина. Кадры тишины содержат все кадры без активной речи, то есть также и кадры только с шумом, если присутствует фоновый шум.

Не для всех из вышеупомянутых классов требуется отдельная обработка. Поэтому в технологиях маскирования ошибок некоторые классы сигнала сгруппированы вместе.

Классификация в кодере

Если в потоке битов имеется доступная полоса пропускания для включения информации о классификации, то классификацию можно выполнять в кодере. Это дает ряд преимуществ. Наиболее важным из них является то, что часто в речевых кодерах осуществляется упреждающий просмотр. Упреждающий просмотр позволяет оценить эволюцию сигнала в следующем кадре, и следовательно, классификация может быть выполнена с учетом поведения сигнала в будущем. Обычно, чем дольше длится упреждающий просмотр, тем лучше может быть выполнена классификация. Дополнительным преимуществом является упрощение, так как большая часть обработки сигнала, необходимая для маскирования стирания кадров, так или иначе требуется для речевого кодирования. Наконец, преимуществом также является работа с исходным сигналом вместо синтезированного сигнала.

Классификация кадра выполняется с учетом стратегии маскирования и восстановления. Другими словами, любой кадр классифицируется таким образом, чтобы маскирование могло быть оптимальным, если следующий кадр отсутствует, или чтобы восстановление могло быть оптимальным, если предыдущий кадр был потерян. Некоторые из классов, используемых для обработки FER, не требуют передачи, так как они могут быть однозначно получены в декодере. В настоящем иллюстративном варианте используется пять (5) отдельных классов, которые определены ниже:

Класс UNVOICED (невокализованный) содержит все невокализованные речевые кадры и все кадры без активной речи. Кадр вокализованного сдвига также можно классифицировать как UNVOICED, если его конец имеет тенденцию к невокализованному классу, и маскирование, предназначенное для невокализованных кадров, может быть использовано для следующего кадра в случае его потери.

Класс UNVOICED TRANSITION (невокализованный переход) содержит невокализованные кадры с возможным вокализованным приступом на конце. Однако приступ еще слишком короткий или недостаточно хорошо сформирован для использования маскирования, предназначенного для вокализованных кадров. Класс UNVOICED TRANSITION может следовать только за кадром, классифицированным как UNVOICED или UNVOICED TRANSITION.

Класс VOICED TRANSITION (вокализованный переход) содержит вокализованные кадры с относительно слабовокализованными характеристиками. Обычно это вокализованные кадры с быстроизменяющимися характеристиками (переходами между гласными) или вокализованные сдвиги, завершающие весь кадр. Класс VOICED TRANSITION может следовать только за кадром, классифицированным как VOICED TRANSITION, VOICED или ONSET (сдвиг).

Класс VOICED содержит вокализованные кадры со стабильными характеристиками. Этот класс может следовать только за кадром, классифицированным как VOICED TRANSITION, VOICED или ONSET.

Класс ONSET содержит все вокализованные кадры со стабильными характеристиками, следующие после кадра, классифицированного как UNVOICED или UNVOICED TRANSITION. Кадры, классифицированные как ONSET, соответствуют вокализованным кадрам приступов, где приступ достаточно хорошо сформирован для использования маскирования, предназначенного для потерянных вокализованных кадров. Способы маскирования, используемые для стирания кадра, следующего за классом ONSET, такие же, как способы после класса VOICED. Различие состоит в стратегии восстановления. Если потерян кадр класса ONSET (то есть, пригодный кадр VOICED поступает после стирания, но последним пригодным кадром перед стиранием был кадр UNVOICED), для искусственного восстановления потерянного приступа можно использовать специальный способ. Этот сценарий можно увидеть на фиг.6. Способы искусственного восстановления приступов более подробно описываются далее. С другой стороны, если пригодный кадр ONSET поступает после стирания, и последним пригодным кадром перед стиранием был кадр UNVOICED, в указанной специальной обработке нет необходимости, так как приступ не был потерян (не был в потерянном кадре).

На фиг.7 показана схема классификационных состояний. Если имеющаяся полоса пропускания достаточна, то классификация выполняется в кодере, и результаты передаются с использованием 2 битов. Как можно видеть из фиг.7, класс UNVOICED TRANSITION и класс VOICED TRANSITION могут быть сгруппированы вместе, так как они могут быть однозначно различены в декодере (UNVOICED TRANSITION может следовать только за кадрами UNVOICED или UNVOICED TRANSITION, VOICED TRANSITION может следовать только за кадрами ONSET, VOICED или VOICED TRANSITION). Для классификации используют следующие параметры: нормализованную корреляцию r_X, показатель наклона спектра e_t, отношение сигнал-шум snr, показатель стабильности основного тона pc, относительная энергия сигнала в конце текущего кадра E_S и счетчик переходов через нуль zc. Как можно видеть из последующего подробного анализа, при вычислении этих параметров используется предварительный просмотр настолько, насколько это возможно, чтобы учесть поведение речевого сигнала также и в следующем кадре.

Нормализованная корреляция r_X вычисляется в виде части модуля 206 поиска основного тона без обратной связи по фиг.5. Этот модуль 206 обычно выдает каждые 10 мс (дважды за кадр) оценку основного тона без обратной связи. Здесь это также используется для выдачи нормализованных показателей корреляции. Эти нормализованные значения корреляции вычисляют по текущему взвешенному речевому сигналу s_W(n) и прошлому взвешенному речевому сигналу с задержкой основного тона без обратной связи. В целях упрощения вычислений взвешенный речевой сигнал s_W(n) подвергают субдискретизации с коэффициентом 2 перед анализом основного тона без обратной связи, снижая частоту дискретизации до 6400 Гц [3GPP TS 26.190, "AMR Wideband Speech Codec: Transcoding Functions", 3GPP Technical Specification]. Средняя корреляция r_Х определяется как

где r_X(1), r_X(2) - нормализованная корреляция второй половины текущего кадра и упреждающего просмотра соответственно. В данном иллюстративном варианте используют упреждающий просмотр в 13 мс в отличие от стандарта AMR-WB, где используется 5 мс. Нормализованную корреляцию r_X(k) вычисляют следующим образом:

где

Корреляции r_X(k) вычисляют с использованием взвешенного речевого сигнала s_W(n). Моменты времени t_k относятся к началу текущего кадра и равны 64 и 128 отсчетов соответственно при скорости или частоте дискретизации 6,4 кГц (10 или 20 мс). Значения p_k=T_OL являются выбранными оценками основного тона без обратной связи. Длина вычисления длительности автокорреляции L_k зависит от периода основного тона. Значения L_k приведены ниже (для частоты дискретизации 6,4 кГц):

L_k=40 отсчетов для p_k31 отсчета,

L_k=62 отсчета для p_k61 отсчета,

L_k=115 отсчетов для p_k> 61 отсчета.

Такие значения L_k гарантируют, что длина коррелированного вектора содержит по меньшей мере один период основного тона, который позволяет надежно обнаружить основной тон без обратной связи. Для длинных периодов основного тона (p₁>61 отсчета) r_X(1) и r_X(2) идентичны, то есть вычисляется только одна корреляция, поскольку длина коррелированных векторов достаточна для того, чтобы отпала необходимость анализа на основе упреждающего просмотра.

Параметр наклона спектра e_t содержит информацию о распределении энергии по частоте. В настоящем иллюстративном варианте наклон спектра оценивается как отношение энергии, сконцентрированной на низких частотах, к энергии, сконцентрированной на высоких частотах. Однако его можно также оценить другими способами, к примеру отношением двух первых коэффициентов автокорреляции речевого сигнала.

Для выполнения спектрального анализа в модуле 500 по фиг.5 для спектрального анализа и оценки энергии спектра используется дискретное преобразование Фурье. Частотный анализ и вычисление наклона выполняется дважды за кадр. Используются 256 точек быстрого преобразования Фурье (FFT) с 50-процентным перекрытием. Окна для анализа размещают таким образом, чтобы использовать весь упреждающий просмотр. В данном иллюстративном варианте начало первого окна помещено на 24 отсчета после начала текущего кадра. Второе окно находится на 128 отсчетов далее. Для взвешивания входного сигнала с целью частотного анализа можно использовать другие окна. В настоящем иллюстративном варианте использован квадратный корень из окна Хэмминга (который эквивалентен синусному окну). Это окно особенно хорошо подходит для методов с добавочным перекрытием. Таким образом, этот конкретный спектральный анализ можно использовать в возможном алгоритме подавления шума на основе спектрального вычитания и анализа/синтеза с добавочным перекрытием.

В модуле 500 по фиг.5 вычисляют энергию на высоких частотах и низких частотах за перцепционными критическими полосами. В настоящем иллюстративном варианте каждая критическая полоса рассматривается вплоть до следующего числа [J.D.Johnston, "Transform Coding of Audio Signals Using Perceptual Noise Criteria", IEEE Jour. on Selected Areas in Communications, vol.6, no.2, pp.314-323]:

Критические полосы = {100.0, 200.0, 300.0, 400.0, 510.0, 630.0, 770.0, 920.0, 1080.0, 1270.0, 1480.0, 1720.0, 2000.0, 2320.0, 2700.0, 3150.0, 3700.0, 4400.0, 5300.0, 6350.0} Гц.

Энергия на более высоких частотах вычисляется в модуле 500 как среднее значение энергий двух последних критических полос

где энергии критических полос e(i) вычисляют как сумму энергий элементов дискретизации в критической полосе, усредненную по количеству элементов дискретизации.

Энергия на более низких частотах вычисляется как среднее значение энергий в 10 первых критических полосах. Средние критические полосы были исключены из вычисления для улучшения различения кадров с высокой концентрацией энергии на низких частотах (обычно вокализированных) и кадров с высокой концентрацией энергии на высоких частотах (обычно невокализованных). В промежутке между низкими и высокими частотами энергетическое содержании не характерно для любого из классов, что приводит к ошибкам при принятии решения.

В модуле 500 энергия на низких частотах вычисляется отдельно для длинных периодов основного тона и коротких периодов основного тона. Для вокализованных сегментов, характерных для речи женщины, для повышения качества различения локализованных и нелокализованных сегментов можно использовать гармоническую структуру спектра. Так, для коротких периодов основного тона вычисляют по элементам дискретизации и при суммировании учитывают только те частотные элементы дискретизации, которые достаточно близки к речевым гармоникам, то есть,

где e_b(i) - энергии элементов дискретизации в первых 25 частотных элементах дискретизации (постоянная составляющая не учитывается). Заметим, что эти 25 элементов дискретизации соответствуют первым 10 критическим полосам. В вышеуказанной сумме не равны нулю только члены, относящиеся к элементам дискретизации, находящимся ближе к ближайшим гармоникам, чем определенный частотный порог. Отсчет cnt равен количеству этих ненулевых членов. Порог для элемента дискретизации, включаемого в указанную сумму, был зафиксирован равным 50 Гц, то есть учитывались только те элементы дискретизации, которые ближе чем на 50 Гц к ближайшим гармоникам. Таким образом, если структура является гармонической на низких частотах, в сумму будет включен только член с высокой энергией. С другой стороны, если структура не является гармонической, то выбор членов будет случайным, и сумма окажется меньше. Таким образом, могут быть обнаружены даже невокализованные звуки с высоким энергетическим содержанием на низких частотах. Такая обработка не может быть выполнена для более длинных периодов основного тона, так как разрешение по частоте недостаточно. Пороговое значение основного тона составляет 128 отсчетов, соответствующих 100 Гц. Это означает, что для периодов основного тона длиннее 128 отсчетов, а также для заведомо невокализованных звуков (то есть, когда ) оценка энергии на низких частотах выполняется для каждой критической полосы и вычисляется как

Значение r_e, вычисленное в модуле 501 оценки шума и коррекции нормализованной корреляции, является коррекцией, которую добавляют к нормализованной корреляции при наличии фонового шума по следующей причине. При наличии фонового шума средняя нормализованная корреляция уменьшается. Однако в целях классификации сигналов это уменьшение не должно влиять на принятие решения об отнесении того или иного сегмента к вокализованному или невокализованному классу. Обнаружено, что зависимость между указанным уменьшением r_eи общей энергией фонового шума в дБ носит приблизительно экспоненциальный характер и может быть выражена с использованием следующего соотношения:

где N_dB означает

где n(i) оценки энергии шума для каждой критической полосы, нормализованной таким же образом, как e(i), а g_dB - максимальный уровень подавления шума в дБ, разрешенный для процедуры ослабления шума. Значение r_e не должно быть отрицательным. Следует заметить, что при использовании эффективного алгоритма ослабления шума и при достаточно высоком g_dB значение r_e практически равно нулю. Это верно только тогда, когда ослабление шума блокировано или если уровень фонового шума значительно выше, чем максимально допустимое ослабление. Влияние r_e можно регулировать путем умножения этого члена на константу.

Наконец, результирующие энергии на более низких и более высоких частотах получают путем вычитания оцененной энергии шума из ранее вычисленных значений и . То есть

где N_h и N_l - средние энергии шума в двух (2) последних критических полосах и первых десяти (10) критических полосах соответственно, вычисленных с использованием уравнений, подобных уравнениям (3) и (5), а f_c- коэффициент коррекции, подбираемый таким образом, чтобы эти показатели оставались близкими к константе при изменении уровня фонового шума. В этом иллюстративном варианте значение f_c было зафиксировано равным 3.

Наклон спектра e_t вычисляется в модуле 503 оценки наклона спектра с использованием соотношения

и усредняется в дБ области для двух (2) частотных анализов, выполняемых на каждом кадре

При измерении отношения сигнал-шум (SNR) используется тот факт, что для обычного кодера согласования формы сигнала отношение SNR гораздо выше для вокализованных звуков. Оценка параметра snr должна выполняться в конце цикла субкадра кодера и вычисляться в модуле 504 вычисления SNR с использованием соотношения

где E_sw - энергия взвешенного речевого сигнала S_w(n) текущего кадра из фильтра 205 с перцептивным взвешиванием, а E_e - энергия ошибки между этим взвешенным речевым сигналом и взвешенным сигналом синтеза текущего кадра из фильтра 205' с перцептивным взвешиванием.

Показатель pc стабильности основного тона оценивает изменение периода основного тона. Он вычисляется в модуле 505 классификации сигнала в соответствии с оценками основного тона без обратной связи следующим образом:

Значения p₀, p₁, p₂ соответствуют оценкам основного тона без обратной связи, вычисленным модулем 206 поиска основного тона без обратной связи из первой половины текущего кадра, второй половины текущего кадра и упреждающего просмотра соответственно.

Относительная энергия E_s кадра вычисляется модулем 500 как разность между энергией текущего кадра в дБ и ее долгосрочным средним значением

где энергию кадра получают в виде суммы энергий критических полос, усредненную по результатам обоих спектральных анализов, выполняемых для каждого кадра

Усредненная за длительный период энергия обновляется на активных речевых кадрах с использованием следующего соотношения:

Последним параметром является параметр zc перехода через нуль, вычисляемый модулем 508 вычисления переходов через нуль по одному кадру речевого сигнала. Этот кадр начинается в середине текущего кадра, при этом используется два (2) субкадра упреждающего просмотра. В данном иллюстративном варианте счетчик zc переходов через нуль подсчитывает количество изменений знака сигнала с положительного на отрицательный в течение этого интервала.

Для более устойчивого выполнения классификации параметры классификации учитываются совместно, формируя функцию полезности fm. Для этой цели параметры классификации сначала масштабируют в диапазоне между 0 и 1, так что значение каждого параметра, типичное для невокализованного сигнала, преобразуется в 0, а значение каждого параметра, типичное для вокализованного сигнала, преобразуется в 1. Между ними используется линейная функция. При рассмотрении параметра px его масштабированная версия получается с использованием выражения

и ограничивается в диапазоне между 0 и 1. Коэффициенты k_p и c_p функции были найдены экспериментально для каждого из параметров, так чтобы искажение сигнала из-за применения способов маскирования и восстановления, используемых при наличии FER, было минимальным. Значения, использованные в данном иллюстративном варианте реализации, сведены в таблицу 2:

Таблица 2 Параметры классификации сигнала и коэффициенты соответствующих функций масштабирования
Параметр	Значение	k_p	c_p
	Нормализованная корреляция	2,857	-1,286
	Наклон спектра	0,04167	0
snr	Отношение сигнал-шум	0,1111	-0,3333
pc	Показатель стабильности основного тона	-0,07143	1,857
E_s	Относительная энергия кадра	0,05	0,45
zc	Счетчик переходов через нуль	-0,04	2,4

Функция полезности определена как

где верхний индекс s указывает масштабированную версию параметров.

Затем выполняется классификация с использованием функции полезности f_m и следующих правил, сведенных в таблицу 3:

Таблица 3 Правила классификации сигналов в кодере
Класс предыдущего кадра	Правило	Класс текущего кадра
ONSET	f_m=0,66	VOICED
VOICED
VOICED TRANSITION
	0,66>f_m=0,49	VOICED TRANSITION
	f_m<0,49	UNVOICED
UNVOICED TRANSITION	f_m>0,63	ONSET
UNVOICED
	0.63=f_m>0,585	UNVOICED TRANSITION
	f_m=0,585	UNVOICED

В случае использования кодера с переменной скоростью передачи битов (VBR) и управляемым источником классификация сигнала неотъемлема от работы кодека. Кодек работает с несколькими скоростями передачи битов, а модуль выбора скорости используется для определения скорости передачи битов, применяемой при кодировании каждого речевого кадра исходя из характера речевого кадра (например вокализованные, невокализованные, переходные кадры, и кадры фонового шума кодируются каждый с использованием специального алгоритма кодирования). Информация о режиме кодирования, а значит, о речевом классе, является неявно выраженной частью потока битов и не нуждается в передаче в явном виде для обработки FER. Затем эту информацию о классе можно использовать для пересмотра решения по классификации, описанного выше.

В применении к AMR-WB-кодеку обнаружение речевой активности (VAD) предоставляется только выбором скорости, управляемой источником. Этот флаг VAD равен 1 для активной речи и равен 0 для паузы. Этот параметр полезен для классификации, так как он непосредственно указывает, что в дальнейшей классификации нет необходимости, если его значение равно 0 (то есть кадр непосредственно классифицирован как UNVOICED). Этот параметр является выходом модуля 402 обнаружения речевой активности (VAD). В литературе существуют другие алгоритмы VAD, причем в целях настоящего изобретения можно использовать любой алгоритм. Например, можно использовать алгоритм VAD, который является частью стандарта G.722.2 [ATU-T Recommendation G. 722.2 "Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)", Geneva, 2002]. Здесь алгоритм VAD основан на выходных данных спектрального анализа модуля 500 (на основе отношения сигнал-шум для каждой критической полосы). VAD, используемое в целях классификации, отличается от VAD, используемого в целях кодирования в соответствии с "затягиванием". В речевых кодерах, использующих генерацию комфортного шума (CNG) для сегментов без активной речи (пауза или только шум), затягивание часто добавляется после речевых всплесков (например, CNG в стандарте AMR-WB [3GPP TS 26192, "AMR Wideband Speech Codec: Comfort Noise Aspects", 3GPP Technical Specification]). Во время затягивания речевой кодер продолжает использоваться, и система переключается на CNG только после окончания периода затягивания. В целях классификации для маскирования FER в такой высокой степени защиты нет необходимости. Следовательно, флаг VAD для классификации будет равен 0 также и во время периода затягивания.

В данном иллюстративном варианте классификация выполняется в модуле 505 на основе вышеописанных параметров: нормализованных корреляций (или информации о звучании голоса) r_x, наклона спектра e_t, snr, показателя стабильности основного тона pc, относительной энергии кадра E_s, частоты переходов через нуль z_c и флага VAD.

Классификация в декодере

Если приложение не допускает передачу информации о классе (нет возможности транспортировки дополнительных битов), классификация может выполняться еще в декодере. Как уже было отмечено, основным недостатком при этом является то, что в речевых декодерах обычно нет утверждающего просмотра. Также часто необходимо ограничивать сложность декодера.

Простая классификация может быть выполнена путем оценки вокализации синтезированного сигнала. В случае кодера типа CELP можно использовать оценку вокализации r_V, вычисляемую по уравнению (1). То есть

где E_v - энергия масштабированного кодового вектора основного тона bv_T, а E_cT - энергия масштабированного кодового вектора gc_k нововведений. Теоретически для чисто вокализованного сигнала r_V=1, а для чисто невокализованного сигнала r_V=-1. Действительная классификация выполняется путем усреднения значений r_V по каждым четырем субкадрам. Результирующий коэффициент f_rV (среднее значение r_V каждых четырех субкадров) используют следующим образом.

Таблица 4 Правило классификации сигнала в декодере
Класс предыдущего кадра	Правило	Класс текущего кадра
ONSET	F_rv>-0,1	VOICED
VOICED
VOICED TRANSITION
	-0.1=f_rv=-0,5	VOICED TRANSITION
	F_rv<-0,5	UNVOICED
UNVOICED TRANSITION	F_rv>-0,1	ONSET
UNVOICED
	-0.1=f_rv=-0,5	UNVOICED TRANSITION
	F_rv<-0,5	UNVOICED

Так же, как и при классификации в кодере, для облегчения классификации можно использовать другие параметры в декодере, такие как параметры LP фильтра или стабильности основного тона.

В случае использования кодера с переменной скоростью передачи битов и управляемым источником информация о режиме кодирования уже является частью потока битов. Таким образом, если используется, например, чисто невокализованный режим кодирования, кадр может быть автоматически классифицирован как UNVOICED. Аналогично, при использовании чисто вокализованного режима кодирования кадр классифицируется как VOICED.

Речевые параметры для обработки FER

Имеется несколько критических параметров, которые необходимо тщательно регулировать во избежание раздражающих искажений при появлении FER. Если можно передавать небольшое количество дополнительных битов, то тогда эти параметры можно оценивать в кодере, квантовать и передавать. В противном случае некоторые из них можно оценивать в декодере. Эти параметры включают в себя классификацию сигнала, информацию об энергии, информацию о фазе и информацию вокализации. Наиболее важным является точное управление энергией речи. Также можно регулировать фазу и периодичность речи для дальнейшего улучшения маскирования FER и восстановления.

Важность управления энергией выходит на первый план в основном тогда, когда восстанавливается нормальная работа после стертого блока кадров. Так как большинство речевых кодеров используют в своей работе предсказание, в декодере невозможно получить правильную оценку энергии. В вокализованных речевых сегментах неточное значение энергии может поддерживаться в течение нескольких последовательных кадров, что очень раздражает особенно тогда, когда эта неточное значение энергии возрастает.

Даже если управление энергией и является самым важным для вокализованной речи из-за долгосрочного предсказания (предсказание основного тона), оно также важно и для невокализованной речи. Причина этого кроется в том, что в кодерах типа CELP часто используется предсказание квантователя усиления нововведений. Неправильное значение энергии во время невокализованных сегментов может вызвать раздражающую высокочастотную флуктуацию.

Управление фазой можно обеспечить несколькими путями, зависящими в основном от имеющейся полосы пропускания. В данном варианте реализации простое управление фазой обеспечивается во время последних вокализованных приступов путем проведения поиска в приблизительной информации о положении импульса, относящегося к голосовой щели.

Таким образом, кроме информации о классификации сигнала, обсужденной в предыдущем разделе, наиболее важной посылаемой информацией является информация об энергии сигнала и о положении в кадре первого импульса, относящегося к голосовой щели (информация о фазе). Если имеется достаточная полоса пропускания, можно также послать информацию вокализации.

Информация об энергии

Информацию об энергии можно оценивать и пересылать либо в остаточной LP-области, либо в области речевого сигнала. Посылка информации в остаточной области имеет недостаток, связанный с тем, что не учитывается влияние LP-фильтра синтеза. Это может быть особенно ненадежным в случае восстановления речи после нескольких потерянных вокализованных кадров (при появлении FER во время вокализованного речевого сегмента). При поступлении FER после вокализованного кадра обычно используется возбуждение последнего пригодного кадра во время маскирования при некоторой стратегии затухания. При появлении нового LP-фильтра синтеза с первым пригодным кадром после стирания может возникнуть несоответствие между энергией возбуждения и усилением LP-фильтра синтеза. Новый фильтр синтеза может создать сигнал синтеза с энергией, сильно отличающейся от энергии последнего синтезированного стертого кадра, а также от энергии исходного сигнала. По этой причине энергию вычисляют и квантуют в области сигнала.

Энергия E_q вычисляется и квантуется в модуле 506 оценки и квантования энергии. Было установлено, что для передачи энергии достаточно 6 битов. Однако это количество битов можно уменьшить без существенных последствий, если нет в наличии достаточного количества битов. В данном предпочтительном варианте используется 6-битовый равномерный квантователь в диапазоне от -15 дБ до 83 дБ с шагом 1,58 дБ. Индекс квантования задается целой частью:

где E - максимальное значение энергии сигнала для кадров, классифицированных как VOICED или ONSET, или средняя энергия на отсчет для других кадров. Для кадров VOICED или ONSET максимальное значение энергии сигнала вычисляется синхронно с основным тоном в конце кадра следующим образом:

где L - длина кадра, а сигнал s(i) означает речевой сигнал (или речевой сигнал с подавленным шумом, если используется подавление шума). В данном иллюстративном варианте s(i) обозначает входной сигнал после субдискретизации с понижением частоты до 12,8 кГц и предобработки. Если задержка основного тона больше 63 отсчетов, то t_E равно запаздыванию основного тона с обратной связью для последнего субкадра. Если задержка основного тона меньше 64 отсчетов, то тогда t_E устанавливают равным удвоенному запаздыванию основного тона с обратной связью для последнего субкадра.

Для этих классов E представляет собой среднюю энергию на отсчет для второй половины текущего кадра, то есть t_E устанавливается равным L/2, и E вычисляют как

Информация об управлении фазой

Управление фазой особенно важно при восстановлении после потерянного сегмента вокализованной речи по тем же причинам, которые были описаны в предыдущем разделе. После блока стертых кадров теряется синхронизация запоминающих устройств декодера с запоминающими устройствами кодера. Для повторной синхронизации декодера может быть послана некоторая фазовая информации в зависимости от имеющейся полосы пропускания. В описанном иллюстративном варианте реализации посылают информацию о приблизительном положении в кадре первого импульса, относящегося к голосовой щели. Затем эта информация используется для восстановления после потерянных вокализованных приступов, как описано ниже.

Обозначим округленное запаздывание основного тона с обратной связью для первого субкадра как T_O. Модуль 507 поиска первого импульса, относящегося к голосовой щели, и квантования отыскивает положение первого импульса τ среди первых отсчетов T_O кадра путем поиска отсчета с максимальной амплитудой. Наилучшие результаты получаются тогда, когда положение первого импульса, относящегося к голосовой щели, измеряется в остаточном сигнале, отфильтрованном фильтром нижних частот.

Положение первого импульса, относящегося к голосовой щели, кодируется с использованием 6 битов следующим образом. Точность, используемая для кодирования положения первого импульса, относящегося к голосовой щели, зависит от значения основного тона с обратной связью для первого субкадра T_O. Это возможно, поскольку указанное значение известно как кодеру, так и декодеру, и на нем не сказывается распространение ошибки после потери одного или нескольких кадров. Когда T_O меньше 64, положение первого импульса, относящегося к голосовой щели, относительно начала кадра кодируется непосредственно с точностью до одного отсчета. Когда 64=T_O<128, положение первого импульса, относящегося к голосовой щели, относительно начала кадра кодируется с точностью до 2-х отсчетов с использованием простого целочисленного деления, то есть τ/2. Когда T_O=128, положение первого импульса, относящегося к голосовой щели, относительно начала кадра кодируется с точностью до 4-х отсчетов путем дополнительного деления τ на 2. В декодере выполняется обратная процедура. Если T_O <64, то принятое квантованное положение используется так, как оно есть. Если 64=T_O<128, то принятое квантованное положение умножается на 2 и увеличивается на 1. Если T_O=128, то принятое квантованное положение умножается на 4 и увеличивается на 2 (приращение на 2 приводит к равномерно распределенной ошибке квантования).

Согласно другому варианту изобретения, где кодируется форма первого импульса, относящегося к голосовой щели, положение первого импульса, относящегося к голосовой щели, определяется путем корреляционного анализа остаточного сигнала и возможных форм импульса, знаков (положительный или отрицательный) и положений. Форма импульса может быть взята из кодовой книги форм импульса, известной как в кодере, так и в декодере, причем этот способ известен специалистам в данной области техники как векторное квантование. Затем форма, знак и амплитуда первого импульса, относящегося к голосовой щели кодируются и передаются в декодер.

Информация о периодичности

В случае достаточной полосы пропускания информация о периодичности или информация вокализации может быть вычислена, передана и использована в декодере для улучшения маскирования стирания кадров. Информация вокализации оценивается на основе нормализованной корреляции. Она может кодироваться достаточно точно 4 битами, однако возможно будет достаточно 3 или даже 2 бита, если потребуется. Информация вокализации обычно необходима только для кадров с периодическими компонентами, при этом более высокое разрешение вокализации необходимо для сильно вокализованных кадров. Нормализованная корреляция задается уравнением (2), причем эта корреляция используется в качестве индикатора информации вокализации. Она квантуется в модуле 507 поиска первого импульса, относящегося к голосовой щели, и квантования. В данном иллюстративном варианте для кодирования информации вокализации был использован кусочно-линейный квантователь следующим образом:

Вновь кодируется и передается целая часть i. Корреляция r_x(2) имеет тот же смысл, что и в уравнении (1). В уравнении (18) вокализация линейно квантуется в диапазоне от 0,65 до 0,89 с шагом 0,03. В уравнении (19) вокализация линейно квантуется в диапазоне 0,92 до 0,98 с шагом 0,01.

Если необходим более широкий диапазон квантования, можно использовать следующее линейное квантование:

Это уравнение квантует вокализацию в диапазоне от 0,4 до 1 с шагом 0,04. Корреляция определена в уравнении (2а).

Уравнения (18) и (19) либо уравнение (20) используются затем в декодере для вычисления r_x(2) или . Обозначим эту квантованную нормализованную корреляцию как r_q. Если вокализация не может быть передана, ее можно оценить, используя коэффициент вокализации из уравнения (2а) путем его отображения в диапазоне от 0 до 1.

Обработка стертых кадров

Способы маскирования FER в данном иллюстративном варианте демонстрируются на примере кодеров типа ACELP. Однако их можно легко применить для любого речевого кодека, где генерируется сигнал синтеза путем фильтрации сигнала возбуждения посредством LP-фильтра синтеза. Стратегия маскирования может быть сведена к сходимости энергии сигнала и огибающей спектра к оцененным параметрам фонового шума. Периодичность сигнала сходится к нулю. Скорость сходимости зависит от параметров класса последнего принятого пригодного кадра и количества последовательных стертых кадров, причем эта скорость регулируется коэффициентом затухания α. Коэффициент α, кроме того, зависит от стабильности LP-фильтра для кадров UNVOICED. Обычно сходимость проявляется медленно, если последний принятый пригодный кадр находится в стабильном сегменте, и быстро, если этот кадр находится в сегменте перехода. Значения α сведены в таблицу 5.

Таблица 5 Значения коэффициента затухания α для маскирования FER
Последний пригодный принятый кадр	Количество последовательных стертых кадров	α
ARTIFICAL ONSET		0,6
ONSET, VOICED	=3	1,0
	>3	0,4
VOICED TRANSITION		0,4
UNVOICED TRANSITION		0,8
UNVOICED	=1	0,6 θ + 0,4
	>1	0,4

Коэффициент стабильности θ вычисляется на основе показателя расстояния между соседними LP-фильтрами. Здесь коэффициент θ относится к показателю расстояния ISF (спектральные частоты иммитанса), который ограничен неравенством 0θ, причем большие значения θ соответствуют более стабильным сигналам. Это приводит к уменьшению флуктуаций энергии и огибающей спектра, когда внутри стабильного невокализованного сегмента появляется изолированный стертый кадр.

Класс сигнала остается неизменным в процессе обработки стертых кадров, то есть класс остается таким же, как в последнем пригодном принятом кадре.

Построение периодической части возбуждения

Для маскирования стертых кадров, следующих за правильно принятым кадром UNVOICED, периодическая часть сигнала возбуждения не создается. Для маскирования стертых кадров, следующих за правильно принятым кадром, иным, чем кадр UNVOICED, формируется периодическая часть сигнала возбуждения путем повторения последнего периода основного тона предыдущего кадра. Если речь идет о первом стертом кадре после пригодного кадра, то этот импульс основного тона сначала фильтруется фильтром нижних частот. В качестве такого фильтра используется трехотводный линейный фазовый фильтр с импульсной характеристикой конечной длительности (FIR) с коэффициентами фильтра, равными 0.18, 0.64, и 0.18. Если имеется информация вокализации, то фильтр можно также выбирать динамически с частотой среза, зависящей от вокализации.

Период основного тона T_C, используемый для выбора последнего импульса основного тона, и, следовательно, используемый во время маскирования, определяется таким образом, чтобы можно было избежать или уменьшить гармоники и субгармоники основного тона. При определении периода T_C основного тона используется следующая логика:

если ((T₃<1.8 T_s) И (T₃>0.6 T_s)) или (T_cnt=30), тогда T_c=T₃, в противном случае T_c=T_s

Здесь T₃ - округленный период основного тона для 4-го субкадра последнего пригодного принятого кадра, а T_S - округленный период основного тона для 4-го субкадра последнего пригодного принятого вокализованного кадра с когерентными оценками основного тона. Стабильный вокализованный кадр определен здесь как кадр VOICED, которому предшествует кадр вокализованного типа (VOICED TRANSITION, VOICED, ONSET). Когерентность основного тона в данном варианте реализации проверяется путем анализа того, являются ли оценки основного тона с обратной связью достаточно близкими, то есть находятся ли отношения между основным тоном прошлого субкадра, основным тоном второго субкадра и основным тоном прошлого субкадра предыдущего кадра в интервале (0,7-1,4).

Данное определение периода T_C основного тона означает, что, если основной тон в конце прошлого годного кадра и основной тон прошлого стабильного кадра близки друг другу, то используется основной тон последнего пригодного кадра. В противном случае, этот основной тон считается неустойчивым и вместо него используют основной тон последнего стабильного кадра, чтобы избежать воздействия неправильных оценок основного тона на вокализованные приступы. Однако такая логика имеет смысл только в том случае, если последний стабильный сегмент не находится слишком далеко в прошлом. Таким образом, задается показатель T_cnt, который ограничивает сферу влияния последнего стабильного сегмента. Если T_cnt больше или равен 30, то есть, если имеется по меньшей мере 30 кадров с момента последнего обновления T_S, то основной тон последнего пригодного кадра используется на систематической основе. T_cnt устанавливается в 0 каждый раз, когда обнаруживается стабильный сегмент, и обновляется T_S. Далее период T_C поддерживается постоянным во время маскирования для всего стертого блока.

Так как для построения периодической части используется последний импульс возбуждения предыдущего кадра, его усиление является приблизительно конкретным в начале маскированного кадра и может быть установлено равным 1. Затем усиление линейно уменьшается по всему кадру от одного отсчета к другому для достижения значения α в конце кадра.

Значения α соответствуют таблице 5, за исключением того, что эти значения модифицируются для стираний, следующих за кадрами VOICED и ONSET, чтобы учесть эволюцию энергии вокализованных сегментов. Эта эволюция может быть экстраполирована до некоторой степени путем использования значений усиления возбуждения основного тона для каждого субкадра последнего пригодного кадра. В общем случае, если эти значения усиления больше 1, то энергия сигнала возрастает, а если они меньше 1, то энергия убывает. Таким образом, α умножается на корректирующий коэффициент f_b, вычисляемый следующим образом:

где b(0), b(1), v(2) и b(3) - усиления основного тона для четырех субкадров последнего правильно принятого кадра. Значение f_b ограничивают в диапазоне между 0,98 и 0,85, прежде чем их использовать для масштабирования периодической части возбуждения. Таким путем избегают случаев сильного увеличения и уменьшения энергии.

Для стертых кадров, следующих за правильно принятым кадром, отличным от UNVOICED, буфер возбуждения обновляется только этой периодической частью возбуждения. Это обновление используется в дальнейшем для построения возбуждения кодовой книги основного тона в следующем кадре.

Построение случайной части возбуждения

Нововведенная (непериодическая) часть сигнала возбуждения создается случайным образом. Она может быть сформирована в виде случайного шума или путем использования кодовой книги нововведений CELP со случайно генерируемыми векторными индексами. В настоящем иллюстративном варианте был использован простой генератор случайных чисел с приблизительно равномерным распределением. Перед настройкой усиления нововведений случайно сформированное нововведение масштабируется относительно некоторого эталонного значения, привязанного здесь к единичной энергии на отсчет.

В начале стертого блока усиление g_s нововведения инициализируется путем использования усилений нововведений возбуждения каждого субкадра последнего пригодного кадра

где g(0), g(1), g(2) и g(3) являются усилениями фиксированной кодовой книги, или нововведений, для четырех (4) субкадров последнего правильно принятого кадра. Стратегия ослабления случайной части возбуждения несколько отличается от ослабления возбуждения основного тона. Причина этого состоит в том, что возбуждение основного тона (и следовательно, периодичность возбуждения) стремится к 0, в то время как случайное возбуждение стремится к энергии возбуждения генерации комфортного шума (CNG). Ослабление усиления нововведения задается в виде

где - усиление нововведения в начале следующего кадра, - усиление нововведения в начале текущего кадра, - усиление возбуждения, используемого во время генерации комфортного шума, а α определяется из таблицы 5. По аналогии с ослаблением периодического возбуждения усиление ослабляется линейно по всему кадру от отсчета к отсчету, начиная с и до значения , которое будет достигнуто к началу следующего кадра.

Наконец, если последний пригодный (правильно принятый или нестертый) кадр отличается от UNVOICED, то возбуждение фильтруется через линейный фазовый фильтр FIR верхних частот с коэффициентами -0.0125, -0.109, 0.7813, -0.109, -0.0125. Для уменьшения количества шумовых компонент во время вокализованных сегментов эти коэффициенты фильтра умножаются на поправочный коэффициент, равный (0,75-0,25 r_v), причем r_v - коэффициент вокализации, определенный в уравнении (1). Затем случайная часть возбуждения добавляется к адаптивному возбуждению для формирования общего сигнала возбуждения.

Если последний пригодный кадр относится к классу UNVOICED, то используют только возбуждение нововведений, которое далее подвергается ослаблению с коэффициентом 0,8. В этом случае обновляется буфер последнего возбуждения возбуждением нововведения, так как периодическая часть возбуждения отсутствует.

Маскирование, синтез и обновления огибающей спектра

Для синтезирования декодированной речи должны быть получены параметры LP-фильтра. Огибающая спектра постепенно перемещается к расчетной огибающей шума окружающей среды. Здесь представление ISF параметров LP используется в виде

В уравнении 25 I₁(j) - это значение j-го ISF текущего кадра, I⁰(j) - значение j-го ISF предыдущего кадра, Iⁿ(j) - значение j-го ISF расчетной огибающей комфортного шума, а p - порядок LP-фильтра.

Синтезированную речь получают путем фильтрации сигнала возбуждения посредством LP-фильтра синтеза. Коэффициенты фильтра вычисляются исходя из представления ISF и интерполируются для каждого субкадра (четыре (4) раза за кадр) во время нормальной работы кодера.

Так как и в квантователе усиления нововведений, и квантователе ISF используется предсказание, их память не будет обновляться после возобновления нормальной работы. Для ослабления этого эффекта содержание памяти квантователей оценивается и обновляется в конце каждого стертого кадра.

Восстановление нормальной работы после стирания

Проблема восстановления после стертого блока кадров является основополагающей из-за сильного предсказания, используемого практически во всех современных речевых кодерах. В частности, речевые кодеры типа CELP достигают высокого отношения сигнал-шум для вокализованной речи благодаря тому, что они используют прошлый сигнал возбуждения для кодирования возбуждения настоящего кадра (долгосрочное предсказание или предсказание основного тона). Также предсказание используется в большинстве квантователей (LP-квантователи, квантователи усиления).

Искусственное построение приступа

Самая сложная ситуация, связанная с использованием долгосрочного предсказания в кодерах CELP, имеет место при потере вокализованного приступа. Потерянный приступ означает, что вокализованный речевой приступ появился где-то во время стертого блока. В этом случае последний пригодный принятый кадр был невокализованным, и следовательно, в буфере возбуждения периодическое возбуждение не обнаружено. Однако первый пригодный кадр после стертого блока является вокализованным, буфер возбуждения в кодере имеет высокую периодичность, и адаптивное возбуждение было закодировано с использованием этого периодического прошлого возбуждения. Так как эта периодическая часть возбуждения полностью пропадает в декодере, может потребоваться несколько кадров для восстановления исходя из этой потери.

Если потерян кадр ONSET (то есть пригодный кадр VOICED поступает после стирания, но последним пригодным кадром перед стиранием был кадр UNVOICED, как показано на фиг.6), для искусственного восстановления потерянного приступа и инициирования вокализованного синтеза используется специальный способ. В начале 1-го пригодного кадра после потерянного приступа искусственно формируется периодическая часть возбуждения в виде периодической цепочки импульсов, прошедших фильтрацию нижних частот, которые разделены периодом основного тона. В настоящем иллюстративном варианте фильтр нижних частот представляет собой простой линейный фазовый FIR фильтр с импульсной характеристикой h_low={-0.0125, 0.109, 0.7813, 0.109, -0.0125}. Однако этот фильтр также можно выбирать динамически с частотой среза, соответствующей информации вокализации, если такая информация имеется. Нововведенная часть возбуждения формируется с использованием нормального декодирования CELP. Записи в кодовой книге нововведений также можно выбирать случайным образом (или само нововведение может быть создано случайным образом), так как синхронизация с исходным сигналом была так или иначе потеряна.

На практике длина искусственного приступа ограничена тем, что по меньшей мере один полный период основного тона построен по этому способу, и этот способ реализуется до конца текущего субкадра. После этого возобновляется регулярная обработка ACELP. Рассматриваемый период основного тона является округленным средним значением периодов декодированного основного тона для всех субкадров, где используется восстановление искусственного приступа. Цепочка импульсов, прошедших фильтрацию нижних частот, реализуется путем помещения импульсных характеристик фильтра нижних частот в буфер адаптивного возбуждения (ранее инициализированный в нуль). Первая импульсная характеристика центрируется в квантованном положении (передаваемом в потоке битов) относительно начала кадра, а остальные импульсы помещаются на расстоянии усредненного основного тона вплоть до конца последнего субкадра, для которого выполняется искусственное восстановление приступа. Если имеющейся полосы частот недостаточно для передачи положения первого импульса, относящегося к голосовой щели, то первая импульсная характеристика может быть помещена произвольно в окрестности половины периода основного тона после начала текущего кадра.

Например, для длины субкадра, составляющей 64 отсчета, будем считать, что периоды основного тона в первом и втором субкадре составят p(0)=70,75 и p(1)=71. Поскольку это превышает размер субкадра, равный 64, искусственный приступ будет сформирован в течение первых двух субкадров, а период основного тона будет равен среднему значению основного тона для двух субкадров, округленному до ближайшего целого, то есть 71. Последние два субкадра будут обрабатываться стандартным декодером CELP.

Затем энергия периодической части возбуждения искусственного приступа масштабируется с усилением, соответствующим квантованной и переданной энергии для маскирования FER (как определено в уравнениях 16 и 17) и делится на коэффициент усиления LP-фильтра синтеза. Усиление LP-фильтра синтеза вычисляется как

где h(i) - импульсная характеристика LP-фильтра синтеза. Наконец, усиление искусственного приступа уменьшается путем умножения периодической части на 0,96. В альтернативном варианте это значение может соответствовать вокализации, если имелась доступная полоса пропускания для передачи также и информации вокализации. В альтернативном варианте без отклонения от сущности данного изобретения искусственный приступ может также быть сформирован в буфере прошлого возбуждения перед вводом в контур субкадра декодера. Это обеспечило бы преимущество, заключающееся в том, что отпадает необходимость специальной обработки для формирования периодической части искусственного приступа, вместо чего можно будет использовать регулярное декодирование CELP.

LP-фильтр для синтеза речи на выходе в случае построения искусственного приступа не интерполируется. Вместо этого для синтеза всего кадра в целом используют принятые LP-параметры.

Управление энергией

Самой важной задачей при восстановлении после стертого блока кадров является правильное управление энергией синтезированного речевого сигнала. Управлять энергией синтеза необходимо потому, что обычно в современных речевых кодерах используется сильное предсказание. Управление энергией является особенно важным, когда блок стертых кадров появляется во время вокализованного сегмента. При возникновении стирания кадра после вокализованного кадра во время маскирования обычно используют возбуждение последнего пригодного кадра с некоторой стратегией ослабления. При возникновении нового LP-фильтра с первым пригодным кадром после стирания может иметь место несоответствие между энергией возбуждения и усилением нового LP-фильтра синтеза. Новый фильтр синтеза может создать сигнал синтеза с энергией, сильно отличающейся от энергии последнего синтезированного стертого кадра, а также от энергии исходного сигнала.

Управление энергией во время первого пригодного кадра после стертого кадра может быть сведено к следующему. Синтезированный сигнал масштабируется, чтобы его энергия совпадала с энергией синтезированного речевого сигнала в конце последнего стертого кадра в начале первого пригодного кадра и чтобы эта энергия стремилась к значению переданной энергии по направлению к концу кадра с предотвращением слишком значимого увеличения энергии.

Управление энергией выполняется в области синтезированного речевого сигнала. Даже если управление энергией осуществляется в речевой области, сигнал возбуждения должен масштабироваться, так как он служит в качестве памяти долгосрочного предсказания для последующих кадров. Затем производится повторный синтез для сглаживания переходов. Пусть g₀ обозначает усиление, используемое для масштабирования 1-го отсчета в текущем кадре, и g₁ - усиление, используемое в конце кадра. Тогда сигнал возбуждения масштабируется следующим образом:

где u_s(i) - масштабированное возбуждение, u(i) - возбуждение перед масштабированием, L - длина кадра, а g_AGC(i) - усиление, значение которого начинается с g₀ и стремится по экспоненциальному закону к g₁

с инициализацией g_AGC(-1)=g_o, где f_AGC - коэффициент ослабления, значение которого в данном варианте реализации установлено равным 0,98. Это значение было найдено экспериментально как компромисс, обеспечивающий плавный переход от предыдущего (стертого) кадра, с одной стороны, и масштабирование прошлого периода основного тона для текущего кадра, насколько это возможно, до правильного (переданного) значения, с другой стороны. Это важно, поскольку переданное значение энергии оценивается синхронно с основным тоном в конце кадра. Значения усиления g₀ и g₁ определяются как

где E_-1- энергия, вычисляемая в конце предыдущего (стертого) кадра, E₀ - энергия в начале текущего (восстановленного) кадра, E₁ - энергия в конце текущего кадра, а E_q - квантованная информация о переданной энергии в конце текущего кадра, вычисляемая в кодере по уравнениям (16, 17). E_-1 и E₁ вычисляются аналогичным образом, за исключением того, что они рассчитываются по синтезированному речевому сигналу s'. E_-1 вычисляется синхронно с основным тоном с использованием периода T_C основного тона для маскирования, а E₁использует округленный период T₃ основного тона для последнего субкадра. E₀ вычисляется аналогичным образом с использованием округленного значения T₀ основного тона для первого субкадра, причем уравнения (16, 17) модифицируются к виду

для кадров VOICED и ONSET. t_E равно округленному запаздыванию основного тона или двойной длине, если основной тон короче 64 отсчетов. Для других кадров

при t_E, равном половине длины кадра. Усиления g₀ и g₁ дополнительно ограничены максимально допустимым значением для предотвращения высокого уровня энергии. Это значение в настоящем иллюстративном варианте реализации было установлено равным 1,2.

При проведении маскирования стирания кадров и восстановления декодера, когда усиление LP-фильтра первого нестертого кадра, принятого после стирания кадра, больше усиления LP-фильтра последнего кадра, стертого во время указанного стирания кадра, выполняется регулировка энергии сигнала возбуждения LP-фильтра, сформированного в декодере во время первого принятого нестертого кадра, до значения усиления LP-фильтра указанного первого принятого нестертого кадра, с использованием следующего соотношения.

Если E_q не может быть передано, то E_q устанавливается равным E₁. Однако, если стирание произошло во время вокализованного речевого сегмента (то есть, последний пригодный кадр перед стиранием и первый пригодный кадр после стирания классифицированы как VOICED TRANSITION, VOICED или ONSET), то должны быть приняты дополнительные меры из-за возможного несоответствия между энергией сигнала возбуждения и усилением LP-фильтра, о чем упоминалось ранее. Особенно опасная ситуация возникает тогда, когда усиление LP-фильтра для первого нестертого кадра, принятого вслед за стиранием кадра, больше, чем усиление LP-фильтра последнего кадра, стертого во время упомянутого стирания кадра. В этом частном случае энергия сигнала возбуждения LP-фильтра, сформированного в декодере во время принятого первого нестертого кадра, подстраивается к усилению LP-фильтра принятого первого нестертого кадра, с использованием следующего соотношения:

где E_LP0энергия импульсной характеристики LP-фильтра для последнего пригодного кадра перед стиранием, а E_LP1энергия LP-фильтра для первого пригодного кадра после стирания. В этом варианте реализации используются LP-фильтры последних субкадров в одном кадре. Наконец, значение E_q ограничено значением E_-1 в этом случае (стирание вокализованного сегмента без передачи информации о E_q).

Следующие исключения, относящиеся к переходам в речевом сигнале, приводят к дополнительной переустановке значения g₀. Если искусственный приступ используется в текущем кадре, g₀устанавливается равным 0,5g₁ для обеспечения постепенного увеличения энергии приступа.

В случае первого пригодного кадра после стирания, классифицированного как ONSET, предотвращается превышение усиления g_oнад g_1.Эта предупредительная мера предпринимается для предотвращения принудительной регулировки усиления в начале кадра (который вероятно еще является по меньшей мере частично невокализованным) от усиления вокализованного приступа (в конце кадра).

Наконец, во время перехода от вокализованного кадра к невокализованному (то есть этот последний пригодный кадр классифицирован как VOICED TRANSITION, VOICED или ONSET, а текущий кадр классифицирован как UNVOICED) или во время перехода от невокализованного активного речевого периода к активному речевому периоду (последний пригодный принятый кадр кодируется как комфортный шум, а текущий кадр кодируется как активная речь), усиление g₀ устанавливается равным g₁.

В случае стирания вокализованного сегмента может возникнуть проблема с ошибочным значением энергии также и в кадрах, следующих за первым пригодным кадром после стирания. Это может случиться, если даже энергия первого пригодного кадра отрегулирована так, как было описано выше. Для смягчения этой проблемы управление энергией может продолжаться вплоть до конца вокализованного сегмента.

Хотя настоящее изобретение было описано в предшествующем описании применительно к иллюстративному варианту его осуществления, этот иллюстративный вариант можно также модифицировать в объеме прилагаемой формулы изобретения, не выходя за рамки объема и сущности данного изобретения.

определениевкодерепараметровмаскирования/восстановления;передачувдекодерпараметровмаскирования/восстановления,определенныхвкодере;иосуществлениемаскированиястертыхкадровивосстановлениявдекодеревсоответствииспринятымипараметрамимаскирования/восстановления.причемформированиепериодическойчастивозбуждениясодержитреализациюпериодическойпоследовательностиимпульсов,подвергнутыхнизкочастотнойфильтрации,путемцентрированияпервойимпульснойхарактеристикифильтранижнихчастотнаквантованномположениипервогоимпульса,относящегосякголосовойщели,всоответствиисначаломкадра;ипомещениякаждойизостальныхимпульсныххарактеристикфильтранижнихчастотнарасстоянии,соответствующемсреднемузначениюосновноготона,отпредыдущейимпульснойхарактеристикивплотьдоконцапоследнегосубкадра,затронутогоформированиемпериодическойчастивозбуждения.измерениепервогоимпульса,относящегосякголосовойщели,ввидеотсчетамаксимальнойамплитудывпериодеосновноготона;иквантованиеположенияотсчетамаксимальнойамплитудывпериодеосновноготона.звуковойсигналявляетсяречевымсигналом;иопределениевкодерепараметровмаскирования/восстановлениясодержитклассификациюпоследовательныхкадровкодированногозвуковогосигналакакневокализованногокадра,кадраневокализованногоперехода,кадравокализованногоперехода,вокализованногокадраиликадраприступа.вычислениекоэффициентакачестванаосновепараметранормализованнойкорреляции,параметраспектральногонаклона,параметраотношениясигнал-шум,параметрастабильностиосновноготона,параметраотносительнойэнергиикадраипараметрапереходачерезнуль;исравнениекоэффициентакачестваспороговымизначениямидляопределенияклассификации.звуковойсигналявляетсяречевымсигналом;определениевкодерепараметровмаскирования/восстановлениясодержитклассификациюпоследовательныхкадровкодированногозвуковогосигналакакневокализованногокадра,невокализованногоперехода,вокализованногоперехода,вокализованногокадраиликадраприступа;иопределениепараметровмаскирования/восстановлениясодержитвычислениепараметраинформацииобэнергиипоотношениюкмаксимальнойэнергиисигналадлякадров,классифицированныхкаквокализованныекадрыиликаккадрыприступа,ивычислениепараметраинформацииобэнергиипоотношениюксреднейэнергиинаотсчетдлядругихкадров.звуковойсигналявляетсяречевымсигналом;определениевкодерепараметровмаскирования/восстановлениясодержитклассификациюпоследовательныхкадровкодированногозвуковогосигнала;причемспособсодержитопределениеклассификациипоследовательныхкадровкодированногозвуковогосигналанаосновепараметранормализованнойкорреляции;ивычислениепараметраинформациивокализациисодержитоцениваниеуказанногопараметраинформациивокализациинаосновенормализованнойкорреляции.послеприеманестертогоневокализованногокадрапослестертогокадра,формированиенепериодическойчастисигналавозбужденияLP-фильтра;вследзаприемом,послестертогокадра,нестертогокадра,отличногоотневокализованного,формированиепериодическойчастисигналавозбужденияLP-фильтрапутемповторенияпоследнегопериодаосновноготонапредыдущегокадра.определениепараметровмаскирования/восстановлениясодержитвычислениепараметраинформациивокализации;фильтрнижнихчастотимеетчастотусреза;иформированиепериодическойчастисигналавозбуждениясодержитдинамическуюрегулировкучастотысрезапоотношениюкпараметруинформациивокализации.звуковойсигналявляетсяречевымсигналом;определениепараметровмаскирования/восстановлениясодержитклассификациюпоследовательныхкадровкодированногозвуковогосигналакакневокализованногокадра,невокализованногоперехода,вокализованногоперехода,вокализованногокадраиликадраприступа;игенерированиеслучайнымобразомнепериодической,нововведеннойчастисигналавозбужденияLP-фильтрадополнительносодержитфильтрациюнововведеннойчастисигналавозбужденияпосредствомфильтраверхнихчастот,еслипоследнийправильнопринятыйкадротличаетсяотневокализованного;ииспользованиетольконововведеннойчастисигналавозбуждения,еслипоследнийправильнопринятыйкадрявляетсяневокализованным.звуковойсигналявляетсяречевымсигналом;определениевкодерепараметровмаскирования/восстановлениясодержитклассификациюпоследовательныхкадровкодированногозвуковогосигналакакневокализованногокадра,невокализованногоперехода,вокализованногоперехода,вокализованногокадраиликадраприступа;осуществлениемаскированиястертыхкадровивосстановлениявдекодересодержит,когдакадрприступапотерян,чтоуказываетсяприсутствиемвокализованногокадра,следующегозастираниемкадров,иневокализованногокадрапередстираниемкадров,восстановлениепотерянногокадраприступапутемформированияпериодическойчастисигналавозбужденияввидеподвергнутойнизкочастотнойфильтрациипериодическойпоследовательностиимпульсов,разделенныхпериодомосновноготона.управлениеэнергиейсинтезированногозвуковогосигнала,сформированногодекодером,причемуправлениеэнергиейсинтезированногозвуковогосигналасодержитмасштабированиесинтезированногозвуковогосигналадлявоспроизведенияэнергиисинтезированногозвуковогосигналавначалепервогонестертогокадра,принятоговследзастираниемкадра,подобнойэнергиисинтезированногосигналавконцепоследнегокадра,стертогововремястираниякадров;исходимостьэнергиисинтезированногозвуковогосигналавпринятомпервомнестертомкадрекэнергии,соответствующейпринятомупараметруинформацииобэнергии,понаправлениюкконцупринятогопервогонестертогокадраприограничениинарастанияэнергии.параметринформацииобэнергиинепередаетсяоткодеракдекодеру;иосуществлениемаскированиястертыхкадровивосстановлениявдекодересодержит,еслиусилениеLP-фильтрапервогонестертогокадра,принятоговследзастираниемкадров,большеусиленияLP-фильтрапоследнегокадра,стертогововремястираниякадров,регулировкуэнергиисигналавозбужденияLP-фильтра,сформированноговдекодеревовремяпринятогопервогонестертогокадра,доусиленияLP-фильтрапринятогопервогонестертогокадра.регулировкаэнергиисигналавозбужденияLP-фильтра,сформированноговдекодеревовремяпринятогопервогонестертогокадра,доусиленияLP-фильтрапринятогопервогонестертогокадрасодержитиспользованиеследующегосоотношения:112900000067.tiftifdrawing390гдеЕ-энергиявконцетекущегокадра,Е-энергияимпульснойхарактеристикиLP-фильтрадляпоследнегонестертогокадра,принятогопередстираниемкадров,aE-энергияимпульснойхарактеристикиLP-фильтрадляпринятогопервогонестертогокадра,следующегозастираниемкадра.звуковойсигналявляетсяречевымсигналом;определениевкодерепараметровмаскирования/восстановлениясодержитклассификациюпоследовательныхкадровкодированногозвуковогосигналакакневокализованногокадра,невокализованногоперехода,вокализованногоперехода,вокализованногокадраиликадраприступа;икогдапервыйнестертыйкадр,принятыйпослестираниякадров,классифицированкаккадрприступа,осуществлениемаскированиястертыхкадровивосстановлениявдекодересодержитограничениедозаданногозначенияусиления,используемогодлямасштабированиясинтезированногозвуковогосигнала.звуковойсигналявляетсяречевымсигналом;определениевкодерепараметровмаскирования/восстановлениясодержитклассификациюпоследовательныхкадровкодированногозвуковогосигналакакневокализованногокадра,невокализованногоперехода,вокализованногоперехода,вокализованногокадраиликадраприступа;ипричемспособсодержитобеспечениеравенстваусиления,используемогодлямасштабированиясинтезированногозвуковогосигналавначалепервогонестертогокадра,принятогопослестираниякадров,усилению,используемомувконцепринятогопервогонестертогокадра:вовремяпереходаотвокализованногокадракневокализованномукадру,еслипоследнийнестертыйкадр,принятыйпередстираниемкадров,классифицированкаквокализованныйпереход,вокализованныйкадриликадрприступа,апервыйнестертыйкадр,принятыйпослестираниякадров,классифицированкакневокализованныйкадр;ивовремяпереходаотпериоданеактивнойречикпериодуактивнойречи,когдапоследнийнестертыйкадр,принятыйпередстираниемкадров,кодированкаккомфортныйшум,апервыйнестертыйкадр,принятыйпослестираниякадров,кодированкакактивнаяречь.определениевкодерепараметровмаскирования/восстановления;ипередачувдекодерпараметровмаскирования/восстановления,определенныхвкодере.измерениепервогоимпульса,относящегосякголосовойщели,ввидеотсчетамаксимальнойамплитудывпериодеосновноготона;иквантованиеположенияотсчетамаксимальнойамплитудывпериодеосновноготона.звуковойсигналявляетсяречевымсигналом;иопределениевкодерепараметровмаскирования/восстановлениясодержитклассификациюпоследовательныхкадровкодированногозвуковогосигналакакневокализованногокадра,невокализованногоперехода,вокализованногоперехода,вокализованногокадраиликадраприступа.вычислениекоэффициентакачестванаосновепараметранормализованнойкорреляции,параметраспектральногонаклона,параметраотношениясигнал-шум,параметрастабильностиосновноготона,параметраотносительнойэнергиикадраипараметрапереходачерезнуль;исравнениекоэффициентакачестваспороговымизначениямидляопределенияклассификации.звуковойсигналявляетсяречевымсигналом;определениевкодерепараметровмаскирования/восстановлениясодержитклассификациюпоследовательныхкадровкодированногозвуковогосигналакакневокализованногокадра,невокализованногоперехода,вокализованногоперехода,вокализованногокадраиликадраприступа;иопределениепараметровмаскирования/восстановлениясодержитвычислениепараметраинформацииобэнергиипоотношениюкмаксимальнойэнергиисигналадлякадров,классифицированныхкаквокализованныеиликаккадрприступа,ивычислениепараметраинформацииобэнергиипоотношениюксреднейэнергиинаотсчетдлядругихкадров.звуковойсигналявляетсяречевымсигналом;определениевкодерепараметровмаскирования/восстановлениясодержитклассификациюпоследовательныхкадровкодированногозвуковогосигнала;причемспособсодержитопределениеклассификациипоследовательныхкадровкодированногозвуковогосигналанаосновепараметранормализованнойкорреляции;ивычислениепараметраинформациивокализациисодержитоцениваниеуказанногопараметраинформациинаосновенормализованнойкорреляции.определениевдекодерепараметровмаскирования/восстановленияизпараметровкодированиясигнала;осуществлениевдекодеремаскированиястертыхкадровивосстановлениявдекодеревсоответствииспараметрамимаскирования/восстановления,определеннымивдекодере.звуковойсигналявляетсяречевымсигналом;иопределениевдекодерепараметровмаскирования/восстановлениясодержитклассификациюпоследовательныхкадровкодированногозвуковогосигналакакневокализованногокадра,невокализованногоперехода,вокализованногоперехода,вокализованногокадраиликадраприступа.послеприеманестертогоневокализованногокадрапослестираниякадра,генерированиенепериодическойчастисигналавозбужденияLP-фильтра;вследзаприемом,послестираниякадра,нестертогокадра,отличногоотневокализованного,формированиепериодическойчастисигналавозбужденияLP-фильтрапутемповторенияпоследнегопериодаосновноготонапредыдущегокадра.определениевдекодерепараметровмаскирования/восстановлениясодержитвычислениепараметраинформациивокализации;фильтрнижнихчастотимеетчастотусреза;иформированиепериодическойчастисигналавозбужденияLP-фильтрасодержитдинамическуюрегулировкучастотысрезапоотношениюкпараметруинформациивокализации.звуковойсигналявляетсяречевымсигналом;определениевдекодерепараметровмаскирования/восстановлениясодержитклассификациюпоследовательныхкадровкодированногозвуковогосигналакакневокализованногокадра,невокализованногоперехода,вокализованногоперехода,вокализованногокадраиликаккадраприступа;игенерированиеслучайнымобразомнепериодической,нововведеннойчастисигналавозбужденияLP-фильтрадополнительносодержитфильтрациюнововведеннойчастисигналавозбужденияLP-фильтрапосредствомфильтраверхнихчастот,еслипринятыйпоследнийнестертыйкадротличаетсяотневокализованного;ииспользованиетольконововведеннойчастисигналавозбужденияLP-фильтра,еслипринятыйпоследнийнестертыйкадрявляетсяневокализованным.звуковойсигналявляетсяречевымсигналом;определениевдекодерепараметровмаскирования/восстановлениясодержитклассификациюпоследовательныхкадровкодированногозвуковогосигналакакневокализованногокадра,невокализованногоперехода,вокализованногоперехода,вокализованногокадраиликадраприступа;осуществлениемаскированиястертыхкадровивосстановлениявдекодересодержит,есликадрприступапотерян,чтоуказываетсяприсутствиемвокализованногокадра,следующегозастираниемкадров,иневокализованногокадрапередстираниемкадров,восстановлениепотерянногокадраприступапутемформированияпериодическойчастисигналавозбужденияввидеподвергнутойнизкочастотнойфильтрациипериодическойпоследовательностиимпульсов,разделенныхпериодомосновноготона.параметринформацииобэнергиинепередаетсяоткодеракдекодеру;иосуществлениемаскированиястертыхкадровивосстановлениядекодерасодержит,еслиусилениеLP-фильтрапервогонестертогокадра,принятоговследзастираниемкадров,большеусиленияLP-фильтрапоследнегокадра,стертогововремястираниякадров,регулировкиэнергиисигналавозбужденияLP-фильтра,созданноговдекодеревовремяпринятогопервогонестертогокадра,доусиленияLP-фильтрапринятогопервогонестертогокадра,сиспользованиемследующегосоотношения:112900000067.tiftifdrawing476гдеE-энергиявконцетекущегокадра,Е-энергияимпульснойхарактеристикиLP-фильтрадляпоследнегонестертогокадра,принятогопередстираниемкадра,aE-энергияимпульснойхарактеристикиLP-фильтрадляпринятогопервогонестертогокадра,следующегозастираниемкадра.средстводляопределениявкодерепараметровмаскирования/восстановления;средстводляпередачивдекодерпараметровмаскирования/восстановления,определенныхвкодере;исредстводляосуществлениямаскированиястертыхкадровивосстановлениявдекодеревсоответствииспринятымипараметрамимаскирования/восстановления,определеннымисредствомопределения.причемсредстводляформированияпериодическойчастивозбуждениясодержитсредстводляреализацииподвергнутойнизкочастотнойфильтрациипериодическойпоследовательностиимпульсовпутем:центрированияпервойимпульснойхарактеристикифильтранижнихчастотнаквантованномположениипервогоимпульса,относящегосякголосовойщели,всоответствиисначаломкадра;ипомещениякаждойизостальныхимпульсныххарактеристикфильтранижнихчастотнарасстоянии,соответствующемсреднемузначениюосновноготона,отпредыдущейимпульснойхарактеристикивплотьдоконцапоследнегосубкадра,затронутогоформированиемпериодическойчастивозбуждения.средстводляизмеренияпервогоимпульса,относящегосякголосовойщели,ввидеотсчетамаксимальнойамплитудывпериодеосновноготона;исредстводляквантованияположенияотсчетамаксимальнойамплитудывпериодеосновноготона.звуковойсигналявляетсяречевымсигналом;исредстводляопределениявкодерепараметровмаскирования/восстановлениясодержитсредстводляклассификациипоследовательныхкадровкодированногозвуковогосигналакакневокализованногокадра,невокализованногоперехода,вокализованногоперехода,вокализованногокадраиликадраприступа.средстводлявычислениякоэффициентакачестванаосновепараметранормализованнойкорреляции,параметраспектральногонаклона,параметраотношениясигнал-шум,параметрастабильностиосновноготона,параметраотносительнойэнергиикадраипараметрапереходачерезнуль;исредстводлясравнениякоэффициентакачестваспороговымизначениямидляопределенияклассификации.звуковойсигналявляетсяречевымсигналом;средстводляопределениявкодерепараметровмаскирования/восстановлениясодержитсредстводляклассификациипоследовательныхкадровкодированногозвуковогосигналакакневокализованногокадра,невокализованногоперехода,вокализованногоперехода,вокализованногокадраиликадраприступа;исредстводляопределенияпараметровмаскирования/восстановлениясодержитсредстводлявычисленияпараметраинформацииобэнергиипоотношениюкмаксимальнойэнергиисигналадлякадров,классифицированныхкаквокализованныйкадриликадрприступа,исредстводлявычисленияпараметраинформацииобэнергиипоотношениюксреднейэнергиинаотсчетдлядругихкадров.средстводляопределениявкодерепараметровмаскирования/восстановлениясодержитсредстводляклассификациипоследовательныхкадровкодированногозвуковогосигнала;причемустройствосодержитсредстводляопределенияклассификациипоследовательныхкадровкодированногозвуковогосигналанаосновепараметранормализованнойкорреляции;исредстводлявычисленияпараметраинформациивокализациисодержитсредстводляоцениванияуказанногопараметраинформациивокализациинаосновенормализованнойкорреляции.средстводлягенерации,вследзаприемомнестертогоневокализованногокадрапослестираниякадров,непериодическойчастисигналавозбужденияLP-фильтра;средстводляформирования,вследзаприемомнестертого,отличногоотневокализованногокадрапослестираниякадров,периодическойчастисигналавозбужденияLP-фильтрапутемповторенияпоследнегопериодаосновноготонапредыдущегокадра.средстводляопределенияпараметровмаскирования/восстановлениясодержитсредстводлявычисленияпараметраинформациивокализации;фильтрнижнихчастотимеетчастотусреза;исредстводляформированияпериодическойчастисигналавозбуждениясодержитсредстводлядинамическойрегулировкичастотысрезапоотношениюкпараметруинформациивокализации.звуковойсигналявляетсяречевымсигналом;средстводляопределенияпараметровмаскирования/восстановлениясодержитсредстводляклассификациипоследовательныхкадровкодированногозвуковогосигналакакневокализованногокадра,невокализованногоперехода,вокализованногоперехода,вокализованногокадраиликадраприступа;исредстводлягенерированияслучайнымобразомнепериодической,нововведеннойчастисигналавозбужденияLP-фильтрадополнительносодержит:фильтрверхнихчастотдляфильтрациинововведеннойчастисигналавозбуждения;исредстводляиспользованиятольконововведеннойчастисигналавозбуждения,еслипоследнийправильнопринятыйкадрявляетсяневокализованным.звуковойсигналявляетсяречевымсигналом;средстводляопределениявкодерепараметровмаскирования/восстановлениясодержитсредстводляклассификациипоследовательныхкадровкодированногозвуковогосигналакакневокализованногокадра,невокализованногоперехода,вокализованногоперехода,вокализованногокадраиликадраприступа;средстводляосуществлениямаскированиястертыхкадровивосстановлениявдекодересодержитсредстводлявосстановленияпотерянногокадраприступа,когдакадрприступапотерян,чтоуказываетсяприсутствиемвокализованногокадра,следующегозастираниемкадров,иневокализованногокадрапередстираниемкадров,путемформированияпериодическойчастисигналавозбужденияввидеподвергнутойнизкочастотнойфильтрациипериодическойпоследовательностиимпульсов,разделенныхпериодомосновноготона.средстводляуправленияэнергиейсинтезированногозвуковогосигнала,сформированногодекодером,причемсредстводляуправленияэнергиейсинтезированногозвуковогосигналасодержитсредстводлямасштабированиясинтезированногозвуковогосигналадлявоспроизведенияэнергииуказанногосинтезированногозвуковогосигналавначалепервогонестертогокадра,принятоговследзастираниемкадров,подобнойэнергиисинтезированногосигналавконцепоследнегокадра,стертогововремястираниякадров;исредстводлясходимостиэнергиисинтезированногозвуковогосигналавпринятомпервомнестертомкадрекэнергии,соответствующейпринятомупараметруинформацииобэнергии,понаправлениюкконцупринятогопервогонестертогокадраприограничениинарастанияэнергии.параметринформацииобэнергиинепередаетсяоткодеракдекодеру;исредстводляосуществлениямаскированиястертыхкадровивосстановлениявдекодересодержитсредстводлярегулировкиэнергиисигналавозбужденияLP-фильтра,сформированноговдекодеревовремяпринятогопервогонестертогокадра,доусиленияLP-фильтрапринятогопервогонестертогокадра,еслиусилениеLP-фильтрапервогонестертогокадра,принятоговследзастираниемкадров,большеусиленияLP-фильтрапоследнегостертогокадра.средстводлярегулировкиэнергиисигналавозбужденияLP-фильтра,сформированноговдекодеревовремяпринятогопервогонестертогокадра,доусиленияLP-фильтрапринятогопервогонестертогокадра,содержитсредстводляиспользованияследующегосоотношения:112900000067.tiftifdrawing557гдеE-энергиявконцетекущегокадра,E-энергияимпульснойхарактеристикиLP-фильтрадляпоследнегонестертогокадра,принятогопередстираниемкадра,aE-энергияимпульснойхарактеристикиLP-фильтрадляпринятогопервогонестертогокадра,следующегозастираниемкадра.звуковойсигналявляетсяречевымсигналом;средстводляопределениявкодерепараметровмаскирования/восстановлениясодержитсредстводляклассификациипоследовательныхкадровкодированногозвуковогосигналакакневокализованногокадра,невокализованногоперехода,вокализованногоперехода,вокализованногокадраиликадраприступа;иеслипервыйнестертыйкадр,принятыйпослестираниякадров,классифицированкаккадрприступа,средстводляосуществлениямаскированиястертыхкадровивосстановлениявдекодересодержитсредстводляограничениядозаданногозначенияусиления,используемогодлямасштабированиясинтезированногозвуковогосигнала.звуковойсигналявляетсяречевымсигналом;средстводляопределениявкодерепараметровмаскирования/восстановлениясодержитсредстводляклассификациипоследовательныхкадровкодированногозвуковогосигналакакневокализованногокадра,невокализованногоперехода,вокализованногоперехода,вокализованногокадраиликадраприступа;ипричемустройствосодержитсредстводляобеспеченияравенстваусиления,используемогодлямасштабированиясинтезированногозвуковогосигналавначалепервогонестертогокадра,принятогопослестираниякадров,усилению,используемомувконцеуказанногопринятогопервогонестертогокадра:вовремяпереходаотвокализованногокадракневокализованномукадру,еслипоследнийнестертыйкадр,принятыйпередстираниемкадров,классифицированкаквокализованныйпереход,вокализованныйкадриликадрприступ,апервыйнестертыйкадр,принятыйпослестираниякадров,классифицированкакневокализованныйкадр;ивовремяпереходаотпериоданеактивнойречикпериодуактивнойречи,еслипоследнийнестертыйкадр,принятыйпередстираниемкадров,кодируетсякаккомфортныйшум,апервыйнестертыйкадр,принятыйпослестираниякадров,кодируетсякакактивнаяречь.средстводляпередачивдекодерпараметровмаскирования/восстановления,определенныхвкодере.средстводляизмеренияпервогоимпульса,относящегосякголосовойщели,ввидеотсчетамаксимальнойамплитудывпериодеосновноготона;исредстводляквантованияположенияотсчетамаксимальнойамплитудывпериодеосновноготона.средстводлявычислениякоэффициентакачестванаосновепараметранормализованнойкорреляции,параметраспектральногонаклона,параметраотношениясигнал-шум,параметрастабильностиосновноготона,параметраотносительнойэнергиикадраипараметрапереходачерезнуль;исредстводлясравнениякоэффициентакачестваспороговымизначениямидляопределенияклассификации.звуковойсигналявляетсяречевымсигналом;средстводляопределениявкодерепараметровмаскирования/восстановлениясодержитсредстводляклассификациипоследовательныхкадровкодированногозвуковогосигналакакневокализованногокадра,невокализованногоперехода,вокализованногоперехода,вокализованногокадраиликадраприступа;исредстводляопределенияпараметровмаскирования/восстановлениясодержитсредстводлявычисленияпараметраинформацииобэнергиипоотношениюкмаксимальнойэнергиисигналадлякадров,классифицированныхкаквокализованныеиликаккадрыприступа,исредстводлявычисленияпараметраинформацииобэнергиипоотношениюксреднейэнергиинаотсчетдлядругихкадров.звуковойсигналявляетсяречевымсигналом;средстводляопределениявкодерепараметровмаскирования/восстановлениясодержитсредстводляклассификациипоследовательныхкадровкодированногозвуковогосигнала;причемустройствосодержитсредстводляопределенияклассификациипоследовательныхкадровкодированногозвуковогосигналанаосновепараметранормализованнойкорреляции;исредстводлявычисленияпараметраинформациивокализациисодержитсредстводляоцениванияпараметраинформациивокализациинаосновенормализованнойкорреляции.средстводляопределениявдекодерепараметровмаскирования/восстановленияизпараметровкодированиясигнала;вдекодере,средстводляосуществлениямаскированиястертыхкадровивосстановлениядекодеравсоответствииспараметрамимаскирования/восстановления,определеннымисредствомопределения.средстводлягенерирования,вследзаприемомнестертогоневокализованногокадрапослестираниякадров,непериодическойчастисигналавозбужденияLP-фильтра;средстводляформирования,вследзаприемом,послестираниякадровнестертогокадра,отличногоотневокализованногонестертогокадрапериодическойчастисигналавозбужденияLP-фильтрапутемповторенияпоследнегопериодаосновноготонапредыдущегокадра.средстводляопределениявдекодерепараметровмаскирования/восстановлениясодержитсредстводлявычисленияпараметраинформациивокализации;фильтрнижнихчастотимеетчастотусреза;исредстводляформированияпериодическойчастисигналавозбужденияLP-фильтрасодержитсредстводлядинамическойрегулировкичастотысрезапоотношениюкпараметруинформациивокализации.звуковойсигналявляетсяречевымсигналом;средстводляопределениявдекодерепараметровмаскирования/восстановлениясодержитсредстводляклассификациипоследовательныхкадровкодированногозвуковогосигналакакневокализованногокадра,невокализованногоперехода,вокализованногоперехода,вокализованногокадраиликадраприступа;исредстводлягенерированияслучайнымобразомнепериодической,нововведеннойчастисигналавозбужденияLP-фильтрадополнительносодержитфильтрверхнихчастотдляфильтрациинововведеннойчастисигналавозбужденияLP-фильтра,еслипринятыйпоследнийнестертыйкадротличаетсяотневокализованного;исредстводляиспользованиятольконововведеннойчастисигналавозбужденияLP-фильтра,еслипринятыйпоследнийнестертыйкадрявляетсяневокализованным.звуковойсигналявляетсяречевымсигналом;средстводляопределениявдекодерепараметровмаскирования/восстановлениясодержитсредстводляклассификациипоследовательныхкадровкодированногозвуковогосигналакакневокализованногокадра,невокализованногоперехода,вокализованногоперехода,вокализованногокадраиликадраприступа;средстводляосуществлениямаскированиястертыхкадровивосстановлениявдекодерасодержитсредстводлявосстановленияпотерянногокадраприступа,есликадрприступапотерян,чтоуказываетсяприсутствиемвокализованногокадра,послестираниякадров,иневокализованногокадрапередстираниемкадровпутемформированияпериодическойчастисигналавозбужденияввидеподвергнутойнизкочастотнойфильтрациипериодическойпоследовательностиимпульсов,разделенныхпериодомосновноготона.параметринформацииобэнергиинепередаетсяоткодеракдекодеру;исредстводляосуществлениямаскированиястертыхкадровивосстановлениявдекодересодержитсредстводлярегулировкиэнергиисигналавозбужденияLP-фильтра,сформированноговдекодеревовремяпринятогопервогонестертогокадра,еслиусилениеLP-фильтрапервогонестертогокадра,принятоговследзастираниемкадров,большеусиленияLP-фильтрапоследнегокадра,стертогововремястираниякадров,доусиленияLP-фильтрапринятогопервогонестертогокадра,сиспользованиемследующегосоотношения:112900000067.tiftifdrawing640гдеE-энергиявконцетекущегокадра,E-энергияимпульснойхарактеристикиLP-фильтрадляпоследнегонестертогокадра,принятогопередстираниемкадра,aE-энергияимпульснойхарактеристикиLP-фильтрадляпринятогопервогонестертогокадра,следующегозастираниемкадра.кодерзвуковогосигнала,реагирующийназвуковойсигнал,длясозданиянаборапараметровкодированиясигнала;средстводляпередачипараметровкодированиясигналавдекодер;декодердлясинтезазвуковогосигналавсоответствииспараметрамикодированиясигнала;иустройствополюбомуизпп.88-132длямаскированиякадровкодированногозвуковогосигнала,стертыхвовремяпередачиоткодеракдекодеру.средство,реагирующеенакодированныйзвуковойсигнал,длявосстановленияизкодированногозвуковогосигналанаборапараметровкодированиясигнала;средстводлясинтезазвуковогосигналавсоответствииспараметрамикодированиясигнала;иустройствополюбомуизпп.158-174длямаскированиякадровкодированногозвуковогосигнала,стертыхвовремяпередачиоткодеракдекодеру.средстводляпередачинаборапараметровкодированиясигналавдекодервсоответствииспараметрамикодированиясигнала,длявосстановлениязвуковогосигнала;иустройствополюбомуизпп.133-по157дляпроведениямаскированиякадров,стертыхвовремяпередачипараметровкодированиясигналаоткодеракдекодеру.1.Способмаскированиякадровкодированногозвуковогосигнала,стертыхвовремяпередачиоткодеракдекодеру,причемспособсодержит12.Способпоп.1,дополнительносодержащийквантованиевкодерепараметровмаскирования/восстановленияпередпередачейпараметровмаскирования/восстановлениявдекодер.23.Способпоп.1,вкоторомпараметрымаскирования/восстановлениявыбираютизгруппы,состоящейизпараметраклассификациисигнала,параметраинформацииобэнергииипараметраинформацииофазе.34.Способпоп.3,вкоторомопределениепараметраинформацииофазесодержитопределениеположенияпервогоимпульса,относящегосякголосовойщели,вкадрекодированногозвуковогосигнала.45.Способпоп.1,вкоторомосуществлениемаскированиястертыхкадровивосстановлениявдекодересодержитосуществлениевосстановлениявдекодеревсоответствиисопределеннымположениемпервогоимпульса,относящегосякголосовойщели,после,поменьшеймере,одногопотерянногокадравокализованногоприступа.56.Способпоп.1,вкоторомосуществлениемаскированиястертыхкадровивосстановлениявдекодересодержитприпотере,поменьшеймере,одногокадраприступа,формированиечастипериодическоговозбужденияввидепериодическойпоследовательностиимпульсов,подвергнутыхнизкочастотнойфильтрации,причемэтиимпульсыразделеныпериодомосновноготона.67.Способпоп.6,содержащийквантованиеположенияпервогоимпульса,относящегосякголосовойщели,передпередачейположенияпервогоимпульса,относящегосякголосовойщели,вдекодер;78.Способпоп.4,вкоторомопределениепараметраинформацииофазедополнительносодержиткодированиевкодереформы,знакаиамплитудыпервогоимпульса,относящегосякголосовойщели,ипередачукодированныхформы,знакаиамплитудыизкодеравдекодер.89.Способпоп.4,вкоторомопределениеположенияпервогоимпульса,относящегосякголосовойщели,содержит910.Способпоп.1,вкотором1011.Способпоп.10,вкоторомклассификацияпоследовательныхкадровсодержитклассификациювкачественевокализованногокаждогокадра,которыйявляетсяневокализованнымкадром,каждогокадрабезактивнойречиикаждоговокализованногокадрасдвига,конецкоторогоимееттенденциюкневокализованномусостоянию.1112.Способпоп.10,вкоторомклассификацияпоследовательныхкадровсодержитклассификациювкачественевокализованногопереходакаждогоневокализованногокадра,имеющегоконецсвозможнымвокализованнымприступом,которыйслишкомкоротокилисформированвнедостаточнойстепенидляобработкивкачествевокализованногокадра.1213.Способпоп.10,вкоторомклассификацияпоследовательныхкадровпредставляетсобойклассификациювкачествевокализованногопереходакаждоговокализованногокадрасотносительнослабымивокализованнымихарактеристиками,втомчислевокализованныхкадровсбыстроизменяющимисяхарактеристикамиивокализованныхсдвигов,которыедлятсяцелыйкадр,причемкадр,классифицированныйвкачествевокализованногоперехода,следуеттолькозакадрами,классифицированнымикаквокализованныйпереход,вокализованныйкадриликадрприступа.1314.Способпоп.10,вкоторомклассификацияпоследовательныхкадровпредставляетсобойклассификациювкачествевокализованногокаждоговокализованногокадрасостабильнымихарактеристиками,причемкадр,классифицированныйкаквокализованный,следуеттолькозакадрами,классифицированнымикаквокализованныйпереход,вокализованныйкадриликадрприступа.1415.Способпоп.10,вкоторомклассификацияпоследовательныхкадровпредставляетсобойклассификациювкачествекадраприступакаждоговокализованногокадрасостабильнымихарактеристиками,следующегопослекадра,классифицированногокакневокализованныйкадриликакневокализованныйпереход.1516.Способпоп.10,содержащийопределениеклассификациипоследовательныхкадровкодированногозвуковогосигналанаоснове,поменьшеймере,частиследующихпараметров:параметрнормализованнойкорреляции,параметрспектральногонаклона,параметротношениясигнал-шум,параметрстабильностиосновноготона,параметротносительнойэнергиикадраипараметрпереходачерезнуль.1617.Способпоп.10,вкоторомопределениеклассификациипоследовательныхкадровсодержит1718.Способпоп.16,содержащийвычислениепараметранормализованнойкорреляциинаосноветекущейвзвешеннойверсииречевогосигналаипрошлойвзвешеннойверсииуказанногоречевогосигнала.1819.Способпоп.16,содержащийоцениваниепараметраспектральногонаклонакакотношенияэнергии,сконцентрированнойнанизкихчастотах,иэнергии,сконцентрированнойнавысокихчастотах.1920.Способпоп.16,содержащийоцениваниепараметраотношениясигнал-шумкакотношенияэнергиивзвешеннойверсииречевогосигналатекущегокадраиэнергииошибкимеждувзвешеннойверсиейречевогосигналатекущегокадраивзвешеннойверсиейсинтезированногоречевогосигналатекущегокадра.2021.Способпоп.16,содержащийвычислениепараметрастабильностиосновноготонавсоответствиисоценкамиосновноготонабезобратнойсвязидляпервойполовинытекущегокадра,второйполовинытекущегокадраиупреждающегопросмотра.2122.Способпоп.16,содержащийвычислениепараметраотносительнойэнергиикадракакразницымеждуэнергиейтекущегокадраидолгосрочнымсреднимзначениемэнергииактивныхречевыхкадров.2223.Способпоп.16,содержащийопределениепараметрапереходачерезнулькакчисласлучаевизменениязнакаречевогосигналаспервойполярностинавторуюполярность.2324.Способпоп.16,содержащийвычисление,поменьшеймере,одногоизпараметров:параметранормализованнойкорреляции,параметраспектральногонаклона,параметраотношениясигнал-шум,параметрастабильностиосновноготона,параметраотносительнойэнергиикадраипараметрапереходачерезнульсиспользованиемдоступногоупреждающегопросмотрадляучетаповеденияречевогосигналавследующемкадре.2425.Способпоп.16,дополнительносодержащийопределениеклассификациипоследовательныхкадровкодированногозвуковогосигналатакженаосновефлагаобнаруженияголосовойактивности.2526.Способпоп.3,вкотором2627.Способпоп.1,вкоторомопределениевкодерепараметровмаскирования/восстановлениясодержитвычислениепараметраинформациивокализации.2728.Способпоп.27,вкотором2829.Способпоп.1,вкоторомосуществлениемаскированиястертыхкадровивосстановлениявдекодересодержит2930.Способпоп.29,вкоторомформированиепериодическойчастисигналавозбужденияLP-фильтрасодержитфильтрациюповторяющегосяпоследнегопериодаосновноготонапредыдущегокадрапосредствомфильтранижнихчастот.3031.Способпоп.30,вкотором3132.Способпоп.1,вкоторомосуществлениемаскированиястертыхкадровивосстановлениявдекодересодержитгенерированиеслучайнымобразомнепериодической,нововведеннойчастисигналавозбужденияLP-фильтра.3233.Способпоп.32,вкоторомгенерированиеслучайнымобразомнепериодической,нововведеннойчастисигналавозбужденияLP-фильтрасодержитгенерированиеслучайногошума.3334.Способпоп.32,вкоторомгенерированиеслучайнымобразомнепериодической,нововведеннойчастисигналавозбужденияLP-фильтрасодержитгенерированиеслучайнымобразоминдексоввекторакодовойкнигинововведений.3435.Способпоп.32,вкотором3536.Способпоп.1,вкотором3637.Способпоп.36,вкоторомосуществлениемаскированиястертыхкадровивосстановлениявдекодередополнительносодержитформированиенововведеннойчастисигналавозбужденияпосредствомстандартногодекодирования.3738.Способпоп.37,вкоторомформированиенововведеннойчастисигналавозбуждениясодержитслучайныйвыборзаписейкодовойкнигинововведений.3839.Способпоп.36,вкоторомвосстановлениепотерянногокадраприступасодержитограничениедлинывосстановленногокадраприступа,такчто,поменьшеймере,одинцелыйпериодосновноготонаформируетсяпутемвосстановлениякадраприступа,причемвосстановлениекадраприступапродолжаетсядоконцатекущегосубкадра.3940.Способпоп.39,вкоторомосуществлениемаскированиястертыхкадровивосстановлениявдекодередополнительносодержит,послевосстановленияпотерянногокадраприступа,возобновлениерегулярнойобработкиCELP,приэтомпериодосновноготонаявляетсяокругленнымсреднимзначениемдекодированныхпериодовосновноготонавсехсубкадров,гдеиспользовановосстановлениекадраприступа.4041.Способпоп.3,вкоторомосуществлениемаскированиястертыхкадровивосстановлениявдекодересодержит4142.Способпоп.3,вкотором4243.Способпоп.42,вкотором4344.Способпоп.41,вкотором4445.Способпоп.41,вкотором4546.Способмаскированиястертыхкадровкодированногозвуковогосигнала,стертыхвовремяпередачиоткодеракдекодеру,причемспособсодержит4647.Способпоп.46,дополнительносодержащийквантованиевкодерепараметровмаскирования/восстановленияпередпередачейуказанныхпараметровмаскирования/восстановлениявдекодер.4748.Способпоп.4б,вкоторомпараметрымаскирования/восстановлениявыбираютизгруппы,состоящейизпараметраклассификациисигнала,параметраинформацииобэнергииипараметраинформацииофазе.4849.Способпоп.48,вкоторомопределениепараметраинформацииофазесодержитопределениеположенияпервогоимпульса,относящегосякголосовойщели,вкадрекодированногозвуковогосигнала.4950.Способпоп.49,вкоторомопределениепараметраинформацииофазедополнительносодержиткодированиевкодереформы,знакаиамплитудыпервогоимпульса,относящегосякголосовойщели,ипередачукодированныхформы,знакаиамплитудыоткодеракдекодеру.5051.Способпоп.49,вкоторомопределениеположенияпервогоимпульса,относящегосякголосовойщели,содержит5152.Способпоп.46,вкотором5253.Способпоп.52,вкоторомклассификацияпоследовательныхкадровсодержитклассификациюкакневокализованногокаждогокадра,которыйявляетсяневокализованныйкадром,каждогокадрабезактивнойречиикаждоговокализованногокадрасдвига,конецкоторогопроявляеттенденциюкневокализованному.5354.Способпоп.52,вкоторомклассификацияпоследовательныхкадровсодержитклассификациювкачественевокализованногопереходакаждогоневокализованногокадра,имеющегоконецсвозможнымвокализованнымприступом,которыйслишкомкоротокилисформированвнедостаточнойстепенидляобработкивкачествевокализованногокадра.5455.Способпоп.52,вкоторомклассификацияпоследовательныхкадровсодержитклассификациювкачествевокализованногопереходакаждоговокализованногокадрасотносительнослабымивокализованнымихарактеристиками,втомчислевокализованныхкадровсбыстроизменяющимисяхарактеристикамиивокализованныхсдвигов,которыедлятсяцелыйкадр,причемкадр,классифицированныйкаквокализованныйпереход,следуеттолькозакадрами,классифицированнымикаквокализованныйпереход,вокализованныйкадриликадрприступа.5556.Способпоп.52,вкоторомклассификацияпоследовательныхкадровсодержитклассификациювкачествевокализованногокаждоговокализованногокадрасостабильнымихарактеристиками,причемкадр,классифицированныйкаквокализованный,следуеттолькозакадрами,классифицированнымикаквокализованныйпереход,вокализованныйкадриликадрприступа.5657.Способпоп.52,вкоторомклассификацияпоследовательныхкадровсодержитклассификациювкачествекадраприступакаждоговокализованногокадрасостабильнымихарактеристиками,следующегопослекадра,классифицированногокакневокализованныйкадриликакневокализованныйпереход.5758.Способпоп.52,содержащийопределениеклассификациипоследовательныхкадровкодированногозвуковогосигналанаоснове,поменьшеймере,частиследующихпараметров:параметрнормализованнойкорреляции,параметрспектральногонаклона,параметротношениясигнал-шум,параметрстабильностиосновноготона,параметротносительнойэнергиикадраипараметрпереходачерезнуль.5859.Способпоп.58,вкоторомопределениеклассификациипоследовательныхкадровсодержит5960.Способпоп.58,содержащийвычислениепараметранормализованнойкорреляциинаосноветекущейвзвешеннойверсииречевогосигналаипрошлойвзвешеннойверсииречевогосигнала.6061.Способпоп.58,содержащийоцениваниепараметраспектральногонаклонакакотношенияэнергии,сконцентрированнойнанизкихчастотах,иэнергии,сконцентрированнойнавысокихчастотах.6162.Способпоп.58,содержащийоцениваниепараметраотношениясигнал-шумкакотношенияэнергиивзвешеннойверсииречевогосигналатекущегокадраиэнергииошибкимеждувзвешеннойверсиейречевогосигналатекущегокадраивзвешеннойверсиейсинтезированногоречевогосигналатекущегокадра.6263.Способпоп.58,содержащийвычислениепараметрастабильностиосновноготонавсоответствиисоценкамиосновноготонабезобратнойсвязидляпервойполовинытекущегокадра,второйполовинытекущегокадраиупреждающегопросмотра.6364.Способпоп.58,содержащийвычислениепараметраотносительнойэнергиикадракакразницымеждуэнергиейтекущегокадраидолгосрочнымсреднимзначениемэнергииактивныхречевыхкадров.6465.Способпоп.58,содержащийопределениепараметрапереходачерезнулькакчисласлучаевизменениязнакаречевогосигналаспервойполярностинавторуюполярность.6566.Способпоп.58,содержащийвычисление,поменьшеймере,одногоизпараметранормализованнойкорреляции,параметраспектральногонаклона,параметраотношениясигнал-шум,параметрастабильностиосновноготона,параметраотносительнойэнергиикадраипараметрапереходачерезнульсиспользованиемимеющегосяпредварительногопросмотрадляучетаповеденияречевогосигналавследующемкадре.6667.Способпоп.58,дополнительносодержащийопределениеклассификациипоследовательныхкадровкодированногозвуковогосигналатакженаосновефлагаобнаруженияголосовойактивности.6768.Способпоп.48,вкотором6869.Способпоп.46,вкоторомопределениевкодерепараметровмаскирования/восстановлениясодержитвычислениепараметраинформациивокализации.6970.Способпоп.68,вкотором7071.Способдлямаскированиякадровзвуковогосигнала,стертыхвовремяпередачизвуковогосигналаизкодеравдекодер,соответственноформепараметровкодированиясигнала,причемспособсодержит7172.Способпоп.71,вкоторомпараметрымаскирования/восстановлениявыбираютизгруппы,состоящейизпараметраклассификациисигнала,параметраинформацииобэнергииипараметраинформацииофазе.7273.Способпоп.71,вкотором7374.Способпоп.71,вкоторомопределениевдекодерепараметровмаскирования/восстановлениясодержитвычислениепараметраинформациивокализации.7475.Способпоп.71,вкоторомосуществлениемаскированиястертыхкадровивосстановлениявдекодересодержит7576.Способпоп.75,вкоторомформированиепериодическойчастисигналавозбуждениясодержитфильтрациюповторяющегосяпоследнегопериодаосновноготонапредыдущегокадрапосредствомфильтранижнихчастот.7677.Способпоп.76,вкотором7778.Способпоп.71,вкоторомосуществлениемаскированиястертыхкадровивосстановлениявдекодересодержитгенерированиеслучайнымобразомнепериодической,нововведеннойчастисигналавозбужденияLP-фильтра.7879.Способпоп.78,вкоторомгенерированиеслучайнымобразомнепериодической,нововведеннойчастисигналавозбужденияLP-фильтрасодержитгенерированиеслучайногошума.7980.Способпоп.78,вкоторомгенерированиеслучайнымобразомнепериодической,нововведеннойчастисигналавозбужденияLP-фильтрасодержитгенерированиеслучайнымобразоминдексоввекторакодовойкнигинововведений.8081.Способпоп.78,вкотором8182.Способпоп.78,вкотором8283.Способпоп.82,вкоторомосуществлениемаскированиястертыхкадровивосстановлениявдекодередополнительносодержитформированиенововведеннойчастисигналавозбужденияLP-фильтрапосредствомстандартногодекодирования.8384.Способпоп.83,вкоторомформированиенововведеннойчастисигналавозбужденияLP-фильтрасодержитслучайныйвыборзаписейкодовойкнигинововведений.8485.Способпоп.82,вкоторомвосстановлениепотерянногокадраприступасодержитограничениедлинывосстановленногокадраприступа,такчто,поменьшеймере,одинцелыйпериодосновноготонаформируетсяпутемвосстановлениякадраприступа,причемвосстановлениепродолжаетсядоконцатекущегосубкадра.8586.Способпоп.85,вкоторомосуществлениемаскированиястертыхкадровивосстановлениявдекодередополнительносодержит,послевосстановленияпотерянногокадраприступа,возобновлениерегулярнойобработкиCELP,причемпериодосновноготонаявляетсяокругленнымсреднимзначениемдекодированныхпериодовосновноготонавсехсубкадров,гдеиспользуетсявосстановлениекадраприступа.8687.Способпоп.72,вкотором8788.Устройстводляосуществлениямаскированиякадровкодированногозвуковогосигнала,стертыхвовремяпередачиоткодеракдекодеру,причемустройствосодержит8889.Устройствопоп.88,дополнительносодержащеесредстводляквантованиявкодерепараметровмаскирования/восстановленияпередпередачейпараметровмаскирования/восстановлениявдекодер.8990.Устройствопоп.88,вкоторомпараметрымаскирования/восстановлениявыбираютизгруппы,состоящейизпараметраклассификациисигнала,параметраинформацииобэнергииипараметраинформацииофазе.9091.Устройствопоп.90,вкоторомсредстводляопределенияпараметраинформацииофазесодержитсредстводляопределенияположенияпервогоимпульса,относящегосякголосовойщели,вкадрекодированногозвуковогосигнала.9192.Устройствопоп.88,вкоторомсредстводляосуществлениямаскированиястертыхкадровивосстановлениядекодерасодержитсредстводляпроведениявосстановлениявдекодеревсоответствиисопределеннымположениемпервогоимпульса,относящегосякголосовойщели,после,поменьшеймере,одногопотерянногокадравокализованногоприступа.9293.Устройствопоп.88,вкоторомсредстводляосуществлениямаскированиястертыхкадровивосстановлениявдекодересодержитсредстводляформирования,припотере,поменьшеймере,одногокадраприступа,частипериодическоговозбужденияввидеподвергнутойнизкочастотнойфильтрациипериодическойпоследовательностиимпульсов,разделенныхпериодомосновноготона.9394.Устройствопоп.93,содержащеесредстводляквантованияположенияпервогоимпульса,относящегосякголосовойщели,передпередачейуказанногоположенияпервогоимпульса,относящегосякголосовойщели,вдекодер;и9495.Устройствопоп.91,вкоторомсредстводляопределенияпараметраинформацииофазедополнительносодержитсредстводлякодированиявкодереформы,знакаиамплитудыпервогоимпульса,относящегосякголосовойщели,исредстводляпередачикодированныхформы,знакаиамплитудыизкодеравдекодер.9596.Устройствопоп.91,вкоторомсредстводляопределенияположенияпервогоимпульса,относящегосякголосовойщели,содержит9697.Устройствопоп.88,вкотором9798.Устройствопоп.97,вкоторомсредстводляклассификациипоследовательныхкадровсодержитсредстводляклассификациивкачественевокализованногокаждогокадра,которыйявляетсяневокализованнымкадром,каждогокадрабезактивнойречиикаждоговокализованногокадрасдвига,конецкоторогопроявляеттенденциюкневокализованномукадру.9899.Устройствопоп.97,вкоторомсредстводляклассификациипоследовательныхкадровсодержитсредстводляклассификациивкачественевокализованногопереходакаждогоневокализованногокадра,имеющегоконецсвозможнымвокализованнымприступом,которыйслишкомкоротокилисформированвнедостаточнойстепенидляобработкивкачествевокализованногокадра.99100.Устройствопоп.97,вкоторомсредстводляклассификациипоследовательныхкадровсодержитсредстводляклассификациивкачествевокализованногопереходакаждоговокализованногокадрасотносительнослабымивокализованнымихарактеристиками,втомчислевокализованныхкадровсбыстроизменяющимисяхарактеристикамиивокализованныхсдвигов,которыедлятсяцелыйкадр,причемкадр,классифицированныйкаквокализованныйпереход,следуеттолькозакадрами,классифицированнымикаквокализованныйпереход,вокализованныйкадриликадрприступа.100101.Устройствопоп.97,вкоторомсредстводляклассификациипоследовательныхкадровсодержитсредстводляклассификациивкачествевокализованногокаждоговокализованногокадрасостабильнымихарактеристиками,причемкадр,классифицированныйкаквокализованный,следуеттолькозакадрами,классифицированнымикаквокализованныйпереход,вокализованныйкадриликадрприступа.101102.Устройствопоп.97,вкоторомсредстводляклассификациипоследовательныхкадровсодержитсредстводляклассификациивкачествекадраприступакаждоговокализованногокадрасостабильнымихарактеристиками,следующегопослекадра,классифицированногокакневокализованныйкадриликакневокализованныйпереход.102103.Устройствопоп.97,содержащиесредстводляопределенияклассификациипоследовательныхкадровкодированногозвуковогосигналанаоснове,поменьшеймере,частиследующихпараметров:параметрнормализованнойкорреляции,параметрспектральногонаклона,параметротношениясигнал-шум,параметрстабильностиосновноготона,параметротносительнойэнергиикадраипараметрпереходачерезнуль.103104.Устройствопоп.103,вкоторомсредстводляопределенияклассификациипоследовательныхкадровсодержит104105.Устройствопоп.103,содержащеесредстводлявычисленияпараметранормализованнойкорреляциинаосноветекущейвзвешеннойверсииречевогосигналаипрошлойвзвешеннойверсииречевогосигнала.105106.Устройствопоп.103,содержащеесредстводляоцениванияпараметраспектральногонаклонакакотношенияэнергии,сконцентрированнойнанизкихчастотах,иэнергии,сконцентрированнойнавысокихчастотах.106107.Устройствопоп.103,содержащеесредстводляоцениванияпараметраотношениясигнал-шумкакотношенияэнергиивзвешеннойверсииречевогосигналатекущегокадраиэнергииошибкимеждувзвешеннойверсиейречевогосигналатекущегокадраивзвешеннойверсиейсинтезированногоречевогосигналатекущегокадра.107108.Устройствопоп.103,содержащеесредстводлявычисленияпараметрастабильностиосновноготонавсоответствиисоценкамиосновноготонабезобратнойсвязидляпервойполовинытекущегокадра,второйполовинытекущегокадраиупреждающегопросмотра.108109.Устройствопоп.103,содержащеесредстводлявычисленияпараметраотносительнойэнергиикадракакразницымеждуэнергиейтекущегокадраидолгосрочнымсреднимзначениемэнергииактивныхречевыхкадров.109110.Устройствопоп.103,содержащеесредстводляопределенияпараметрапереходачерезнулькакчисласлучаевизменениязнакаречевогосигналаспервойполярностинавторуюполярность.110111.Устройствопоп.103,содержащеесредстводлявычисления,поменьшеймере,одногоизпараметранормализованнойкорреляции,параметраспектральногонаклона,параметраотношениясигнал-шум,параметрастабильностиосновноготона,параметраотносительнойэнергиикадраипараметрапереходачерезнульсиспользованиемдоступногоупреждающегопросмотрадляучетаповеденияречевогосигналавследующемкадре.111112.Устройствопоп.103,дополнительносодержащеесредстводляопределенияклассификациипоследовательныхкадровкодированногозвуковогосигналатакженаосновефлагаобнаруженияголосовойактивности.112113.Устройствопоп.90,вкотором113114.Устройствопоп.88,вкоторомсредстводляопределениявкодерепараметровмаскирования/восстановлениясодержитсредстводлявычисленияпараметраинформациивокализации.114115.Устройствопоп.114,вкоторомзвуковойсигналявляетсяречевымсигналом;115116.Устройствопоп.88,вкоторомсредстводляосуществлениямаскированиястертыхкадровивосстановлениявдекодересодержит116117.Устройствопоп.116,вкоторомсредстводляформированияпериодическойчастисигналавозбужденияLP-фильтрасодержитфильтрнижнихчастотдляфильтрацииповторяющегосяпоследнегопериодаосновноготонапредыдущегокадра.117118.Устройствопоп.117,вкотором118119.Устройствопоп.88,вкоторомсредстводляосуществлениямаскированиястертыхкадровивосстановлениявдекодересодержитсредстводлягенерированияслучайнымобразомнепериодической,нововведеннойчастисигналавозбужденияLP-фильтра.119120.Устройствопоп.119,вкоторомсредстводлягенерированияслучайнымобразомнепериодической,нововведеннойчастисигналавозбужденияLP-фильтрасодержитсредстводлягенерированияслучайногошума.120121.Устройствопоп.119,вкоторомсредстводлягенерированияслучайнымобразомнепериодической,нововведеннойчастисигналавозбужденияLP-фильтрасодержитсредстводлягенерированияслучайнымобразоминдексоввекторакодовойкнигинововведений.121122.Устройствопоп.119,вкотором122123.Устройствопоп.88,вкотором123124.Устройствопоп.123,вкоторомсредстводляосуществлениямаскированиястертыхкадровивосстановлениявдекодередополнительносодержитсредстводляформированиянововведеннойчастисигналавозбужденияпосредствомстандартногодекодирования.124125.Устройствопоп.124,вкоторомсредстводляформированиянововведеннойчастисигналавозбуждениясодержитсредстводляслучайноговыборазаписейкодовойкнигинововведений.125126.Устройствопоп.123,вкоторомсредстводлявосстановленияпотерянногокадраприступасодержитсредстводляограничениядлинывосстановленногокадраприступа,такчто,поменьшеймере,одинцелыйпериодосновноготонаформируетсяпутемвосстановлениякадраприступа,причемуказанноевосстановлениепродолжаетсядоконцатекущегосубкадра.126127.Устройствопоп.126,вкоторомсредстводляосуществлениямаскированиястертыхкадровивосстановлениявдекодередополнительносодержитсредстводлявозобновления,послевосстановленияпотерянногокадраприступа,регулярнойобработкиCELP,причемпериодосновноготонаявляетсяокругленнымсреднимзначениемдекодированныхпериодовосновноготонавсехсубкадров,гдеиспользуетсявосстановлениекадраприступа.127128.Устройствопоп.90,вкоторомсредстводляосуществлениямаскированиястертыхкадровивосстановлениявдекодересодержит128129.Устройствопоп.90,вкотором129130.Устройствопоп.129,вкотором130131.Устройствопоп.128,вкотором131132.Устройствопоп.128,вкотором132133.Устройстводляосуществлениямаскированиякадровкодированногозвуковогосигнала,стертыхвовремяпередачиоткодеракдекодеру,содержащеесредстводляопределениявкодерепараметровмаскирования/восстановления;и133134.Устройствопоп.133,дополнительносодержащеесредстводляквантованиявкодерепараметровмаскирования/восстановленияпередпередачейуказанныхпараметровмаскирования/восстановлениявдекодер.134135.Устройствопоп.133,вкоторомпараметрымаскирования/восстановлениявыбираютизгруппы,состоящейизпараметраклассификациисигнала,параметраинформацииобэнергииипараметраинформацииофазе.135136.Устройствопоп.135,вкоторомсредстводляопределенияпараметраинформацииофазесодержитсредстводляопределенияположенияпервогоимпульса,относящегосякголосовойщели,вкадрекодированногозвуковогосигнала.136137.Устройствопоп.136,вкоторомсредстводляопределенияпараметраинформацииофазедополнительносодержитсредстводлякодированиявкодереформы,знакаиамплитудыпервогоимпульса,относящегосякголосовойщели,исредстводляпередачикодированныхформы,знакаиамплитудыоткодеракдекодеру.137138.Устройствопоп.136,вкоторомсредстводляопределенияположенияпервогоимпульса,относящегосякголосовойщели,содержит138139.Устройствопоп.133,вкоторомзвуковойсигналявляетсяречевымсигналом;исредстводляопределениявкодерепараметровмаскирования/восстановлениясодержитсредстводляклассификациипоследовательныхкадровкодированногозвуковогосигналакакневокализованногокадра,невокализованногоперехода,вокализованногоперехода,вокализованногокадраиликадраприступа.139140.Устройствопоп.139,вкоторомсредстводляклассификациипоследовательныхкадровсодержитсредстводляклассификациивкачественевокализованногокаждогокадра,которыйявляетсяневокализованнымкадром,каждогокадрабезактивнойречиикаждоговокализованногокадрасдвига,конецкоторогопроявляеттенденциюкневокализованномукадру.140141.Устройствопоп.139,вкоторомсредстводляклассификациипоследовательныхкадровсодержитсредстводляклассификациивкачественевокализованногопереходакаждогоневокализованногокадра,имеющегоконецсвозможнымвокализованнымприступом,которыйслишкомкоротокилисформированвнедостаточнойстепенидляобработкивкачествевокализованногокадра.141142.Устройствопоп.139,вкоторомсредстводляклассификациипоследовательныхкадровсодержитсредстводляклассификациивкачествевокализованногопереходакаждоговокализованногокадрасотносительнослабымивокализованнымихарактеристиками,втомчислевокализованныхкадровсбыстроизменяющимисяхарактеристикамиивокализованныхсдвигов,которыедлятсяцелыйкадр,причемкадр,классифицированныйкаквокализованныйпереход,следуеттолькозакадрами,классифицированнымикаквокализованныйпереход,вокализованныйкадриликадрприступа.142143.Устройствопоп.139,вкоторомсредстводляклассификациипоследовательныхкадровсодержитсредстводляклассификациивкачествевокализованногокадракаждоговокализованногокадрасостабильнымихарактеристиками,причемкадр,классифицированныйкаквокализованный,следуеттолькозакадрами,классифицированнымикаквокализованныйпереход,вокализованныйкадриликадрприступа.143144.Устройствопоп.139,вкоторомсредстводляклассификациипоследовательныхкадровсодержитсредстводляклассификациивкачествекадраприступакаждоговокализованногокадрасостабильнымихарактеристиками,следующегопослекадра,классифицированногокакневокализованныйкадриликакневокализованныйпереход.144145.Устройствопоп.139,содержащеесредстводляопределенияклассификациипоследовательныхкадровкодированногозвуковогосигналанаоснове,поменьшеймере,частиследующихпараметров:параметрнормализованнойкорреляции,параметрспектральногонаклона,параметротношениясигнал-шум,параметрстабильностиосновноготона,параметротносительнойэнергиикадраипараметрпереходачерезнуль.145146.Устройствопоп.145,вкоторомсредстводляопределенияклассификациипоследовательныхкадровсодержит146147.Устройствопоп.145,содержащеесредстводлявычисленияпараметранормализованнойкорреляциинаосноветекущейвзвешеннойверсииречевогосигналаипрошлойвзвешеннойверсииречевогосигнала.147148.Устройствопоп.145,содержащеесредстводляоцениванияпараметраспектральногонаклонакакотношенияэнергии,сконцентрированнойнанизкихчастотах,иэнергии,сконцентрированнойнавысокихчастотах.148149.Устройствопоп.145,содержащеесредстводляоцениванияпараметраотношениясигнал-шумкакотношенияэнергиивзвешеннойверсииречевогосигналатекущегокадраиэнергииошибкимеждувзвешеннойверсиейречевогосигналатекущегокадраивзвешеннойверсиейсинтезированногоречевогосигналатекущегокадра.149150.Устройствопоп.145,содержащеесредстводлявычисленияпараметрастабильностиосновноготонавсоответствиисоценкамиосновноготонабезобратнойсвязидляпервойполовинытекущегокадра,второйполовинытекущегокадраиупреждающегопросмотра.150151.Устройствопоп.145,содержащеесредстводлявычисленияпараметраотносительнойэнергиикадракакразницымеждуэнергиейтекущегокадраидолгосрочнымсреднимзначениемэнергииактивныхречевыхкадров.151152.Устройствопоп.145,содержащеесредстводляопределенияпараметрапереходачерезнулькакчисласлучаевизменениязнакаречевогосигналаспервойполярностинавторуюполярность.152153.Устройствопоп.45,содержащеесредстводлявычисления,поменьшеймере,одногоизпараметров:параметранормализованнойкорреляции,параметраспектральногонаклона,параметраотношениясигнал-шум,параметрастабильностиосновноготона,параметраотносительнойэнергиикадраипараметрапереходачерезнульсиспользованиемдоступногоупреждающегопросмотрадляучетаповеденияречевогосигналавследующемкадре.153154.Устройствопоп.145,дополнительносодержащеесредстводляопределенияклассификациипоследовательныхкадровкодированногозвуковогосигналатакженаосновефлагаобнаруженияголосовойактивности.154155.Устройствопоп.135,вкотором155156.Устройствопоп.133,вкоторомсредстводляопределениявкодерепараметровмаскирования/восстановлениясодержитсредстводлявычисленияпараметраинформациивокализации.156157.Устройствопоп.156,вкотором157158.Устройстводлямаскированиякадровзвуковогосигнала,стертыхвовремяпередачизвуковогосигналаизкодеравдекодер,соответственноформепараметровкодированиясигнала,причемустройствосодержит158159.Устройствопоп.158,вкоторомпараметрымаскирования/восстановлениявыбираютизгруппы,состоящейизпараметраклассификациисигнала,параметраинформацииобэнергииипараметраинформацииофазе.159160.Устройствопоп.158,вкоторомзвуковойсигналявляетсяречевымсигналом;исредстводляопределениявдекодерепараметровмаскирования/восстановлениясодержитсредстводляклассификациипоследовательныхкадровкодированногозвуковогосигналакакневокализованногокадра,невокализованногоперехода,вокализованногоперехода,вокализованногокадраиликадраприступа.160161.Устройствопоп.158,вкоторомсредстводляопределениявдекодерепараметровмаскирования/восстановлениясодержитсредстводлявычисленияпараметраинформациивокализации.161162.Устройствопоп.158,вкоторомсредстводляосуществлениямаскированиястертыхкадровивосстановлениявдекодересодержит162163.Устройствопоп.162,вкоторомсредстводляформированияпериодическойчастисигналавозбуждениясодержитфильтрнижнихчастотдляфильтрацииповторяющегосяпоследнегопериодаосновноготонапредыдущегокадра.163164.Устройствопоп.163,вкотором164165.Устройствопоп.158,вкоторомсредстводляосуществлениямаскированиястертыхкадровивосстановлениявдекодересодержитсредстводлягенерированияслучайнымобразомнепериодической,нововведеннойчастисигналавозбужденияLP-фильтра.165166.Устройствопоп.165,вкоторомсредстводлягенерированияслучайнымобразомнепериодической,нововведеннойчастисигналавозбужденияLP-фильтрасодержитсредстводлягенерированияслучайногошума.166167.Устройствопоп.165,вкоторомсредстводлягенерированияслучайнымобразомнепериодической,нововведеннойчастисигналавозбужденияLP-фильтрасодержитсредстводлягенерированияслучайнымобразоминдексоввекторакодовойкнигинововведений.167168.Устройствопоп.165,вкотором168169.Устройствопоп.165,вкотором169170.Устройствопоп.169,вкоторомсредстводляосуществлениямаскированиястертыхкадровивосстановлениявдекодередополнительносодержитсредстводляформированиянововведеннойчастисигналавозбужденияLP-фильтрапосредствомстандартногодекодирования.170171.Устройствопоп.170,вкоторомсредстводляформированиянововведеннойчастисигналавозбужденияLP-фильтрасодержитсредстводляслучайноговыборазаписейкодовойкнигинововведений.171172.Устройствопоп.169,вкоторомсредстводлявосстановленияпотерянногокадраприступасодержитсредстводляограничениядлинысформированногокадраприступа,такчто,поменьшеймере,одинцелыйпериодосновноготонаформируетсяпутемвосстановлениякадраприступа,причемуказанноевосстановлениепродолжаетсядоконцатекущегосубкадра.172173.Устройствопоп.172,вкоторомсредстводляосуществлениямаскированиястертыхкадровивосстановлениявдекодередополнительносодержитсредстводлявозобновления,послевосстановленияпотерянногокадраприступа,регулярнойобработкиCELP,причемпериодосновноготонаявляетсяокругленнымсреднимзначениемдекодированныхпериодовосновноготонавсехсубкадров,гдеиспользуетсявосстановлениекадраприступа.173174.Устройствопоп.159,вкотором174175.Системадлякодированияидекодированиязвуковогосигнала,содержащая175176.Декодердлядекодированиякодированногозвуковогосигнала,содержащий176177.Кодердлякодированиязвуковогосигнала,содержащийсредство,реагирующееназвуковойсигнал,длясозданиянаборапараметровкодированиясигнала;177

Источник поступления информации: Роспатент

‹ › ×

Авторы
Правообладатели

Showing 1-10 of 13 items.

10.03.2014

№216.012.aa90

Устройство и способ квантования и обратного квантования lpc-фильтров в суперкадре

Предложены устройство и способ квантования, в суперкадре, включающем в себя последовательность кадров, LPC-фильтров, вычисленных во время кадров из этой последовательности. Устройство и способ квантования LPC-фильтров содержат: абсолютный квантователь для квантования, в первую очередь, одного...

Тип: Изобретение

Номер охранного документа: 0002509379

Дата охранного документа: 10.03.2014

Показать авторов и правообладателей

10.04.2015

№216.013.3d86

Гибкая и масштабируемая комбинированная обновляющая кодовая книга для использования в кодере и декодере celp

Изобретение относится к средствам кодирования комбинированной обновляющей кодовой книги. Технический результат заключается в обеспечении возможности быстрого поиска даже с очень большими кодовыми книгами. Устройство содержит модуль предварительного квантования первого остатка возбуждения...

Тип: Изобретение

Номер охранного документа: 0002547238

Дата охранного документа: 10.04.2015

Показать авторов и правообладателей

20.07.2015

№216.013.6534

Прямая компенсация наложения спектров во временной области с применением в области взвешенного или исходного сигнала

Изобретение относится к способам и устройствам для прямой компенсации наложения спектров во временной области в кодированном сигнале, передаваемом с кодера на декодер. Технический результат заключается в обеспечении компенсации эффектов наложения спектров в точке переключения между режимами...

Тип: Изобретение

Номер охранного документа: 0002557455

Дата охранного документа: 20.07.2015

Показать авторов и правообладателей

10.09.2015

№216.013.784b

Способ и устройство для обработки аудио сигнала и для обеспечения большей детализации во времени для комбинированного унифицированного кодека речи и аудио (usac)

Изобретение относится к обработке аудио сигнала. Технический результат - упрощение устройства и обеспечение большей детализации во времени для комбинированного унифицированного кодека речи и аудио. Устройство для обработки аудио сигнала содержит процессор обработки сигналов и конфигуратор....

Тип: Изобретение

Номер охранного документа: 0002562384

Дата охранного документа: 10.09.2015

Показать авторов и правообладателей

12.01.2017

№217.015.5d0a

Устройство и способ для квантования усилений адаптивного и фиксированного вкладов возбуждения в кодеке celp

Изобретение относится к средствам для квантования усиления фиксированного вклада возбуждения в кадре, включающем в себя подкадры, кодированного звукового сигнала. Технический результат заключается в повышении надежности кодирования путем уменьшения вероятности потерь пакетов в течение передачи...

Тип: Изобретение

Номер охранного документа: 0002591021

Дата охранного документа: 10.07.2016

Показать авторов и правообладателей

13.01.2017

№217.015.7195

Кодирование обобщенных аудиосигналов на низких скоростях передачи битов и с низкой задержкой

Изобретение относится к средствам смешанного кодирования во временной области/частотной области для кодирования входного звукового сигнала. Технический результат заключается в уменьшении времени задержки обработки при классификации звукового сигнала и при его преобразовании в частотную область....

Тип: Изобретение

Номер охранного документа: 0002596584

Дата охранного документа: 10.09.2016

Показать авторов и правообладателей

29.12.2017

№217.015.fe5f

Устройство и способ для уменьшения шума квантования в декодере временной области

Изобретение относится к средствам для уменьшения шума квантования в сигнале, содержащемся в возбуждении во временной области, декодируемом декодером временной области. Технический результат заключается в повышении качества кодируемого речевого сигнала. Декодированное возбуждение во временной...

Тип: Изобретение

Номер охранного документа: 0002638744

Дата охранного документа: 15.12.2017

Показать авторов и правообладателей

18.01.2019

№219.016.b08f

Способы, кодер и декодер для линейного прогнозирующего кодирования и декодирования звуковых сигналов после перехода между кадрами, имеющими различные частоты дискретизации

Изобретение относится к средствам для линейного прогнозирующего кодирования и декодирования звуковых сигналов после перехода между кадрами, имеющими различные частоты дискретизации. Технический результат заключается в повышении эффективности кодирования при переключении LP-кодеков между двумя...

Тип: Изобретение

Номер охранного документа: 0002677453

Дата охранного документа: 16.01.2019

Показать авторов и правообладателей

01.03.2019

№219.016.cbd5

Способы и устройства для введения низкочастотных предыскажений в ходе сжатия звука на основе acelp/tcx

Изобретение относится к способу введения низкочастотных предыскажений в спектр звукового сигнала, преобразуемого в частотной области и содержащего коэффициенты преобразования, сгруппированные в ряд блоков, в котором вычисляется максимальная интенсивность для одного блока и определяется индекс...

Тип: Изобретение

Номер охранного документа: 0002389085

Дата охранного документа: 10.05.2010

Показать авторов и правообладателей

20.03.2019

№219.016.e7f0

Система и способ улучшения декодированного тонального звукового сигнала

Изобретение относится к системе и способу улучшения декодированного тонального звукового сигнала, в частности музыкального сигнала, закодированного с использованием речевого кодека, посредством подавления уровня шума квантования в областях спектра, в которых наблюдается малая энергия....

Тип: Изобретение

Номер охранного документа: 0002470385

Дата охранного документа: 20.12.2012

Показать авторов и правообладателей

Showing 1-2 of 2 items.

11.03.2019

№219.016.d8b2

Способ и устройство для квантования усиления в широкополосном речевом кодировании с переменной битовой скоростью передачи

Изобретение относится к способу и устройству квантования усиления для воплощения в методе кодирования дискретизированного звукового сигнала, обработанного в процессе кодирования последовательными кадрами из L выборок, где каждый кадр делится на некоторое число подкадров и каждый подкадр...

Тип: Изобретение

Номер охранного документа: 0002316059

Дата охранного документа: 27.01.2008

Показать авторов и правообладателей

09.05.2019

№219.017.4e5c

Способ и устройство для частотно-избирательного выделения основного тона синтезированной речи

Изобретение относится к способу и устройству для последующей обработки декодированного звукового сигнала, причем декодированный звуковой сигнал делят на совокупность сигналов частотных поддиапазонов и последующую обработку применяют к, по меньшей мере, одному из совокупности сигналов частотных...

Тип: Изобретение

Номер охранного документа: 0002327230

Дата охранного документа: 20.06.2008

Показать авторов и правообладателей