×
01.03.2019
219.016.d04d

Результат интеллектуальной деятельности: СПОСОБ И СРЕДСТВО ДЛЯ КОДИРОВАНИЯ ИНФОРМАЦИИ ФОНОВОГО ШУМА

Вид РИД

Изобретение

№ охранного документа
0002440674
Дата охранного документа
20.01.2012
Аннотация: Изобретение относится к способу и средству для кодирования информации фонового шума при способе речевого кодирования. Соответствующий способ предусматривает такое выполнение кодера в речевом кодеке, что он спустя предварительно определенное время холостого хода (период ожидания) осуществляет повторное вычисление усредненной энергии и функции автокорреляции. При этом административные узлы в сети информируют кодер об установленном в сети передачи данных времени холостого хода. Технический результат - улучшение реализации прерывистой передачи в масштабируемых речевых кодеках. 2 н. и 7 з.п. ф-лы, 1 ил.

Изобретение относится к способу и средству для кодирования информации фонового шума при способе речевого кодирования.

Для телефонных разговоров с самого начала развития телекоммуникации предусмотрено ограничение ширины полосы для аналоговой передачи речи. Передача речи осуществляется в ограниченном диапазоне частот от 300 Гц до 3400 Гц.

Такой ограниченный диапазон частот предусмотрен и при многих способах кодирования речевых сигналов для современной цифровой телекоммуникации. Перед процессом кодирования для этого осуществляется ограничение ширины полосы аналогового сигнала. Для кодирования и декодирования при этом используется кодек, который на основе описанного ограничения ширины полосы в частотном диапазоне между 300 Гц и 3400 Гц далее называется как узкополосный речевой кодек. Под понятием «кодек» при этом понимается как предписание кодирования для цифрового кодирования аудиосигналов, так и предписание декодирования для декодирования данных с целью восстановления аудиосигнала.

Узкополосный речевой кодек известен, например, из ITU-T-Рекомендации G.729. Посредством описанного там предписания кодирования предусматривается передача узкополосного речевого сигнала со скоростью передачи данных 8 кбит/с.

Кроме того, известны так называемые широкополосные речевые кодеки, которые для улучшения восприятия прослушивания предусматривают кодирование в расширенном частотном диапазоне. Подобный расширенный частотный диапазон лежит, например, между частотой 50 Гц и 7000 Гц. Широкополосный речевой кодек известен, например, из ITU-T-Рекомендации G.729.EV.

Обычно способы кодирования для широкополосных речевых кодеков выполняются масштабируемыми. Под масштабируемостью здесь понимается то, что передаваемые кодированные данные содержат различные ограниченные блоки, которые содержат узкополосную составляющую, широкополосную составляющую и/или полную ширину полосы кодированного речевого сигнала. Такое масштабируемое выполнение обеспечивает, с одной стороны, обратную совместимость на стороне приемника, а с другой стороны предоставляет простую возможность, в случае ограниченных пропускных способностей передачи данных в канале передачи, согласование на стороне передатчика и приемника скорости передачи данных и величины передаваемых кадров данных.

Для снижения скорости передачи данных посредством кодека обычно предусматривается сжатие передаваемых данных. Сжатие реализуется, например, посредством способа кодирования, при котором для кодирования речевых данных определяются параметры для сигнала возбуждения и параметры фильтра. Параметры фильтра, а также параметры, определяющие сигнал возбуждения, затем передаются в приемник. Там посредством кодека синтезируется синтезированный речевой сигнал, который в максимально возможной степени подобен первоначальному речевому сигналу в отношении субъективного слухового восприятия. С помощью этого способа, также называемого способом «анализа через синтез», передаются не сами определенные и оцифрованные выборки, а определенные параметры, которые обеспечивают возможность синтеза речевого сигнала на стороне приемника.

Дополнительную возможность для сокращения скорости передачи данных предоставляет способ прерывистой передачи, известный специалистам также как определяемый термином DTX. Основополагающей целью DTX является снижение скорости передачи данных в случае речевой паузы.

Для этого на стороне передатчика используется распознавание речевой паузы (детектирование речевой активности - VAD), при котором при снижении ниже определенного уровня сигнала принимается решение о речевой паузе.

Обычно приемник во время речевой паузы не ожидает полной тишины. Напротив, полная тишина на стороне приемника вызвала бы заблуждение или привела бы к предположению о разъединении соединения. По этой причине применяются способы для формирования так называемого комфортного шума.

В случае комфортного шума речь идет о шуме, который синтезируется для заполнения фазы тишины на стороне приемника. Комфортный шум служит субъективному впечатлению продолжающего существовать соединения, не требуя предусматриваемой для передачи речевых сигналов скорости передачи данных. Иными словами, для кодирования шума на стороне передатчика требуются меньшие затраты, чем для кодирования речевых данных. Для того чтобы еще реалистически воспринимать синтезирование комфортного шума на стороне приема, данные передаются с существенно более низкой скоростью передачи данных. При этом передаваемые данные специалистами обозначаются как SID (описание вставки паузы).

Современные масштабируемые способы кодирования для широкополосных речевых кодеков до сих пор не предусматривали никакого способа прерывистой передачи.

В уровне техники существует проблема с применением прерывистой передачи (DTX) в связи с генератором комфортного шума на стороне приемника (CNG - генератор комфортного шума).

Известные в настоящее время способы прерывистой передачи предусматривают передачу SID-кадров с актуализированными параметрами для характеристики фонового шума только в том случае, если со стороны кодера обнаруживаются существенные изменения в энергии фонового шума во время неактивного речевого периода (речевой паузы). Это касается как узкополосных (от 50 Гц до 4 кГц), так и широкополосных речевых кодеков, которые поддерживают способы для прерывистой передачи. Обычно для принятия решения о передаче SID-кадра с актуализированными параметрами используется специфицированное в декодере граничное значение энергии (пороговое значение энергии). Это приводит к тому, что при непревышении определенного граничного значения энергии не посылается никакой SID-кадр. Со стороны сети передачи данных между приемником и передатчиком подобное прерывание в передаче SID-кадров воспринимается как состояние покоя или «свободный (незанятый) канал». Для гарантирования поддержания соединения («действующего соединения») тогда требуется дополнительный обмен данными, чтобы показать, что соединение должно поддерживаться.

Известный дополнительно предусматриваемый обмен данными осуществляется в настоящее время таким образом, что административный узел в сетевом управлении сетью передачи данных запрашивает от передающего узла, т.е. передающего кодера, повторно передать последний переданный SID-кадр, если прошедшее время холостого хода («период ожидания») относительно последнего посланного SID-кадра рассматривается как слишком длинное для соответствующего соединения. Для такой повторной передачи параметры вновь передаваемого SID-кадра не актуализируются. Кодер, таким образом, не выполняет никаких дополнительных действий.

Задачей изобретения является предложить улучшенную реализацию прерывистой передачи в масштабируемых речевых кодеках.

Эта задача решается признаками независимых пунктов формулы изобретения.

Основная идея изобретения состоит в том, чтобы кодер речевого кодека выполнить таким образом, чтобы он спустя предварительно определенное время холостого хода («периода ожидания») предпринимал новое определение или вычисление параметров относительно фонового шума, в частности определенной энергии и функции автокорреляции. Упомянутое определение параметров фонового шума соответствует, иными словами, кодированию шумового сигнала. При этом административные узлы в сети информируют кодер о времени холостого хода, установленном в сети передачи данных. Кодер определяет, таким образом, время холостого хода, например, через запрос административных узлов в сети передачи данных. Такой запрос необходим лишь однократно, если определенное время холостого хода сохраняется на стороне кодера.

Установка временного интервала для передаваемых SID-кадров позволяет административным узлам в сети передачи данных вынуждать кодер к передаче актуализированного кадра. Это гарантирует как актуализацию для лучшего восстановления фонового шума в CNG, так и более надежное поддержание соединения.

Преимущество соответствующего изобретению способа состоит в том, что для принятия решения, нужно ли передавать актуализированные параметры фонового шума в форме актуализированного SID-кадра, не требуется никакого сравнения энергии сигнала фонового шума с граничным значением энергии. Таким образом, способ экономит вычислительные ресурсы по отношению к известным способам.

Другое преимущество состоит в том, что установленная временная длительность между двумя SID-кадрами согласуется с требованиями соответствующей сети передачи данных.

Предпочтительные дальнейшие развития и выполнения изобретения следуют из зависимых пунктов формулы изобретения.

Предпочтительное выполнение изобретения предусматривает SID-структуру (SID-структуру битового потока), при которой узкополосная составляющая информации фонового шума отделена от широкополосной составляющей информации фонового шума. Раздельная обработка узкополосной и широкополосной информации фонового шума в SID-кадре обеспечивает возможность раздельного кодирования узкополосной и широкополосной составляющих фонового шума и делает обработку прозрачной. Такое выполнение, кроме того, имеет преимущество, состоящее в том, что на стороне приемника можно определить, должен ли комфортный шум обрабатываться на основе широкополосной составляющей передаваемого SID-кадра или на основе узкополосной составляющей. Это особенно выгодно для акустического восприятия на стороне приемника в ситуации, в которой скорость передачи для кадров речевой информации была снижена, чтобы передавалась еще только узкополосная речевая информация. Если, в частности, как в современном уровне техники, узкополосная речевая информация синтезируется в соединении с широкополосным шумом, это для приемника является очень мешающим. Упомянутое уменьшение скорости передачи для кадров речевой информации может, например, обуславливаться высокой нагрузкой (перегрузкой) сети между передатчиком и приемником. Существенно меньшие SID-кадры не затрагиваются такими сетевыми перегрузками. Для них, таким образом, не существует обязательное требование для сокращения их скорости передачи данных или их содержимого.

Предпочтительное выполнение изобретения предусматривает, что для определения параметров фонового шума узкополосной первой составляющей фонового шума определяются энергия и функция автокорреляции фонового шума. В узкополосной составляющей необходимо усреднение по относительно длинному временному интервалу, на практике по временному интервалу порядка, например, 100 мс. Применяемые параметры вычисления согласно этой форме выполнения включают в себя при этом энергию (не логарифмическую энергию) и функцию автокорреляции.

В начале промежутка времени, который классифицируется как неактивный или как речевая пауза, согласно другому предпочтительному варианту осуществления изобретения, вводится дополнительный период затягивания. Вновь введенный период затягивания, далее DTX-период затягивания, служит, по сравнению с до сих пор известным VAD-периодом затягивания (детектирования речевой активности), дополнительной, до сих пор неизвестной цели. В то время как оба типа периода затягивания преследуют цель обозначить несколько кадров как активные речевые кадры и, тем самым, избежать ложной классификации в конце речевого сигнала, DTX-период затягивания имеет дополнительную цель собирать информацию о фоновом шуме.

Предпочтительное выполнение изобретения предусматривает, что широкополосная вторая составляющая ослабляется. Ослабление широкополосной составляющей играет роль при ослаблении всей составляющей энергии в широкополосной составляющей. Эта мера необходима ввиду того факта, что генератор для формирования (синтезирования) комфортного шума в декодере не в состоянии формировать те же шумовые свойства, что и у исходного фонового шума в кодере.

Предпочтительное выполнение изобретения предусматривает, что ко всему сигналу фонового шума, то есть комбинации из широкополосной и узкополосной составляющих, применяется далее подключенная фильтрация для снижения предыскажений (постфильтр снижения предыскажений). Постфильтр снижения предыскажений приводит к уменьшению предыскажения энергии и более высоких частотных компонентов. Так как усреднение определенным образом деформирует спектральную огибающую, это ослабление может предпочтительным образом способствовать тому, чтобы уменьшать помеховый эффект искаженного широкополосного шума на приемник пользователя.

Пример выполнения с дополнительными преимуществами и формами выполнения изобретения далее поясняется более подробно со ссылками на чертеж, где показано временное представление перехода от классифицированного как речь к классифицированному как фоновый шум входному сигналу в декодере.

Далее более подробно описываются технические предпосылки, лежащие в основе изобретения, сначала без ссылок на чертеж.

В уровне техники существуют проблемы с применением прерывистой передачи (DTX) в связи с генератором комфортного шума на стороне приемника (CNG - генератор комфортного шума). Во время операции DTX/CNG должны учитываться следующие соображения:

1. Со стороны CNG требуется надлежащая генерация фонового шума или комфортного шума, который слушателем на стороне приемника должен восприниматься как реалистический. В случае широкополосного речевого кодека, например, речевого кодека с шириной полосы от 50 Гц до 7 кГц генерация широкополосного шума рассматривается как ухудшение. Кроме того, характер или «окрашивание» фонового шума на стороне декодера и кодера не всегда является одинаковым, так что современные решения, которые предусматривают формирование среднего значения энергии и спектральной огибающей, обуславливают искажение первоначальной информации фонового шума.

2. DTX-способ передает только тогда актуализированные SID-кадры, когда со стороны кодера обнаруживаются значительные изменения в энергии фонового шума во время неактивного речевого периода (речевой паузы). Это касается как узкополосного (от 50 Гц до 4 кГц), так и широкополосного кодеков, которые поддерживают способ DTX/CNG. Обычно центральную роль при этом играет граничное значение энергии (пороговое значение энергии). Это приводит к тому, что при непревышении определенного граничного значения энергии не посылаются никакие SID-кадры. Однако со стороны сети передачи данных между приемником и передатчиком подобные перебои в передаче SID-кадров рассматриваются как состояние покоя или «незанятый канал». Для обеспечения поддержания соединения тогда требуется дополнительный обмен данными, чтобы показать, что соединение должно поддерживаться.

В настоящее время вышеназванные проблемы преодолеваются следующим образом:

Относительно 1: Информация, касающаяся широкополосной составляющей, кодируется в SID-кадре. При этом усредненная логарифмическая энергия и усредненная спектральная частота иммитанса (ISF) используются для описания широкополосного фонового шума, например, в речевых кодеках G.722.2 и AMR-WB. При этом не предусматривается раздельная обработка нижней части и верхней части широкополосного фонового шума. Узкополосный речевой кодек G.729 применяет усредненную логарифмическую энергию и усредненную функцию автокорреляции. Период усреднения для энергии и период усреднения для функции автокорреляции при этом не совпадают.

Относительно 2: Административные узлы в сетевом управлении требуют от передающего узла, то есть от передающего кодера, снова передать последние переданные SID-кадры, если «незанятый период» рассматривается как слишком длинный для соответствующего соединения. Поэтому снова переданный SID-кадр и содержащаяся в нем информация не актуализируется. Кодер, таким образом, не выполняет никаких дополнительных действий.

Соответствующий изобретению способ предусматривает, что кодер выполняется таким образом, что он спустя определенное заданное время осуществляет повторное вычисление усредненной энергии и функции автокорреляции. Административные узлы в сети информируют при этом кодер о необходимом времени незанятости (ожидания).

Далее описаны другие формы выполнения для генерации SID-кадра.

Формируется SID-структура (SID-структура битового потока), в которой узкополосная составляющая информации фонового шума отделена от широкополосной составляющей информации фонового шума. Раздельная обработка узкополосной и широкополосной информации фонового шума в SID-кадре обеспечивает возможность отдельного кодирования узкополосной и широкополосной составляющих фонового шума и делает обработку прозрачной.

В узкополосной составляющей необходимо усреднение по относительно длинному временному интервалу речевой паузы, на практике по временному интервалу порядка, например, 100 мс. При этом применяемые параметры вычисления включают в себя энергию (не логарифмическую энергию) и функцию автокорреляции. Функция автокорреляции используется для спектрального представления огибающей. Общий коэффициент усиления может при этом компенсироваться комбинацией всех методов усиления и усреднения. Значения для функции автокорреляции нормируются посредством суммирования или формирования среднего значения (равного взвешивания). Это касается всех SID-кадров. Относительно длинное усреднение узкополосной составляющей приводит к сглаживанию узкополосной энергии и спектральной огибающей, так что внезапное изменение энергии не оказывает заметного влияния на синтезирование комфортного шума в приемнике. Тот же самый период усреднения применяется как для энергии, так и для усреднения спектральных огибающих, после того как первый SID-кадр формируется после начала речевого сигнала. Эта мера обеспечивает более консистентную оценку узкополосного фонового шума во время перехода от периода речи к периоду речевой паузы.

Далее даются ссылки на чертеж. Чертеж изображает речевой сигнал, который в определенный момент времени t спадает ниже определенного уровня сигнала, порогового значения, показанного на чертеже пунктирной линией. Ордината представляет собой уровень или значение энергии сигнала. Здесь на стороне передатчика используется распознавание речевой паузы (VAD - детектирование речевой активности), которое при спадании ниже порогового значения принимает решение о речевой паузе. VAD-способ предусматривает известный период затягивания VAD-HO, в котором продолжают передаваться активные речевые кадры, и только обычно после двух длин кадра происходит смена на режим, который предусматривает генерирование SID-кадров.

Согласно описываемой здесь форме выполнения изобретения вводится дополнительный период затягивания DTX-HO. Новый период затягивания DTX-HO примыкает к известному до сих пор периоду затягивания VAD-HO, который применяется как «черный ящик». Во время этого периода затягивания DTX-HO обрабатываемый в кодере сигнал все еще классифицируется как речевой сигнал, в то время как параллельно этому начинается определение параметров фонового шума. Скорость передачи данных речевого кодирования уже снижена, так как в начале речевой паузы не требуется высококачественное кодирование. Затем для узкополосной составляющей используется часть периода затягивания для формирования среднего значения первого SID-кадра. Вышеприведенные выводы относятся преимущественно к последним кадрам («Кадры») внутри периода затягивания DTX-HO, VAD-HO. Информация первых кадров периодов затягивания, напротив, преимущественно не используется.

Вновь введенный период затягивания DTX-HO служит, по сравнению с известным периодом затягивания VAD-HO, мотивированным потребностями детектирования речевой активности, дополнительной, до сих пор не учитывавшейся цели. В то время как оба типа периодов затягивания DTX-HO, VAD-HO преследуют цель несколько кадров обозначать как активные речевые кадры и тем самым избегать ложной классификации в конце речевого сигнала, период затягивания прерывистой передачи DTX-HO имеет дополнительную цель - собирать информацию о фоновом шуме.

Относительно преследуемой цели, избегать ложной классификации в конце речевого сигнала, новый период затягивания DTX-HO предоставляет дополнительную страховку в том, что по истечении периода затягивания DTX-HO с определенностью будет иметь место фоновый шум, а не речевой сигнал на входе декодера. При до сих пор применявшемся известном периоде затягивания VAD-HO могло не исключаться то, что в случае приложенного сигнала речь шла исключительно только о фоновых шумах. На практике в течение этого известного периода затягивания VAD-HO могли еще иметься речевые составляющие. Новый же период затягивания DTX-HO служит исключительно только обучению фоновому шуму.

Относительно выбора временной длительности этих периодов затягивания DTX-HO, VAD-HO и, тем самым, выбора количества кадров «Кадры», предпочтительной установкой является, например, так осуществлять выбор, чтобы предусматривалась временная длительность двух кадров - см. пунктирную ось «Кадры» - для известного периода затягивания VAD-HO и временная длительность пяти кадров для нового периода затягивания DTX-HO.

В широкополосной составляющей выполняется ослабление энергии. Ослабление широкополосной составляющей играет роль при ослаблении всей составляющей энергии в широкополосной составляющей. Эта мера необходима на основе того факта, что генератор для формирования (синтезирования) комфортного шума в декодере не в состоянии формировать те же самые шумовые свойства, что и у исходного фонового шума в кодере.

К выдаваемому широкополосному сигналу, то есть комбинации из широкополосной и узкополосной составляющей, применяется последующая фильтрация снижения предыскажения (постфильтр снижения предыскажения). Эта фильтрация ослабляет главным образом высокие частотные компоненты. Постфильтр снижения предыскажения приводит к снижению предыскажения энергии и высоких частотных компонентов. Так как усреднение определенным образом деформирует спектральную огибающую, это ослабление может способствовать тому, чтобы снижать мешающий эффект искаженного широкополосного шума на приемник пользователя.

Источник поступления информации: Роспатент

Showing 1-4 of 4 items.
20.01.2014
№216.012.992f

Способ и приемный модуль для синхронизации пакетно-ориентированного принимаемого тонального сигнала с генерируемым тональным сигналом

Изобретение относится к системе связи и предназначено для повышения качества передачи аудио информации, особенно тональных сигналов в соответствии со стандартом RFC 2833. Сущность изобретения заключается в том, что в дополнение к передаче тонального сигнала (ts) в соответствии со стандартом RFC...
Тип: Изобретение
Номер охранного документа: 0002504914
Дата охранного документа: 20.01.2014
10.02.2015
№216.013.22fc

Способ, устройство и система для предоставления услуги шлюза живучести

Изобретение относится к системам мобильной связи, которые динамически соотносят пользовательские устройства связи с персональным устройством шлюза живучести. Шлюз может поддерживать установление услуг связи в случае отказа сети между местоположением, в котором расположены пользовательские...
Тип: Изобретение
Номер охранного документа: 0002540409
Дата охранного документа: 10.02.2015
01.03.2019
№219.016.ce99

Способ и средство для декодирования информации о фоновом шуме

Изобретение относится к способам и средствам для декодирования информации о фоновом шуме в процессе кодирования речевого сигнала. Сущность изобретения заключается в установлении информации о характере изменения скорости передачи данных во время речевой фазы. В соответствии с изобретением во...
Тип: Изобретение
Номер охранного документа: 0002454737
Дата охранного документа: 27.06.2012
01.03.2019
№219.016.d0c9

Способ и средство для кодирования информации фонового шума

Изобретение относится к способам и средствам для кодирования информации фонового шума в способе кодирования речевого сигнала. Сущность изобретения состоит в том, чтобы известную для передачи речевой информации масштабируемость аналогичным образом предусмотреть при формировании SID-кадра. При...
Тип: Изобретение
Номер охранного документа: 0002461080
Дата охранного документа: 10.09.2012
Showing 1-5 of 5 items.
10.06.2016
№216.015.4856

Генерирование шума в аудиокодеках

Изобретение относится к средствам генерирования шума в аудиокодеках. Технический результат заключается в обеспечении уменьшения скорости передачи битов и в повышении качества генерируемого шума. Аудиокодер содержит модуль оценки фонового шума, выполненный с возможностью определять...
Тип: Изобретение
Номер охранного документа: 0002585999
Дата охранного документа: 10.06.2016
10.06.2016
№216.015.49cc

Аудиокодек, использующий синтез шума в течение неактивной фазы

Изобретение относится к аудиокодеку, поддерживающему синтез шума в течение неактивных фаз. Техническим результатом является уменьшение скорости передачи битов с поддержанием достижимого качества формирования шума. Параметрическая оценка фонового шума непрерывно обновляется в течение активной...
Тип: Изобретение
Номер охранного документа: 0002586838
Дата охранного документа: 10.06.2016
10.05.2018
№218.016.4499

Генерирование комфортного шума с высоким спектрально-временным разрешением при прерывистой передаче аудиосигналов

Изобретение относится к средствам для генерирования комфортного шума с высоким спектрально-временным разрешением. Технический результат заключается в повышении качества аудиосигнала посредством добавления комфортного шума. Декодируют битовый поток для получения из него выходного аудиосигнала....
Тип: Изобретение
Номер охранного документа: 0002650025
Дата охранного документа: 06.04.2018
01.03.2019
№219.016.ce99

Способ и средство для декодирования информации о фоновом шуме

Изобретение относится к способам и средствам для декодирования информации о фоновом шуме в процессе кодирования речевого сигнала. Сущность изобретения заключается в установлении информации о характере изменения скорости передачи данных во время речевой фазы. В соответствии с изобретением во...
Тип: Изобретение
Номер охранного документа: 0002454737
Дата охранного документа: 27.06.2012
01.03.2019
№219.016.d0c9

Способ и средство для кодирования информации фонового шума

Изобретение относится к способам и средствам для кодирования информации фонового шума в способе кодирования речевого сигнала. Сущность изобретения состоит в том, чтобы известную для передачи речевой информации масштабируемость аналогичным образом предусмотреть при формировании SID-кадра. При...
Тип: Изобретение
Номер охранного документа: 0002461080
Дата охранного документа: 10.09.2012
+ добавить свой РИД