10.07.2019

№219.017.b0f2

Результат интеллектуальной деятельности: УСТРОЙСТВО И СПОСОБ РАСЧЕТА ПАРАМЕТРОВ РАСШИРЕНИЯ ПОЛОСЫ ПРОПУСКАНИЯ ПОСРЕДСТВОМ УПРАВЛЕНИЯ ФРЕЙМАМИ НАКЛОНА СПЕКТРА

Вид РИД

Изобретение

Юридическая информация Юридическая информация Свернуть Развернуть

Авторы

Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен (DE)

Правообладатели

№ охранного документа

0002443028

Дата охранного документа

20.02.2012

Краткое описание РИД Краткое описание РИД Свернуть Развернуть

Аннотация: Изобретение относится к области кодирования и декодирования звука, в частности, с расширением диапазона рабочих частот (BWE). Техническим результатом является улучшение качества звукового сигнала расширенного диапазона. Указанный результат достигается тем, что первая полоса спектра кодируется с помощью первого набора битов, а вторая полоса спектра, отличающаяся от первой полосы спектра, кодируется вторым наборов битов, который меньше, чем первый набор битов. Устройство для вычисления параметров расширения рабочего диапазона частот звукового сигнала в системе расширения рабочего диапазона частот оснащено вычислителем параметров управляемого расширения полосы пропускания (10) для вычисления параметров расширения рабочего диапазона частот для второй полосы частот в виде последовательности фреймов аудиосигнала. Каждый фрейм имеет управляемый начальный момент. Дополнительно устройство оснащено детектором наклона спектра (12) в интервале времени звукового сигнала, который передает сигналы момента начала каждого фрейма аудиосигнала в зависимости от наклона спектра. 3 н. и 16 з.п. ф-лы, 8 ил.

Реферат Реферат Свернуть Развернуть

Настоящее изобретение относится к области кодирования/декодирования звука вообще и - с расширением диапазона рабочих частот (BWE) - в частности. Известна реализация BWE путем репликации рабочего диапазона спектра (SBR), введенная в стандарт MPEG (Moving Picture Expert Group [Экспертная группа по движущимся изображениям]).

В WO 00/45378 описан эффективный способ кодирования огибающей спектра с использованием переменной разрешающей способности по времени/частоте и частотно-временного перехода. Входной аналоговый сигнал поступает на аналогово-цифровой преобразователь (АЦП), формирующий цифровой сигнал. Цифровой аудиосигнал пересылается на перцепционный аудиокодер, где источник кодируется. Дополнительно цифровой сигнал поступает на детектор перехода и в банк фильтров анализа, который разбивает сигнал на спектральные составляющие (подполосовые сигналы). Детектор перехода обрабатывает сигналы поддиапазонов на выходе банка анализа или - непосредственно цифровые отсчеты временной области. Детектор перехода делит сигнал на гранулы и определяет, должны ли подгранулы внутри гранул быть промаркированы как переходные. Эти данные передаются на блок группирования огибающей, который формирует частотно-временную координатную сетку для каждой текущей гранулы. В соответствии с этой координатной сеткой блок комбинирует равномерные дискреты подполосовых сигналов, образуя отсчеты огибающей с переменными значениями. Такие значения могут быть показателями средней или, наоборот, максимальной энергии отсчетов поддиапазонов. Значения огибающей вместе с информацией о группировании поступают на блок кодирования огибающей. Этот блок определяет, в какой области (временной или частотной) следует кодировать значения огибающей. Результирующие сигналы, выходной сигнал аудиокодера, параметры широкополосной огибающей и сигналы управления передаются на мультиплексор, образуя последовательный битстрим, который пересылается далее или сохраняется в памяти.

Со стороны декодера демультиплексор реконструирует сигналы и передает выходной сигнал перцепционного аудиокодера на аудиодекодер, который синтезирует низкочастотный цифровой аудиосигнал. Параметры огибающей поступают с демультиплексора на блок декодирования огибающей, который, используя управляющие данные, определяет, в каком направлении закодирована текущая огибающая, и декодирует данные. Аудиодекодер пересылает низкочастотный сигнал на модуль преобразования, который оценивает исходный высокочастотный сигнал содержащий одну или несколько гармоник низкочастотного сигнала. Высокочастотный сигнал поступает в анализирующий банк фильтров аналогичного со стороной кодера типа. Блок группирования по масштабному коэффициенту комбинирует субполосные сигналы. На основании управляющих данных демультиплексора комбинирование и частотно-временное распределение субполосных отсчетов выполняется идентично стороне кодирования. Блок регулирования уровня усиления анализирует параметры огибающей, полученные от демультиплексора, и данные блока группирования по масштабному коэффициенту. Этот блок вычисляет коэффициенты усиления, применимые к субполосным отсчетам перед восстановлением с использованием блока банка фильтров синтеза. Таким образом, выходной сигнал синтезирующего банка фильтров представляет собой откорректированный по огибающей высокочастотным звуковым сигналом. Этот сигнал суммируется с выходным сигналом блока задержки, который принимает низкочастотный аудиосигнал. Задержка обеспечивает компенсацию времени обработки высокочастотного сигнала. В завершение цифроаналоговый преобразователь (ЦАП) преобразует сформированный цифровой широкополосный сигнал в аналоговый звуковой сигнал.

Когда выдержанные аккорды сочетаются с острыми переходными потенциалами с преимущественным высокочастотным спектральным составом, аккорды обладают высокой энергией в низкочастотном диапазоне и низкой нестационарной энергией, тогда как для высокочастотного диапазона справедливо противоположное состояние. Над параметрами огибающей, генерируемой в интервалах нестабильности, преобладает высокая импульсная переходная энергия. Типичные кодеры работают по блочному принципу, где каждый блок представляет фиксированный временной интервал. Со стороны кодера применяют упреждение с помощью детектора перехода для обеспечения перекрывания границ блоков параметрами огибающей. Это дает возможность более гибкого селектирования разрешения по времени/частоте.

Международный стандарт ISO/IEC 14496-3 в разделе 4.6.18.3.3 описывает частотно-временную сетку, где определено количество огибающих копирования спектральных полос (SBR) и минимальные уровни шума, а также сегмент времени, связанный с каждой огибающей SBR и минимальным уровнем шума. Каждый сегмент времени определяется начальной границей времени и конечной границей времени. Временной интервал, обозначенный границей начала времени, включается в сегмент времени, временной интервал, обозначенный границей окончания времени, исключается из сегмента времени. В последовательности сегментов конечная граница времени сегмента совпадает с начальной границей времени следующего сегмента. Таким образом, границы времени огибающих SBR внутри фрейма SBR декодируются на стороне декодера. Соответствующая сетка времени/сетка частоты определяется кодером.

Патент США 6453282 B1 раскрывает способ и устройство для обнаружения переходного режима в звуковом сигнале в дискретном времени. В кодер введены устройство частотно-временного преобразования, устройство квантования/кодирования и устройство форматирования битстрима. Фазой квантования/кодирования управляет процесс психоакустического моделирования. Фазой частотно-временного преобразования управляет детектор перехода, причем управление частотно-временным преобразованием осуществляется для переключения с длинного окна на короткое окно в случае обнаружения переходного режима. В детекторе перехода или энергия отфильтрованного звукового сигнала в дискретном времени в текущем сегменте сравнивается с энергией отфильтрованного звукового сигнала в дискретном времени в предшествующем сегменте, или формируется текущее соотношение между энергией отфильтрованного звукового сигнала в дискретном времени в текущем сегменте и энергией неотфильтрованного звукового сигнала в дискретном времени в текущем сегменте и это текущее соотношение сравнивается с предшествующим соответствующим соотношением. Если переходный режим присутствует в звуковом сигнале в дискретном времени, он обнаруживается с использованием одного и/или другого из этих сопоставлений.

Особенно кодирование требуют голосовые сигналы, поскольку речь включает в себя не только гласные, которые преимущественно состоят из гармоник, чья энергия сконцентрирована в нижней части спектра, но и содержит значительное количество сибилянтов. Сибилянты представляют собой фрикативы или аффрикаты (щелевые согласные), образуемые прохождением струи воздуха через узкий канал речевого тракта к переднему краю зубов. В качестве синонима термина "сибилянт" [в английском языке] часто используется термин "strident" - "резкий, скрипучий". Термин "сибилянт" относится к артикуляции или аэродинамике, подразумевая создание периодического шума при преодолении препятствий. Определение "резкий, пронзительный, скрипучий" относится к звуковосприятию интенсивности, зависящей от амплитуды и частотных характеристик воспроизводимого звука (то есть - является определением с точки зрения слуха или акустики).

Сибилянты громче их несвистящих аналогов, и большая часть их акустической энергии производится в более высоких частотах по сравнению с остальными щелевыми согласными. Наибольшая акустическая сила звука [s] находится в пределах 8000 Гц, но может достигать 10000 Гц. Наибольшей акустической энергии звук [∫] имеет в пределах 4000 Гц, но может возрастать до 8000 Гц. Для сибилянтов существуют символы IPA, для которых известны альвеолярные и постальвеолярные варианты. Кроме того, существует свист и, в зависимости от языка, другие подобные звуки.

Общим для всех свистящих согласных в речи является то, что, если непосредственно перед ними стоит гласный, происходит сильный сдвиг энергии из низкочастотной части в высокочастотную. Детектор перехода, предназначенный для обнаружения возрастания энергии во времени, может быть не в состоянии обнаружить подобный энергетический сдвиг. Однако при кодировании звука в основной полосе частот, когда, например, не используется расширение полосы пропускания, это не слишком осложняет ситуацию, так как свистящие согласные, как правило, имеют гораздо большую длительность, чем нестационарные процессы. При применении кодирования в основной полосе частот, например, усовершенствованного метода кодирования звука (ААС), весь спектр кодируется с высокой разрешающей способностью по частоте. Следовательно, энергетический сдвиг от низкой частоты до высокой частотной составляющей распознавать не обязательно благодаря относительной стационарности сибилянтов в голосовых сигналах при сопоставлении длины, например, такого свистящего звука, как [s] в слове "sister" (сестра), с длиной фрейма длинной взвешивающей функции. Кроме того, высокочастотная составляющая в любом случае кодируется с высоким битрейтом.

Однако ситуация осложняется, когда сибилянты встречаются при расширении рабочего диапазона частот. При расширении рабочего диапазона частот низкочастотная компонента кодируется с высокой разрешающей способностью / высоким битрейтом с использованием основополосного кодера, такого как ААС-кодер, а полоса высоких частот кодируется с низкой разрешающей способностью / низким битрейтом, как правило, только с определенными параметрами, например, огибающей спектра, имеющей значения частотного разрешения, намного более низкие, чем частотное разрешение спектра основной полосы частот. Формулируя иначе, спектральный интервал между двумя параметрами огибающей спектра будет больше (по меньшей мере, в десять раз), чем спектральный интервал между значениями низкочастотного спектра.

Со стороны декодера выполняется расширение полосы пропускания, при котором низкочастотный спектр используется для восстановления высокочастотного спектра. Когда в такой ситуации происходит энергетический сдвиг от низких частот к высоким частотам, то есть, когда встречается свистящий согласный, становится ясно, что этот энергетический сдвиг значительно повлияет на точность/качество реконструированного аудиосигнала. Однако детектор перехода, распознающий увеличение (или уменьшение) энергии, не обнаружит этот энергетический сдвиг, и, таким образом, на параметры огибающей спектра фрейма огибающей спектра, относящиеся к дискрету времени до или после появления данного сибилянта, будет воздействовать энергетический сдвиг внутри спектра. На стороне декодера из-за отсутствия разрешения по времени результат будет заключаться в том, что весь фрейм будет реконструирован со средней энергией, в высокочастотной области, то есть - не с низкой энергией перед свистящим звуком и высокой энергией после него. Это приведет к снижению качества рассчитываемого сигнала.

Цель настоящего изобретения - представить концепцию расширения рабочего диапазона частот, обеспечивающего звуковой сигнал расширенного диапазона улучшенного качества.

Эта цель достигается путем применения устройства по пункту 1 формулы изобретения для вычисления параметров расширения полосы пропускания, способ вычисления параметров расширения полосы пропускания по пункту 19 или компьютерной программы по пункту 20.

Данное изобретение основывается на обеспечении обнаружения при расширении рабочего диапазона частот сдвига энергии от низкочастотной области к высокочастотной области. Для этой цели в изобретении применен детектор наклона спектра. Когда обнаруживается такое изменение энергии, несмотря на то, что, например, полная энергия сигнала не изменилась или даже снизилась, детектор наклона спектра посылает на вычислитель параметров управляемого расширения полосы пропускания сигнал момента начала, чтобы вычислитель параметров расширения полосы пропускания установил начальный момент для фрейма параметров расширения полосы пропускания. Момент окончания фрейма может быть задан автоматически, например, через определенный интервал времени после начального момента, или в соответствии с определенной сеткой фрейма или по сигналу момента окончания, посланному детектором наклона спектра, когда он распознает конец сдвига частоты, или, говоря иначе, обратное изменение частоты от высокой к низкой. В силу психоакустических постмаскирующих эффектов, которые намного важнее, чем предмаскирующие эффекты, точно управляемый момент начала фрейма важнее момента окончания фрейма.

Рекомендуется в целях экономии вычислительных ресурсов и обеспечения задержки обработки данных, что особенно важно для мобильных устройств (в частности, для мобильных телефонов), детектор наклона спектра реализуется как фаза анализа линейно-предиктивного кодирования (LPC-анализа) низкого уровня. Предпочтительно, наклон спектра дискрета времени аудиосигнала оценивается на основе одного или нескольких коэффициентов LPC низкого порядка. На основании порогового решения с заданным пороговым значением наклона спектра и преимущественно на основании изменения знака наклона спектра, что является пороговым решением с пороговым значением "ноль", осуществляется управление подачей сигнала момента начала. Если при оценке наклона спектра используется только первый LPC-коэффициент, достаточно лишь определить знак этого первого LPC-коэффициента, так как этот знак определяет знак наклона спектра, а следовательно, определяет, следует ли подавать вычислителю параметров расширения полосы пропускания сигнал момента начала.

Желательно, чтобы детектор наклона спектра взаимодействовал с детектором перехода, предназначенным для обнаружения изменения энергии, то есть повышения или снижения энергии аудиосигнала в целом. При реализации фрейм параметров расширения диапазона рабочих частот имеет большую длину, если в сигнале обнаружено нестационарное состояние, в то время как вычислитель параметров управляемого расширения полосы пропускания задает меньшую длину фрейма, когда детектор наклона спектра подает сигнал момента начала.

Далее на основании представленных иллюстраций описаны предпочтительные варианты осуществления настоящего изобретения, где:

на фиг.1а дана схема предпочтительного варианта осуществления устройства/способа вычисления параметров расширения диапазона рабочих частот аудиосигнала;

на фиг.1b показан результат формирования последовательности фреймов звукового сигнала, имеющего переходные режимы, и соответствующие временные составляющие детектора наклона спектра:

на фиг.1с дана таблица управления разрешающей способностью по времени/частоте с помощью вычислителя параметров, реагирующего на сигналы от детектора наклона спектра и дополнительного детектора перехода;

на фиг.2а проиллюстрирован отрицательный наклон спектра сигнала без свистящего звука:

на фиг.2b проиллюстрирован положительный наклон спектра сигнала, содержащего свистящий звук;

на фиг.2с поясняется порядок вычисления наклона спектра m на основе параметров LPC-кодирования низкого порядка;

на фиг.3 дана блок-схема предпочтительного варианта кодера, относящегося к данному изобретению; и

на фиг.4 дана блок-схема декодера с расширением полосы пропускания.

Перед подробным обсуждением фиг.1 и 2 будет рассмотрен алгоритм расширения рабочего диапазона частот на базе фиг.3 и 4.

На фиг.3 представлен вариант конструктивного решения кодера 300, куда введены модули SBR (копирования спектральных полос) 310, анализирующий банк QMF (квадратурных зеркальных фильтров) 320, фильтр низких частот (ФНЧ) 330, корневой кодер ААС(усовершенствованного звукового кодека) 340 и устройство форматирования (форматер) контента битового потока 350. Дополнительно кодер 300 включает в себя вычислитель параметров огибающей 210. Кодер 300 имеет вход для отсчетов ИКМ (аудиосигнал 105; И КМ импульсно-кодовая модуляция), который сопряжен с анализирующим банком QMF 320, с модулями SBR 310 и с ФНЧ 330. Анализирующий банк QMF 320 может иметь в своем составе фильтр верхних частот для отделения второго диапазона частот 105b и сопряжен с вычислителем параметров огибающей 210, который, в свою очередь, соединен с блоком форматирования (форматером) содержимого битстрима 350. ФНЧ 330 может включать в себя фильтр низких частот для отделения первого частотного диапазона 105а и сопряжен с корневым кодером ААС 340, который, в свою очередь, соединен с форматером полезного битстрима 350. Наконец, модуль SBR 310 связан с вычислителем параметров огибающей 210 и с корневым кодером ААС 340.

Таким образом, кодер 300 разбивает аудиосигнал 105 на дискреты с образованием составляющих основного частотного диапазона 105а (в фильтре низких частот 330), которые вводятся в корневой кодер ААС 340, где аудиосигнал кодируется в основном частотном диапазоне, а кодированный сигнал 355 передается на форматер битстрима 350, в котором кодированный аудиосигнал 355 в основном диапазоне частот суммируется с закодированным звуковым потоком 345 (образуя битстрим). Одновременно аудиосигнал 105 анализируется банком квадратурных зеркальных фильтров 320, при этом высокочастотный фильтр банка анализа QMF отсеивает составляющие высокочастотного диапазона 105b и вводит этот сигнал в вычислитель параметров огибающей 210 для формирования параметров копирования спектральных полос 375. Например, 64-субполосный QMF-банк 320 выполняет поддиапазонное фильтрование входного сигнала. Таким образом, выход банка фильтров (состоящий из подполосовых отсчетов) представляет собой комплекснозначный сигнал, передискретизованный по сравнению с обычным QMF-банком с коэффициентом два.

Модуль SBR 310 может, в частности, включать в себя устройство, формирующее выходные данные по расширению полосы пропускания BWE, и управлять вычислителем параметров огибающей 210. Используя звуковые составляющие 105b, генерируемые банком анализа QMF 320, вычислитель параметров огибающей 210 вычисляет параметры копирования спектральных полос SBR 375 и пересылает их на форматер полезной нагрузки битстрима 350, который совмещает параметры SBR 375 с компонентами 355, закодированными корневым кодером 340, образуя кодированный звуковой поток 345.

Как вариант устройство, генерирующее выходные данные BWE, может входить в состав вычислителя параметров огибающей 210, а процессор может быть частью устройства форматирования полезного содержимого битстрима 350. Таким образом, различные элементы оборудования могут быть частью разных компонентов кодера на фиг.3.

На фиг.4 представлена версия реализации декодера 400, где закодированный звуковой поток 345 вводится в блок деформатирования (деформатер) контента битстрима 357, который отделяет закодированный аудиосигнал 355 от параметров SBR 375. Закодированный аудиосигнал 355 вводится, например, в корневой декодер ААС 360, который декодирует аудиосигнал 105а в первом частотном диапазоне. Аудиосигнал 105а (дискретизованный в первом частотном диапазоне) вводится в 32-полосный QMF-банк анализа 370, генерирующий из аудиосигнала 105а в первом частотном диапазоне, например, 32 частотных поддиапазона 10532. Подполосовой аудиосигнал 10532 вводится в патч-генератор 410 для создания спектрального представления необработанного сигнала 425 („заплаты"), который пересылается на устройство копирования спектральных полос SBR 430а. Модуль SBR-инструментария 430а может, например, иметь в своем составе вычислитель, задающий минимальный уровень шума. Кроме того, модуль SBR 430а может воссоздавать недостающие гармоники или выполнять операцию обратного фильтрования. SBR-модуль 430а может реализовывать некоторые методики репликации спектральных полос, работая со спектральными данными на выходе патч-генератора 410 после QMF.

Алгоритм внесения исправлений с помощью патчей в частотной области может включать в себя, в частности, простое зеркалирование или копирование спектральных данных в пределах подполосовой частотной области.

Вместе с тем, параметры SBR 375 (например, содержащие выходные данные BWE 102) вводятся в синтаксический анализатор битстрима 380, который анализирует параметры SBR 375, получая различную вспомогательную информацию 385 и вводя ее, например, в декодер и деквантизатор Хаффмана 390, где, например, извлекается управляющая информация 412 и параметры копирования спектральных полос 102, включая определенные данные о разрешении по времени фреймов при копировании спектральных полос. Управляющая информация 412 используется для контроля патч-генератора 410. Параметры копирования спектральных полос 102 вводятся одновременно в SBR-модуль 430а и в корректор настройки огибающей 430b. Корректор настройки огибающей 430b выверяет огибающую по сгенерированному патчу. В результате корректор настройки огибающей 430b генерирует откорректированный необработанный сигнал 105b для второго частотного диапазона и пересылает его в QMF-банк синтеза 440, который совмещает составляющие второго частотного диапазона 105b с аудиосигналом частотной области 10532. Синтезирующий банк QMF 440 имея, например, 64 полосы частот и совмещая оба сигнала (составляющие второго частотного диапазона 105b и аудиосигнал подполосовой частотной области 10532), синтезирует аудиосигнал 105 (например, отсчеты ИКМ, ИКМ импульсно-кодовая модуляция).

Синтезирующий банк QMF 440 может включать в себя блок сведения (комбинатор), который сначала совмещает сигнал частотной области 10532 со вторым частотным диапазоном 105b, а затем преобразует во временную область, давая на выходе звуковой сигнал 105. Произвольно звуковой сигнал на выходе блока сведения 105 может быть в частотной области.

Среди инструментов модуля SBR 430а может находиться источник обычного уровня собственных шумов, вносящий дополнительные искажения в спектр после патча (в спектральное представление необработанного сигнала 425), вследствие чего спектральные составляющие 105а, которые поступили от корневого кодера 340 и используются для синтеза компонент второго частотного диапазона 105b, проявляют тональные характеристики, аналогичные исходному сигналу второго частотного диапазона 105b, как показано на фиг.3.

На фиг.1а представлено устройство для вычисления параметров расширения рабочего диапазона частот звукового сигнала в системе расширения рабочего диапазона частот, где первая полоса спектра кодируется с помощью первого набора битов, а вторая полоса спектра, отличающаяся от первой полосы спектра, кодируется вторым наборов битов. Второй набор битов меньше, чем первый набор битов. Предпочтительно, чтобы первый частотный диапазон являлся диапазоном низких частот, а второй частотный диапазон - диапазоном высоких частот при том, что в других известных сценариях расширения рабочего диапазона частот первый частотный диапазон и второй частотный диапазон отличаются друг от друга, но не являются низкочастотным и высокочастотным. Более того, в соответствии с основной концепцией алгоритмов расширения полосы пропускания высокие частоты кодируют грубее, чем низкие частоты. Рекомендуется, чтобы битрейт для высоких частот был, по меньшей мере, на 50%, или даже более предпочтительно, по меньшей мере, на 90% ниже, чем битрейт для низких частот. Таким образом, скорость передачи данных для второго частотного диапазона на 50 или более процентов ниже скорости передачи низких частот.

Оборудование на фиг.1а имеет в своем составе управляемый вычислитель 10 параметров расширения полосы пропускания 11 в виде последовательности фреймов звукового сигнала для второй полосы спектра. Управляемый вычислитель параметров расширения полосы пропускания 10 контролирует момент начала очередного фрейма в последовательности фреймов.

Кроме того, устройство, относящееся к изобретению, включает в себя детектор 12 наклона спектра в дискрете времени звучания аудиосигнала, который поступает по линии 13 к различным модулям оборудования на фиг.1а. Детектор наклона спектра 12 в зависимости от наклона спектра аудиосигнала подает команду управляемому вычислителю параметров расширения полосы пропускания 10 о моменте начала фрейма аудиосигнала для немедленной маркировке границы начала времени.

Сигнал о наклоне спектра / сигнал момента начала должен подаваться, когда знак наклона спектра в данном дискрете времени аудиосигнала отличается от знака наклона спектра аудиосигнала в предыдущем дискрете времени аудиосигнала. Даже более предпочтительно, если сигнал момента начала подается, когда наклон спектра меняется с отрицательного на положительный. Аналогично, сигнал момента окончания может быть подан детектором наклона спектра 12 вычислителю параметров расширения полосы пропускания 10 при изменении наклона спектра с положительного на отрицательный. Однако момент окончания может быть задан без учета изменений наклона спектра звукового сигнала. Для подтверждения можно отметить, что момент окончания фрейма может быть установлен вычислителем параметров расширения полосы пропускания автономно, по истечении определенного отрезка времени с момента начала соответствующего фрейма.

Предпочтительная версия исполнения, представленная на фиг.1а, предусматривает вспомогательный детектор перехода 14, который анализирует аудиосигнал 13 с целью распознавания энергетических изменений в сигнале в целом от одного дискрета времени до следующего дискрета времени. При распознавании определенного минимального роста энергии от одного дискрета времени до следующего дискрета времени детектор перехода 14 подает управляемому вычислителю параметров расширения полосы пропускания 10 сигнал момента начала, чтобы вычислитель параметров расширения полосы пропускания задал момент начала нового фрейма параметра расширения полосы пропускания в последовательности фреймов параметров расширения полосы пропускания.

Предпочтительно вычислитель параметров расширения полосы пропускания дополнительно содержит датчик музыки/речи 15 для определения типа аудиосигнала в текущем дискрете времени - музыкального или голосового. В случае музыкального сигнала датчик музыки/речи 15 предпочтительно отключает детектор наклона спектра 12 в целях экономии энергетических/вычислительных ресурсов и во избежание увеличения скорости передачи данных из-за маленьких фреймов в неголосовых сигналах. Эта функция особенно полезна для мобильных устройств с ограниченными ресурсами обработки информации и питания. При обнаружении датчиком музыки/речи 15 речевых составляющих в аудиосигнале 13 он включает детектор наклона спектра. Сочетание датчика музыки/речи 15 с детектором наклона спектра 12 дает свои преимущества в ситуациях с изменением наклона спектра, которые встречаются, главным образом, при звучании речи и имеют меньшую вероятность во время звучании музыки. Даже когда такие ситуации возникают при звучании музыки, их пропуск не вызывает большие осложнения, поскольку музыка обладает лучшими маскирующими характеристиками, чем речь. Было выяснено, что свистящие звуки важны для разборчивости декодированной речи и существенны для субъективно оцениваемого слушателем качества. Говоря иначе, достоверность речи достаточно сильно зависит от отчетливо воспроизведенных свистящих компонентов речи. Тем не менее, для музыкальных составляющих это не имеет решающего значения.

На фиг.1b вверху дана шкала некоторого отрезка времени звучания аудиосигнала, заданная вычислителем параметров расширения полосы пропускания 10 в виде последовательности фреймов. Последовательность фреймов имеет несколько равномерных границ, образованных без обнаружения сибилянтов, и обозначенных 16а-16d. Кроме того, последовательность фреймов содержит несколько границ фреймов, которые образовались в результате обнаружения сибилянтов или изменения наклона спектра, что и является предметом изобретения. Эти границы обозначены как 17а-17с. На рис.1b также видно, что время начала фрейма i совпадает со временем конца предшествующего фрейма i-1.

В конструктивном решении на рис.1b моменты окончания, образующие равномерные границы фреймов 16a-16d, устанавливаются автоматически по истечении заданного интервала времени после момента начала фрейма. Продолжительность такого интервала определяет разрешение по времени для кадрировании параметров расширения полосы пропускания при отсутствии сибилянтов.

Как видно из таблицы на фиг.1с, такая разрешающая способность по времени может быть установлена в зависимости от получения команд момента начала детектором перехода 14 или детектором наклона спектра 12 на фиг.1а. Общим правилом для варианта конструкции на фиг.1с является получение сигнала момента начала от детектора наклона спектра, при котором разрешение по времени должно быть увеличено (то есть сокращены интервалы времени между начальным моментом и моментом конца фреймов, как проиллюстрировано на фиг.1b). Однако, когда детектор наклона спектра ничего не обнаруживает, но детектор перехода 14 распознает нестационарное состояние, это означает только повышение энергии при отсутствии энергетического сдвига. В такой ситуации автоматически установленный момент конца фрейма 10b отдаляется во времени от момента начала в силу того, что сибилянт очевидно отсутствует в аудиосигнале, а присутствует „беспроблемный" музыкальный или другой звуковой сигнал.

В данном контексте следует отметить, что установка границ в зависимости от детектора перехода или детектора наклона спектра приводит к увеличению скорости передачи кодированного сигнала. Самый низкий битрейт был бы получен, если бы фреймы на фиг.1b достигали большой длины. Однако, с другой стороны, большая продолжительность фреймов уменьшает разрешение по времени параметров расширения полосы пропускания. Поэтому данное изобретение позволяет задавать новый момент начала (что означает момент окончания предыдущего фрейма), только когда это действительно необходимо. Кроме того, гибкое разрешение по времени в зависимости от реальной ситуации, то есть - при обнаружении нестационарного состояния или при распознании изменения наклона спектра (вызванного, например, сибилянтом), дает возможность адаптировать процесс построения последовательности фреймов к существующим потребностям в оптимальном соотношении качество/скорость передачи с достижением приемлемого компромисса между двумя противоречивыми задачами.

На примере нижней шкалы времени на фиг.1b показана возможность преобразования во временной области, выполняемые с помощью детектора наклона спектра 12. В версии на рис.1b детектор наклона спектра работает по блочному принципу и, что особенно важно, по принципу наложения, таким образом, что перекрывающие дискреты времени скрывают случаи наклона спектра. Тем не менее, детектор наклона спектра может также работать с непрерывным потоком отсчетов, не применяя обязательно при этом блочный принцип, проиллюстрированный на фиг.1b.

Преимущественно, момент начала фрейма задается незадолго до времени обнаружения изменения наклона спектра. Однако управляемый вычислитель параметров расширения полосы пропускания имеет некоторую свободу при установлении новой границы фрейма, так как у него есть гарантия, что в случае потери сигнала оповещения о наклоне спектра при равномерном чередовании фреймов начало нестационарного процесса, обнаруженного детектором перехода, или начало сибилянта, распознанного детектором наклона спектра, находится в пределах первых 25% фрейма по его длительности, или даже предпочтительнее - в пределах первых 10% по длительности фрейма, входящего в последовательность регулярно расположенных фреймов.

Предпочтительно наличие дополнительной гарантии, что, по меньшей мере, какая-то часть обнаруженного изменения наклона спектра находится в новом фрейме, и не локализуется в более раннем. Однако может случиться, что начальная часть изменения наклона спектра попала в предшествующий фрейм. В таком случае, длительность этой начальной части предпочтительно должна составлять менее 10% от всей продолжительности изменения наклона спектра.

На фиг.1b наклон спектра был обнаружен в дискретах времени 18а, 18b и 18с, а „момент" изменения наклона спектра должен произойти в интервале времени 18а. В силу этого управляемый вычислитель параметров расширения полосы пропускания 10 будет уверен, что фрейм может быть введен в любой момент времени в течение периода 18а, 18b, 18с. Эта особенность позволяет вычислителю параметров расширения полосы пропускания поддерживать при необходимости определенное базовое построение последовательности фреймов, но при условии, что существенная часть каждого изменения наклона спектра находится после момента начала, то есть не в предшествующем фрейме, а в новом.

На фиг.2а показан энергетический спектр сигнала с отрицательным наклоном. Отрицательный наклон характеризует нисходящий спектр. И наоборот, фиг.2b иллюстрирует энергетический спектр сигнала, имеющего положительный наклон спектра. Говоря другими словами, такой наклон спектра характеризует восходящий спектр. Естественно, каждый конкретный спектр, подобный спектрам, показанным на фиг.2а или на фиг.2b, будет варьироваться в частном масштабе, где кривая графика будет отличаться от наклона спектра.

Наклон спектра может быть получен, например, построением прямой, соответствующей энергетическому спектру путем сокращения квадратичных разностей между этой прямой и фактическим спектром. Построение прямой линии по спектру может быть одним из путей вычисления наклона кратковременного спектра. Тем не менее, предпочтительнее вычислять наклон спектра с помощью коэффициентов кодирования с линейными предикторами (LРС).

Публикация "Efficient calculation of spectral tilt from various LPC parameters" ("Эффективный расчет наклона спектра по различным параметрам LPC"). V. Goncharoff. Е. Von Colin and R. Morris. Naval Command. Control and Ocean Surveillance Center (NCCOSC). RDT and E Division, San Diego, CA 92152-52001, May 23, 1996 раскрывает несколько способов вычисления наклона спектра.

Одно из определений наклона спектра - это наклонная линия (градиент), представляющая собой минимально квадратичное линейное соответствие (приближение) логарифмическому спектру мощности. При этом линейные соответствия нелогарифмическому спектру мощности или амплитудному спектру или любому другому виду спектра также применены. Это в особенности справедливо в отношении данного изобретения, где в предпочтительном варианте осуществления основной интерес направлен на знак наклона спектра, то есть - на то, является градиент как результат линейной аппроксимации положительным или отрицательным. Действительное значение наклона спектра, однако, не имеет большое значение в предпочтительных реализациях этого изобретения, в которых во внимание принимается знак как порог принятия решения, и порогом служит ноль. В других воплощениях, тем не менее, может применяться пороговое значение, отличное от нуля.

Когда при моделировании кратковременного спектра речи используется кодирование с линейным предсказанием (LPC), в вычислительном отношении более эффективно рассчитывать наклон спектра непосредственно из параметров модели LPC

вместо логарифмического спектра мощности.

На фиг.2с дано уравнение для кепстральных коэффициентов ck, соответствующих всеполюсному логарифмическому спектру мощности n порядка. В этом уравнении k - целочисленный коэффициент, pn - полюс n во всеполюсном представлении функции моделирования H(z) z-домена LPC-фильтра. Следующее уравнение на фиг.2с - наклон спектра в пересчете на коэффициенты косинусного преобразования Фурье. А именно, m-наклон спектра, k и n - целые числа, и N - полюс высшего порядка всеполюсной модели для H(z). Следующее уравнение на фиг.2с определяет логарифмический спектр мощности S(ω) LPC-фильтра N порядка. G - коэффициент усиления, αk - коэффициенты линейного предиктора, и ω равен 2×p×f, где f - частота. Самое нижнее уравнение на фиг.2с непосредственно дает кепстральные коэффициенты как функцию LPC-коэффициентов αk. Затем кепстральные коэффициенты ck используются для вычисления наклона спектра. В большинстве случаев этот метод в вычислительном отношении будет более эффективным, чем разложение на множители многочлена LPC с получением значений полюсов и решением для наклона спектра с использованием уравнений полюсов. Таким образом, после вычисления коэффициентов LPC αk можно рассчитать кепстральные коэффициенты ck, применив уравнение в нижней части фиг.2с, а затем из кепстральных коэффициентов, используя первое уравнение на фиг.2с, можно вычислить полюса pn. После этого на основании полюсов рассчитывается наклон спектра m по второму уравнению на фиг.2с.

Было установлено, что коэффициента LPC первого порядка α1 достаточно для нормальной оценки знака наклона спектра. Следовательно, α1 является хорошим определением для с1. В силу этого c1 хорошо определяет p1. При введении p1 в уравнение для наклона спектра m, становится ясно, что благодаря знаку "минус" во втором уравнении на фиг.2с, знак наклона спектра m будет обратным знаку первого коэффициента LPC α1 согласно определению LPC-коэффициента на фиг.2с.

На фиг.3 представлен детектор наклона спектра 12 как компонент системы кодирования SBR. В частности, детектор наклона спектра 12 управляет вычислителем параметров огибающей и другими модулями, связанными с SBR, с конечной целью применить момент начала фрейма связанных с SBR параметров.

На фиг.3 показан анализирующий банк квадратурных зеркальных фильтров QMF 320 для декомпозиции второго, преимущественно высокочастотного, диапазона на определенное число, например, 32, подполос для вычисления с их помощью параметров SBR. Предпочтительно, детектор наклона спектра выполняет простой анализ линейно-предиктивного кодирования LPC только для нахождения коэффициента LPC первого порядка, что обсуждалось в контексте фиг.2с. И наоборот, детектор наклона спектра 12 выполняет спектральный анализ входного сигнала и вычисляет наклон спектра, например, используя линейную аппроксимацию или любой другой подход. В целом предпочтительнее, чтобы разрешающая способность детектора наклона спектра для выполнения частотной декомпозиции была ниже, чем частотное разрешение банка QMF 320. В некоторых реализациях детектор наклона спектра 12 не будет выполнять никакие виды частотного разложения, например, только вычисляя коэффициент LPC первого порядка α1, о чем говорилось в контексте фиг.2с.

При иных технических решениях детектор наклона спектра предназначается не только для расчета коэффициентов LPC первого порядка, но и вычисляет несколько коэффициентов LPC низкого порядка, например, LPC-коэффициенты до 3 или 4 порядка. При подобном подходе наклон спектра вычисляется с такой степенью точности, что появляется возможность не только посылать сигнал о новом фрейме при изменении наклона от отрицательного к положительному, но и инициировать новый фрейм при изменении наклона спектра от высокой величины с отрицательным знаком до низкой величины (абсолютной величины) с тем же самым знаком. Более того, применительно к моменту окончания, предпочтительно, чтобы вычислялся конец фрейма, когда наклон спектра изменился от высокого положительного до низкого положительного значения, так как это может служить показателем, что характеристика сигнала меняется от сибилянта до несибилянта. Независимо от способа вычисления наклона спектра, момент начала фрейма может распознаваться не только по изменению знака, но вместо этого, или вместе с этим, - по изменению величины наклона в определенный заданный период времени, превышающий порог принятия решения.

В варианте со знаком пороговое значение является абсолютной пороговой величиной наклона с нулевым значением, а в версии с изменением пороговая величина является показателем динамики наклона, и такое вычисление тоже может быть выполнено с использованием абсолютного порогового значения в функции с выведением первого производного функции наклона по времени. Здесь детектор наклона спектра должен подать сигнал о моменте начала фрейма, когда величина разности между значением наклона спектра в дискрете времени аудиосигнала и значением наклона спектра аудиосигнала в предыдущем дискрете времени аудиосигнала выше установленной пороговой величины. Величина разности может быть абсолютной величиной (например, при отрицательном значении разности) или величиной со знаком (например, при положительном значении разности), а заданное пороговое значение в данной реализации будет отличным от нуля.

Как было рассмотрено в контексте фиг.3 и 4, вычислитель параметров расширения полосы пропускания 10 рассчитывает параметры огибающей спектра. Однако в других вариантах осуществления вычислитель параметров расширения полосы пропускания может дополнительно рассчитывать параметры минимального уровня шума, параметры инверсного фильтрования и/или пропущенные гармонические параметры, как это известно из раздела по расширению полосы пропускания стандарта MPEG4.

В основном момент окончания фрейма задается по сигналу детектора наклона спектра или в ответ на какое-либо событие независимо от сигнала детектора наклона спектра. Событием, используемым вычислителем параметров расширения полосы пропускания для подачи команды о моменте конца фрейма, может быть, в частности, момент времени, заданный как более поздний относительно момента начала на фиксированный период. В контексте фиг.1с говорилось, что такой фиксированный период может быть короче или длиннее. Когда такой период времени длиннее, это значит, что разрешение по времени снижается, когда же этот период короче, разрешение по времени возрастает. Преимущественно, когда детектор перехода 14 сигнализирует нестационарный процесс, устанавливается первый тип периода времени, и применяется низкое разрешение по времени. Следовательно, в этом случае момент времени, заданный как более поздний относительно момента начала на фиксированный период, продолжительнее, чем в другом случае, когда сигнал момента начала выдается детектором наклона спектра. Когда момент начала сигнализирует детектор наклона спектра, это означает, что появилась свистящая составляющая сибилянта в речевом сигнале, и, следовательно, необходима высокая разрешающая способность по времени. Поэтому задаваемая периодичность времени должна быть меньше, чем в том случае, когда момент начала фрейма был сообщен детектором перехода 14 на фиг.1а.

При других конструктивных решениях детектор наклона спектра может базироваться на лингвистической информации, чтобы обнаруживать сибилянты (свистящие звуки) в речи. Если, например, речевой сигнал содержит ассоциированные метаданные, такие как международное фонетическое письмо, то анализ этих метаданных также обеспечит распознавание сибилянта в речевой составляющей. В данном случае анализируется часть аудиосигнала, содержащая метаданные.

Несмотря на то, что здесь в основном рассматривается оборудование с точки зрения его технического устройства, понятно, что аспекты материальной части тесно связаны с описанием соответствующих способов ее применения, и какое-либо изделие или блок соответствуют особенностям метода или технологической операции. Аналогично, рассматриваемые технологии и рабочие операции непосредственно связаны с соответствующим машинным оборудованием и его элементной базой.

В зависимости от конечного назначения и особенностей практического применения изобретение может быть реализовано в аппаратных или программных средствах. При техническом исполнении могут быть использованы цифровые носители и накопители данных, такие, в частности, как гибкий диск, DVD, CD, ROM, ППЗУ, программируемое ПЗУ, СППЗУ или ФЛЭШ-память, способные хранить электронно считываемые сигналы управления и взаимодействовать с программируемой компьютерной средой таким образом, чтобы мог быть осуществлен соответствующий способ.

Некоторые варианты конструкции согласно данному изобретению имеют в своем составе носитель информации, содержащий электронно считываемые сигналы управления, совместимый с программируемой компьютерной системой и способный участвовать в реализации одного из описанных здесь способов. В целом данное изобретение может быть реализовано как компьютерный программный продукт с кодом программы, обеспечивающим осуществление одного из предлагаемых способов при условии, что компьютерный программный продукт используется с применением компьютера. Код программы может, например, храниться на машиночитаемом носителе. Различные варианты реализации включают в себя компьютерную программу, хранящуюся на машиночитаемом носителе, для осуществления одного из описанных здесь способов. Таким образом, формулируя иначе, относящийся к изобретению способ осуществляется с помощью компьютерной программы, имеющей код программы, обеспечивающий реализацию одного из описанных здесь способов, если компьютерную программу выполняют с использованием компьютера. Далее, следовательно, техническое исполнение изобретенного способа включает в себя носитель данных (либо цифровой накопитель информации, либо читаемую компьютером среду), содержащий записанную на нем компьютерную программу, предназначенную для осуществления одного из способов, описанных здесь. Отсюда следует, что реализация изобретения подразумевает наличие потока данных или последовательности сигналов, представляющих компьютерную программу для осуществления одного из описанных здесь способов. Поток данных или последовательность сигналов могут быть рассчитаны на передачу через средства связи, например, Интернет. Кроме того, реализация включает в себя аппаратные средства, например, компьютер или программируемое логическое устройство, предназначенные или приспособленные для осуществления одного из описанных здесь способов. Далее, для технического исполнения требуется компьютер с установленной на нем компьютерной программой для осуществления одного из описанных здесь способов. Некоторые версии конструкции для реализации одной или всех функциональных возможностей описанных здесь способов могут потребовать применения программируемого логического устройства (например, полевой программируемой матрицы логических элементов). В зависимости от назначения версии базовый матричный кристалл может сочетаться с микропроцессором с целью осуществления одного из описанных здесь способов. Как правило, описываемые способы могут быть реализованы с использованием любого аппаратного средства. Описанные выше конструктивные решения являются только иллюстрациями основных концепций настоящего изобретения. Подразумевается, что для специалистов в данной области возможность внесения изменений и усовершенствований в компоновку и элементы описанной конструкции очевидна. В силу этого, представленные здесь описания и пояснения вариантов реализации изобретения, ограничиваются только рамками патентных требований, а не конкретными деталями.

Источник поступления информации: Роспатент

‹ › ×

Авторы
Правообладатели

Показаны записи 1-10 из 13.

20.01.2013

№216.012.1dde

Устройство для микширования множества входных данных

Изобретение относится к устройствам для микширования множества входных потоков данных для получения потока данных, которые могут применяться, например, в области систем конференц-связи, включая системы видео- и телеконференций. Техническим результатом является уменьшение сложности вычислений...

Тип: Изобретение

Номер охранного документа: 0002473140

Дата охранного документа: 20.01.2013