20.02.2014

№216.012.a381

Результат интеллектуальной деятельности: ЗВУКОВОЕ КОДИРУЮЩЕЕ УСТРОЙСТВО И ДЕКОДЕР ДЛЯ КОДИРОВАНИЯ ДЕКОДИРОВАНИЯ ФРЕЙМОВ КВАНТОВАННОГО ЗВУКОВОГО СИГНАЛА

Вид РИД

Изобретение

Юридическая информация Юридическая информация Свернуть Развернуть

Авторы

Правообладатели

№ охранного документа

0002507572

Дата охранного документа

20.02.2014

Краткое описание РИД Краткое описание РИД Свернуть Развернуть

Аннотация: Звуковое кодирующее устройство (10), приспособленное для кодирования фреймов квантованного звукового сигнала для получения кодированных фреймов, где фрейм включает ряд звуковых образцов временной области. Звуковое кодирующее устройство (10) включает этап анализа предиктивного кодирования (12) для определения информации о коэффициентах синтезирующего фильтра и фрейма области предсказания, основанного на фрейме звуковых образцов. Звуковое кодирующее устройство (10) далее включает преобразователь, вводящий временное совмещение имен (14), для преобразования перекрывающихся фреймов области предсказания в частотную область для получения спектров фрейма области предсказания, где преобразователь, вводящий временное совмещение имен (14), приспособлен для преобразования перекрывающихся фреймов области предсказания способом критической выборки. Кроме того, звуковое кодирующее устройство (10) включает кодирующее устройство, уменьшающее избыточность (16) для кодирования спектров фрейма области предсказания для получения кодированных фреймов, основанных на коэффициентах, и кодированных спектров фрейма области предсказания. 6 н. и 15 з.п. ф-лы, 20 ил.

Реферат Реферат Свернуть Развернуть

Данное изобретение имеет отношение к кодированию источника и, в частности, к кодированию звукового источника, в котором звуковой сигнал обрабатывается двумя различными звуковыми кодирующими устройствами, имеющими различные алгоритмы кодирования.

В контексте технологии звукового и речевого кодирования с низкой скоростью передачи битов традиционно использовались несколько различных методов кодирования, чтобы обеспечить кодирование таких сигналов с низкой скоростью передачи битов с сохранением самых лучших субъективных качеств, возможных при данной скорости передачи битов. Кодирующие устройства для обычных музыкальных/звуковых сигналов стремятся оптимизировать субъективное качество, создавая спектральную (и временную) форму ошибки квантизации согласно маскирующей пороговой кривой, которая рассчитывается от входного сигнала посредством перцепционной модели («перцепционное звуковое кодирование»). С другой стороны, как было показано, кодирование речи с очень низкой скоростью передачи битов работало очень эффективно, когда основывалось на модели, воспроизводящей человеческую речь, то есть с использованием Линейного Предиктивного Кодирования (LPC), чтобы смоделировать резонансные эффекты человеческого голосового трактата вместе с эффективным кодированием сигнала остаточного возбуждения.

Как следствие этих двух различных подходов, обычные звуковые кодирующие устройства, такие как MPEG-1 Слой 3 (MPEG=Экспертная Группа по Кинематографии), или MPEG-2/4 Расширенное Звуковое Кодирование (ААС), не используются также для речевых сигналов при очень низкой скорости передачи данных, как и специальные основанные на LPC речевые кодирующие устройства, из-за недостаточной эксплуатации исходной речевой модели. Наоборот, основанные на LPC речевые кодирующие устройства обычно не достигают убедительных результатов, когда применяются к обычным музыкальным сигналам, из-за их неспособности гибко формировать спектральную огибающую искажения кодирования согласно маскирующей пороговой кривой. В дальнейшем, описываются концепции, которые объединяют преимущества основанного на LPC кодирования и перцепционного звукового кодирования в единую структуру и, таким образом, описывают унифицированное звуковое кодирование, которое эффективно как для обычных звуковых, так и для речевых сигналов.

Традиционно, перцепционные звуковые кодирующие устройства используют основанный на гребенке фильтров подход для эффективного кодирования звуковых сигналов и формирования искажений квантизации согласно расчету маскирующей кривой.

Фиг.16а показывает базисную блок-схему монофонической перцепционной кодирующей системы. Анализирующая гребенка фильтров 1600 используется, чтобы отображать образцы временной области на спектральных компонентах подвыборки. В зависимости от числа спектральных компонентов система также называется кодирующим устройством поддиапазонов (небольшое количество поддиапазонов, например 32) или преобразующим кодирующим устройством (большое количество частотных линий, например 512). Перцепционная («психоакустическая») модель 1602 используется, чтобы рассчитать фактический маскирующий порог с временной зависимостью. Спектральные компоненты («поддиапазона» или «частотной области») квантуются и кодируются 1604 так, что шум квантизации скрывается под фактически переданным сигналом, и становится незаметным после декодирования. Это достигается посредством изменения гранулярности квантизации спектральных величин по времени и частоте.

Квантованные и энтропийно кодированные спектральные коэффициенты или величины поддиапазона, кроме того, с дополнительной информацией, вводятся в форматер битового потока 1606, который обеспечивает кодированный звуковой сигнал, который может передаваться или сохраняться. Выходной битовый поток блока 1606 может передаваться через Интернет или может сохраняться на любом машиночитаемом носителе информации.

На стороне декодера входной интерфейс декодера 1610 получает кодированный битовый поток. Блок 1610 отделяет энтропийно кодированные и квантованные спектральные/поддиапазоновые величины от дополнительной информации. Кодированные спектральные величины вводятся в энтропийный декодер, такой как декодер Хаффмана, который размещается между 1610 и 1620. Выходы этого энтропийного декодера являются квантованными спектральными величинами. Эти квантованные спектральные величины вводятся в реквантизатор, который выполняет «обратную» квантизацию, как обозначено цифрой 1620 на фиг.16. Выход блока 1620 вводится в синтезирующую гребенку фильтров 1622, которая выполняет синтезирующее фильтрование, включая частотное/временное преобразование и, обычно, операцию отмены совмещения имен временной области, такую как перекрывание и добавление, и/или операцию управления окнами на стороне синтеза, чтобы, в конечном счете, получить выходной звуковой сигнал.

Традиционно, эффективное речевое кодирование основывалось на Линейном Предиктивном Кодировании (LPC), чтобы смоделировать резонансные эффекты человеческого голосового тракта вместе с эффективным кодированием сигнала остаточного возбуждения. И LPC и параметры возбуждения передаются от кодирующего устройства к декодеру. Этот принцип проиллюстрирован на Фиг.17а и 17b.

Фиг.17а показывает сторону кодирующего устройства системы кодирования/декодирования, основанной на линейном Предиктивном кодировании. Речевой вход вводится в анализатор LPC 1701, который на выходе обеспечивает коэффициенты фильтрации LPC. Основываясь на этих коэффициентах фильтрации LPC, регулируется фильтр LPC 1703. Фильтр LPC производит спектрально отбеленный звуковой сигнал, который также называется «сигналом ошибки предсказания». Этот спектрально отбеленный звуковой сигнал вводится в кодирующее устройство остатка/возбуждения 1705, которое генерирует параметры возбуждения. Таким образом, речевой вход кодируется в параметры возбуждения, с одной стороны, и коэффициенты LPC, с другой стороны.

На стороне декодера, проиллюстрированного на фиг.17b, параметры возбуждения вводятся в декодер возбуждения 1707, который генерирует сигнал возбуждения, который может быть введен в синтезирующий фильтр LPC. Синтезирующий фильтр LPC регулируется посредством использования переданных коэффициентов фильтрации LPC. Таким образом, синтезирующий фильтр LPC 1709 генерирует восстановленный или синтезированный выходной речевой сигнал.

Со временем было предложено много способов относительно эффективного и перцепционно убедительного представления остаточного сигнала (сигнала возбуждения), такого как Многоимпульсное Возбуждение (МРЕ), Регулярное Импульсное Возбуждение (RPE), и Кодовозбудимое Линейное Предсказание (CELP).

Линейное Предиктивное Кодирование пытается произвести расчет текущей выборочной величины последовательности, основанной на наблюдении за определенным числом прошлых величин как линейной комбинации прошлых наблюдений. Чтобы уменьшить избыточность во входном сигнале, фильтр LPC кодирующего устройства «отбеливает» входной сигнал в его огибающую спектра, то есть, это - модель обратной огибающей спектра сигнала. Наоборот, синтезирующий фильтр LPC декодера является моделью огибающей спектра сигнала. В частности, хорошо известный авторегрессивный (AR) линейный предиктивный анализ, как известно, моделирует огибающую спектра сигнала посредством приближения с одними полюсами.

Как правило, речевые кодирующие устройства узкого диапазона (то есть речевые кодирующие устройства со скоростью выборки 8 кГц) используют фильтр LPC с упорядоченностью между 8 и 12. Багодаря природе фильтра LPC однородное частотное разрешение эффективно по всему частотному диапазону. Это не соответствует перцепционному частотному масштабированию.

Чтобы объединить мощности традиционного основанного на LPC/CELP кодирования (лучшее качество речевых сигналов) и традиционного основанного на гребенке фильтров перцепционного звукового кодирования (лучше всего для музыки), было предложено объединенное кодирование этих архитектур. В AMR-WB+(AMR-WB=Адаптивное Мультискоростное Широкополосное) кодирующем устройстве в работе Б.Бессета, Р.Лефевра, Р.Садами «УНИВЕРСАЛЬНОЕ РЕЧЕВОЕ // ЗВУКОВОЕ КОДИРОВАНИЕ, ИСПОЛЬЗУЮЩЕЕ ГИБРИДНЫЕ МЕТОДЫ ACELP/TCX», Протокол IEEE ICASSP 2005, стр.301-304, 2005 два переменных кодирующих ядра воздействуют на остаточный сигнал LPC. Один основывается на ACELP (ACELP=Алгебраическое Кодовозбудимое Линейное Предсказание) и, таким образом, является чрезвычайно эффективным для кодирования речевых сигналов. Другое кодирующее ядро основывается на ТСХ (ТСХ=Преобразующее Кодированное Возбуждение), то есть, основанное на гребенке фильтров кодирование напоминает традиционные звуковые методы кодирования, чтобы достигнуть хорошего качества сигналов музыки. В зависимости от характеристик входного сигнала/сигналов выбирается один из двух режимов кодирования для короткого промежутка времени, чтобы передать остаточный сигнал LPC. Таким образом, фреймы продолжительностью 80 миллисекунд могут быть расщеплены на подфреймы в 40 миллисекунд или 20 миллисекунд, в которые принимается решение о выборе между двумя режимами кодирования.

AMR-WB+(AMR-WB+=Расширенный Адаптивный Мультискоростной Широкополосный кодер-декодер), сравните, 3GPP (3GPP=Общий Протокол Пакетной Передачи Третьего Поколения) техническая спецификация номер 26.290, версия 6.3.0, июнь 2005 г., может переключаться между двумя существенно различными режимами ACELP и ТСХ. В режиме ACELP сигнал временной области кодируется алгебраическим кодовым возбуждением. В режиме ТСХ используется быстрое преобразование Фурье (FFT=Быстрое Преобразование Фурье), и спектральные величины LPC взвешенного сигнала (из которого в декодере получается сигнал возбуждения) кодируются, основываясь на векторной квантизации.

Решение о том, какой режим использовать, может быть принято путем испытания и декодирования обоих вариантов с последующим сравнением полученных отношений сигнала к шуму (SNR=Отношение Сигнала к Шуму).

Этот случай также называется решением замкнутого контура, поскольку имеется замкнутый контур регулирования, оценивающий, соответственно, и выполнение кодирования и эффективность, и затем выбирающий один с лучшим SNR (Отношение Сигнала к Шуму) с отбраковкой другого.

Хорошо известно, что для звукового и речевого кодирования блок преобразования без управления окнами не пригоден. Поэтому для режима ТСХ сигнал реализуется посредством организации окна с низким окном перекрывания с перекрыванием ¹/₈. Эта зона перекрывания необходима для постепенного ослабления предшествующего блока или фрейма с усилением следующего, например, чтобы подавить артефакты вследствие присутствия некоррелированого шума квантизации в последующих звуковых фреймах. Таким образом, служебные сигналы, сопоставимые с некритической выборкой, сохраняются разумно низкими, и декодирование, необходимое для решения замкнутого контура, восстанавливает, по крайней мере, ⁷/₈ образцов текущего фрейма.

AMR-WB+ вводит ¹/₈ служебных сигналов в режим ТСХ, то есть, число спектральных величин, подлежащих кодированию, на ¹/₈ выше, чем число входных образцов. Это вызывает то неудобство, что увеличивается количество данных служебных сигналов. Кроме того, частотная характеристика соответствующих полосовых фильтров неблагоприятна, из-за чрезмерной зоны перекрывания ¹/₈ последовательных фреймов.

Для более детальной разработки кодовых служебных сигналов и перекрывания последовательных фреймов фиг.18 иллюстрирует определение параметров окна. Окно, показанное на фиг.18, имеет часть верхнего края слева, обозначенную буквой «L», также называемую левой зоной перекрывания, центральную зону, обозначенную цифрой «1», также называемую зоной 1 (единиц) или обходной частью, и часть нижнего края, обозначенную буквой «R», также называемую правой зоной перекрывания. Кроме того, фиг.18 показывает стрелку, указывающую на зону «PR» идеального восстановления в пределах фрейма. Кроме того, фиг.18 показывает стрелку, указывающую длину ядра преобразования, обозначенного буквой «Т».

Фиг.19 показывает схему представления последовательности AMR-WB+ окон и внизу таблицу параметров окна согласно фиг.18. Последовательность окон, показанная вверху фиг.19, является ACELP, TCX20 (для фрейма продолжительностью в 20 миллисекунд), ТСХ20, ТСХ40 (для фрейма продолжительностью в 40 миллисекунд), ТСХ80 (для фрейма продолжительностью в 80 миллисекунд), TCX20, TCX20, ACELP, ACELP.

Из последовательности окон можно увидеть изменяющиеся зоны перекрывания, которые перекрываются точно на ¹/₈ центральной части М. Таблица внизу фиг.19 также показывает, что длина преобразования «Т» всегда на ¹/₈ больше, чем зона новых идеально восстановленных образцов «PR». Кроме того, следует заметить, что это не только в случае переходов ACELP в ТСХ, но также и в случае переходов ТСХх в ТСХх (где «х» обозначает фреймы ТСХ произвольной длины). Таким образом, в каждый блок вводится ¹/₈ служебных сигналов, то есть критическая выборка никогда не достигается.

При переключении от ТСХ на ACELP образцы окна отбраковываются из фрейма FFT-ТСХ в зоне перекрывания, как, например, обозначено вверху фиг.19 зоной, обозначенной цифрой 1900. При переключении от ACELP на ТСХ реализуемый посредством организации окна отклик при отсутствии входного сигнала (ZIR=отклик при отсутствии входного сигнала), который также обозначается пунктирной линией 1910 наверху фиг.19, удаляется в кодирующем устройстве для управления окнами и добавляется в декодере для восстановления. При переключении от ТСХ на ТСХ фреймы реализуемые посредством организации окна образцы используются для взаимного ослабления. Так как фреймы ТСХ могут квантоваться по-другому, ошибка квантизации или шум квантизации между последовательными фреймами могут быть различными и/или независимыми. К тому же, при переключении от одного фрейма на следующий без взаимного ослабления могут появиться заметные артефакты, и, следовательно, взаимное ослабление необходимо для достижения определенного качества.

Из таблицы внизу фиг.19 можно видеть, что зона взаимного ослабления растет с увеличением длины фрейма. Фиг.20 показывает другую таблицу, иллюстрирующую различные окна для возможных переходов в AMR-WB+. При переходе от ТСХ до ACELP перекрывающиеся образцы могут быть отбракованы. При переходе от ACELP до ТСХ отклик при отсутствии входного сигнала из ACELP удаляется в кодирующем устройстве и добавляется в декодере для восстановления.

Существенным недостатком AMR-WB+ является то, что всегда вводится 1/8^-ая служебных сигналов.

Задачей данного изобретения является обеспечение более эффективной концепции звукового кодирования.

Задача решается при помощи звукового кодирующего устройства по п.1, способа звукового кодирования по п.12, звукового декодера по п.14 и способа звукового декодирования по п.20.

Осуществления данного изобретения основываются на обнаружении того, что более эффективное кодирование может быть выполнено, если используются преобразования, вводящие временное совмещение имен, например, для кодирования ТСХ. Преобразования, вводящие временное совмещение имен, могут обеспечить достижение критической выборки, в то же время сохраняя способность к взаимному ослаблению между смежными фреймами. Например, в одном осуществлении используется модифицированное дискретное косинусное преобразование (MDCT=Модифицированное Дискретное Косинусное Преобразование) для того, чтобы преобразовать перекрывающиеся фреймы временной области в частотную область. Так как это специфическое преобразование производит только N образцы частотной области для 2N образцов временной области, критическая выборка может поддерживаться даже при том, что фреймы временной области могут перекрываться на 50%. В декодере или в ходе обратного преобразования, вводящего временное совмещении имен, этап перекрывания и добавления может быть приспособлен для комбинирования перекрывания временного совмещения имен и обратно преобразованных образцов временной области в том смысле, что может выполняться отмена совмещения имен временной области (TDAC=Отмена Совмещения Имен Временной Области).

Осуществления могут использоваться в контексте переключаемого кодирования частотной области и временной области с низкими окнами перекрывания, такими как, например, AMR-WB+. Осуществления могут использовать MDCT вместо некритически дискретизированной гребенки фильтров. Таким образом, служебные сигналы, благодаря некритической выборке, могут быть благоприятно уменьшены, основываясь на критической выборке свойств, например MDCT. Дополнительно, более длинные перекрывания возможны без введения дополнительных служебных сигналов. Осуществления могут обеспечить то преимущество, что основанное на более длинных служебных сигналах перекрестное ослабление может быть выполнено более гладко, другими словами, качество звука может быть улучшено в декодере.

В одном детальном осуществлении FFT в AMR-WB+ТСХ-режиме может быть заменено на MDCT с сохранением функциональных возможностей AMR-WB+, особенно, переключение между режимом ACELP и режимом ТСХ, основанным на решении замкнутого или открытого контура. Осуществления могут использовать MDCT в форме некритической выборки для первого фрейма ТСХ после фрейма ACELP и впоследствии использовать MDCT в форме критической выборки для всех последующих фреймов ТСХ. Осуществления могут сохранять свойства решения замкнутого контура, используя MDCT с низкими окнами перекрывания, подобными немодифицированному AMR-WB+, но с более длинными перекрываниями. Оно может обеспечить преимущество лучшей частотной характеристики по сравнению с немодифицированными окнами ТСХ.

Осуществления данного изобретения будут описаны более детально с использованием сопровождающих рисунков, в которых:

Фиг.1 показывает осуществление звукового кодирующего устройства.

Фиг.2a-2j показывают уравнения для осуществления преобразования, вводящего совмещение имен временной области.

Фиг.3а показывает другое осуществление звукового кодирующего устройства.

Фиг.3b показывает другое осуществление звукового кодирующего устройства.

Фиг.3с показывает еще одно осуществление звукового кодирующего устройства.

Фиг.3d показывает еще одно осуществление звукового кодирующего устройства.

Фиг.4а показывает образец речевого сигнала временной области для вокализованной речи.

Фиг.4b иллюстрирует спектр образца вокализованного речевого сигнала.

Фиг.5а иллюстрирует сигнал временной области образца невокализованного речевого сигнала.

Фиг.5b показывает спектр образца невокализованного речевого сигнала.

Фиг.6 показывает осуществление анализа через синтез CELP.

Фиг.7 иллюстрирует этап ACELP на стороне кодирующего устройства, предоставляющий краткосрочную информацию предсказания и сигнал ошибки предсказания.

Фиг.8а показывает осуществление звукового декодера.

Фиг.8b показывает другое осуществление звукового декодера.

Фиг.8с показывает другое осуществление звукового декодера.

Фиг.9 показывает осуществление функции окна.

Фиг.10 показывает другое осуществление функции окна.

Фиг.11 показывает схемы представления и диаграммы задержки прототипных функций окна и функции окна осуществления.

Фиг.12 иллюстрирует параметры окна.

Фиг.13а показывает последовательность функций окна и соответствие таблице параметров окна.

Фиг.13b показывает возможные переходы для основанных на MDCT осуществлений.

Фиг.14а показывает таблицу возможных переходов в осуществлении.

Фиг.14b иллюстрирует окно перехода от ACELP на ТСХ80 согласно одному осуществлению.

Фиг.14 с показывает осуществление окна перехода от фрейма ТСХх на фрейм ТСХ20 на фрейм ТСХх согласно одному осуществлению.

Фиг.14d иллюстрирует осуществление окна перехода от ACELP на ТСХ20 согласно одному осуществлению.

Фиг.14е показывает осуществление окна перехода от ACELP на ТСХ40 согласно одному осуществлению.

Фиг.14f иллюстрирует осуществление окна перехода для перехода от фрейма ТСХх на фрейм ТСХ80 на фрейм ТСХх согласно одному осуществлению.

Фиг.15 иллюстрирует переход ACELP на ТСХ80 согласно одному осуществлению.

Фиг.16 иллюстрируют примеры обычных кодирующих устройств и декодеров.

Фиг.17а, b иллюстрирует LPC кодирование и декодирование.

Фиг.18 иллюстрирует прототип окна взаимного ослабления.

Фиг.19 иллюстрирует прототип последовательности AMR-WB+ окон.

Фиг.20 иллюстрирует окна, используемые для передачи в AMR-WB+ между ACELP и ТСХ.

В дальнейшем осуществления данного изобретения будут описаны подробно. Следует заметить, что следующие осуществления не должны ограничивать область изобретения, они должны рассматриваться скорее как возможные реализации или выполнения среди многих различных осуществлений.

Фиг.1 показывает звуковое кодирующее устройство 10, приспособленное для кодирования фреймов квантованного звукового сигнала, чтобы получить кодированные фреймы, где фрейм включает несколько звуковых образцов временной области; звуковое кодирующее устройство 10 включает этап анализа предиктивного кодирования 12 для получения информации о коэффициентах для синтезирующего фильтра и фрейма области предсказания, основанного на фреймах звуковых образцов, например, фрейм области предсказания может основываться на фрейме возбуждения; фрейм области предсказания может включать образцы или взвешенные образцы сигнала области LPC, из которого может быть получен сигнал возбуждения для синтезирующего фильтра. Другими словами в осуществлениях фрейм области предсказания может основываться на фрейме возбуждения, включающем образцы сигнала возбуждения для синтезирующего фильтра.

В осуществлениях фреймы области предсказания могут соответствовать фильтрованным версиям фреймов возбуждения. Например, перцепционное фильтрование может применяться к фрейму возбуждения для получения фрейма области предсказания. В других осуществлениях фильтрация верхних частот или фильтрация нижних частот может применяться к фреймам возбуждения для получения фреймов области предсказания. А еще в одном осуществлении фреймы области предсказания могут непосредственно соответствовать фреймам возбуждения.

Звуковое кодирующее устройство 10 далее включает преобразователь, вводящий временное совмещение имен 14, для преобразования перекрывающихся фреймов области предсказания в частотную область для получения спектров фрейма области предсказания, где преобразователь, вводящий временное совмещение имен 14, приспособлен для преобразования перекрывающихся фреймов области предсказания способом критической выборки. Звуковое кодирующее устройство 10 далее включает кодирующее устройство, уменьшающее избыточность 16, для кодирования спектров фрейма области предсказания для получения кодированных фреймов, основанных на коэффициентах и кодированных спектрах фрейма области предсказания.

Кодирующее устройство, уменьшающее избыточность 16, может быть приспособлено для использования кодирования методом Хаффмана или энтропийного кодирования, чтобы кодировать спектры фрейма области предсказания и/или информацию о коэффициентах.

В осуществлениях преобразователь, вводящий временное совмещение имен 14, может быть приспособлен для преобразования перекрывающихся фреймов области предсказания таким образом, что среднее число образцов спектра фрейма области предсказания равно среднему числу образцов в фрейме области предсказания, таким образом достигается критически квантованное преобразование. Кроме того, преобразователь, вводящий временное совмещение имен 14, может быть приспособлен для преобразования перекрывающихся фреймов области предсказания согласно модифицированному дискретному косинусному преобразованию (MDCT=Модифицированное Дискретное Косинусное Преобразование).

В дальнейшем MDCT будет объяснено более детально с помощью уравнений, проиллюстрированных на Фиг.2a-2j. Модифицированное дискретное косинусное преобразование (MDCT)-преобразование, родственное преобразованию Фурье, основанное на типе-IV дискретного косинусного преобразования (DCT-IV=Дискретное Косинусное Преобразование, тип IV), с дополнительным свойством, обеспечивающим возможность перекрывания, то есть оно разработано, чтобы быть выполненным на последовательных блоках большего набора данных, где последующие блоки перекрываются так, чтобы, например, последняя половина одного блока совпала с первой половиной следующего блока. Это перекрывание, в дополнение к свойствам уплотнения энергии DCT, делает MDCT особенно привлекательным при применении сжатия сигнала, так как оно помогает избежать поиска артефактов от границ блока. Таким образом, MDCT используется в МРЗ (МРЗ=MPEG 2/4 слой 3), АС-3 (АС-3=Звуковой Кодер-декодер 3 системы Долби), Ogg Vorbis, и ААС (ААС=Расширенное Звуковое Кодирование) для звукового сжатия, например.

MDCT было предложено Принсеном, Джонсоном и Брэдли в 1987 г. вслед за более ранней (1986) работой Принсена и Брэдли, чтобы развить MDCT основной принцип отмены совмещения имен временной области (TDAC), более подробно описанный ниже. Существует также аналогичное преобразование, MDST, основанное на дискретном синусном, преобразовании, а также другие редко используемые формы MDCT, основанные на различных типах DCT или DCT/DST (DST=Дискретное Синусное Преобразование) комбинаций, которые могут также использоваться в осуществлениях преобразователем, вводящим временное совмещение имен 14.

В МР3 MDCT не примененяется к звуковому сигналу непосредственно, а скорее к выходу гребенки 32-полосных многофазных квадратурных фильтров (PQF=Многофазный Квадратурный Фильтр). Выход этого MDCT постобрабатывается посредством формулы сокращения псевдонима, чтобы уменьшить типичное совмещение имен гребенки фильтров PQF. Такая комбинация гребенки фильтров с MDCT называется гибридной гребенкой фильтров или MDCT поддиапазона. ААС, с другой стороны, обычно использует чистое MDCT; только (редко используемый) MPEG-4 AAC-SSR вариант (фирмы Sony) использует четырехполосную гребенку PQF, сопровождаемую MDCT. ATRAC (ATRAC=Адаптивное Преобразующее Звуковое Кодирование) использует расположенные друг над другом квадратурные зеркальные фильтры, за которыми следует MDCT.

Как перекрывающееся преобразование, MDCT является немного необычным по сравнению с другими преобразованиями, родственными преобразованиям Фурье, и эта необычность состоит в том, что у него выходов на половину больше, чем входов (вместо того же самого числа). В частности, это - линейная функция F: R^2N->R^N, где R обозначает набор действительных чисел. 2N действительные числа х₀…, x_2N-1 преобразуются в N действительные числа х₀…, x_N-1 согласно формуле на фиг.2а.

Коэффициент нормализации перед этим преобразованием, здесь единица, - произвольное соглашение и различается между обработками. Только продукт нормализации MDCT и IMDCT, ниже, ограничивается.

Обратное MDCT известно как IMDCT. Поскольку имеются различные числа входов и выходов, на первый взгляд может показаться, что MDCT не должно быть обратимым. Однако идеальная обратимость достигается посредством добавления перекрывающихся IMDCT последующих перекрывающихся блоков, вызывая ошибки, подлежащие отмене, и оригинальные данные, подлежащие извлечению; эта методика известна как отмена совмещения имен временной области (TDAC).

IMDCT преобразует N действительные числа Х₀…, X_N-1 в 2N действительные числа y₀…, y_2M-1 согласно формуле на фиг.2b. Как для DCT-IV (ортогональное преобразование), обратное преобразование имеет ту же самую форму, что и прямое преобразование.

В случае реализуемого посредством организации окна MDCT с обычной нормализацией окна (см. ниже), коэффициент нормализации перед IMDCT должен быть умножен на 2, то есть становится 2/N.

Хотя прямое применение формулы MDCT потребует О (N²) операций, можно вычислить то же самое только с О (N log N) коэффициентом сложности, рекурсивно разлагая на множители вычисление, как в быстром преобразовании Фурье. Можно также вычислить MDCTs посредством других преобразований, обычно DFT (FFT) или DCT, объединенные с О (N) стадиями пред- и постобработки. Кроме того, как описано ниже, любой алгоритм для DCT-IV немедленно обеспечивает способ вычисления MDCT и IMDCT равного размера.

В типичных случаях применения сжатия сигнала свойства преобразования далее улучшаются при использовании функции окна w_n (n=0 …, 2N-1), то есть умноженной на x_n и y_n в вышеуказанных MDCT и IMDCT формулах, чтобы избежать неоднородностей на n=0 и 2N границах посредством гладкого продвижения функции к нулю в этих точках. То есть данные реализуются посредством организации окна перед MDCT и после IMDCT. В принципе, х и y могут иметь различные функции окна; и функция окна может также изменяться от одного блока к следующему, особенно для случая, где блоки данных различных размеров объединяются, но для простоты общий случай идентичных функций окна для блоков равного размера рассматривается в первую очередь.

Преобразование остается обратимым, то есть работает TDAC, для симметричного окна w_n=w_2N-1-n, пока w удовлетворяет условию Принсена-Брэдли, согласно фиг.2с.

Общеизвестны различные другие функции окна, например, показанные на фиг.2d для МР3 и MPEG-2 ААС, и на фиг.2е для Vorbis. AC-3 использует производное окно Кайзера-Бесселя (KBD=производное Кайзера-Бесселя), и MPEG-4 ААС может также использовать окно KBD.

Заметьте, что окна, примененные к MDCT, отличаются от окон, используемых для других типов анализа сигнала, так как они должны выполнять условие Принсена-Брэдли. Одна из причин этого различия - то, что окна MDCT применяются дважды, для MDCT (анализирующий фильтр) и IMDCT (синтезирующий фильтр).

Как можно заметить при рассмотрении определений, для четного N MDCT, по существу, эквивалентно DCT-IV, где вход смещается на N/2, и два N-блока данных преобразуются в один. При более тщательном исследовании этой эквивалентности можно легко получить важные свойства, подобные TDAC.

Чтобы определить точную связь с DCT-IV, нужно понять, что DCT-IV соответствует чередованию четных/нечетных граничных условий, четные на левой границе (около n=-1/2), нечетные на правой границе (около n=N-1/2), и так далее (вместо периодических границ как для DFT). Это следует из тождеств, показанных на фиг.2f. Таким образом, если входы - массив х длины N, представьте расширение этого массива до (x, -x_R, -x, x_R…) и так далее, и можно представить случай, где x_R обозначает х в обратном порядке.

Рассмотрите MDCT с 2N входами и N выходами, где входы могут быть разделены на четыре блока (а, b, с, d), каждый размера N/2. Если они смещены на N/2 (от терма +N/2 в определении MDCT), то (b, с, d) расширяются за конец N DCT-IV входов, таким образом, они должны быть «повернуты» назад согласно граничным условиям, описанным выше.

Таким образом, MDCT 2N входов (а, b, с, d) точно эквивалентно DCT-IV N входов: (-c_R-d, a-b_R), где R обозначает аннулирование, как сказано выше. Таким образом, любой алгоритм для вычисления DCT-IV может быть заведомо применен к MDCT.

Аналогично, формула IMDCT, как упомянуто выше, точно 1/2 DCT-IV (что является его собственной инверсией), где выход смещен на N/2 и расширен (посредством граничных условий) до длины 2N. Обратное DCT-IV просто возвратит входы (-c_R-d, a-b_R) сверху. Когда он смещен и расширен посредством граничных условий, получается результат, показанный на фиг.2g. Половина выходов IMDCT, таким образом, является излишней.

Теперь понятно, как работает TDAC. Предположим, что вычисляется MDCT последующего на 50% перекрытого 2N блока (с, d, e, f). IMDCT тогда даст в результате аналогично вышеупомянутому: (c-d_R, d-c_R, e+f_R, e_R+f)/2. Когда это добавляется к предыдущему результату IMDCT в перекрываемой половине, обратные термы отменяются и получаются просто (с, d) восстановленные оригинальные данные.

Происхождение термина «отмена совмещения имен временной области» теперь ясно. Использование входных данных, которые простираются за границы логического DCT-IV, заставляет данные совмещаться тем же самым способом, которым частоты вне частоты Nyquist (максимальная частота сигнала (половина частоты дискретизации)) совмещаются, чтобы понизить частоты, за исключением случая, когда совмещение имен происходит во временной области вместо частотной области. Следовательно, комбинации c-d_Rитак далее имеют совершенно правильные признаки комбинаций, подлежащих отмене, при их добавлении.

Для нечетного N (которое редко используются на практике) N/2 не целое число, таким образом, MDCT не просто смещенная перестановка DCT-IV. В этом случае дополнительное смещение наполовину образца означает, что MDCT/IMDCT становится эквивалентным DCT-III/II, и анализ аналогичен вышеупомянутому.

Ранее свойство TDAC было подтверждено для обычного MDCT, показывая, что добавление IMDCT последующих блоков в их перекрываемую половину восстанавливает оригинальные данные. Дифференцирование этого обратного свойства для организованного посредством окна MDCT только немного сложнее.

Выбирая из вышеупомянутого тот случай, когда (а, b, с, d) и (с, d, e, f) обработаны MDCT, IMDCT и добавлены в их перекрываемую половину, мы получаем (с+d_R, c_R+d)/2+(с-d_R, d-c_R)/2=(с, d), оригинальные данные.

Теперь предполагается умножение входов MDCT и выходов IMDCT на функцию окна длиной 2N. Как сказано выше, мы предполагаем симметрическую функцию окна, которая, поэтому, имеет форму (w, z, z_R, w_R), где w и z - векторы длиной N/2, и R обозначает аннулирование, как сказано ранее. Тогда условие Принсена-Брэдли может быть записано

с умножениями и дополнениями, выполненными поэлементно, или эквивалентно

реверсируя w и z.

Поэтому вместо обработки MDCT (а, b, с, d), MDCT (wa, zb, z_Rc, w_Rd) обрабатываются MDCT со всеми умножениями, выполненными поэлементно. Когда они обрабатываются IMDCT и снова умножаются (поэлементно) на функцию окна, последняя-N половина дает результат, как показано на фиг.2h.

Заметьте, что умножение на ½ больше не присутствует, потому что нормализация IMDCT отличается множителем 2 в случае реализации посредством организации окна. Аналогичные результаты дают реализованные посредством организации окна MDCT и IMDCT (с, d, e, f) в первой-N половине согласно фиг.2i. Когда эти две половины соединяются вместе, получаются результаты фиг.2j, восстанавливающие оригинальные данные.

Фиг.3а изображает другое осуществление звукового кодирующего устройства 10. В осуществлении, изображенном на фиг.3а, преобразователь, вводящий временное совмещение имен 14, включает управляющийся окнами фильтр 17 для применения функции управления окнами к перекрывающимся фреймам области предсказания и конвертер 18 для преобразования реализованных посредством организации окон перекрывающихся фреймов области предсказания в спектры области предсказания. Согласно вышесказанному возможны функции множественного окна, некоторые из которых будут детализированы в дальнейшем.

Другое осуществление звукового кодирующего устройства 10 изображено на фиг.3b. В осуществлении, изображенном на фиг.3b, преобразователь, вводящий временное совмещение имен 14, включает процессор 19 для обнаружения события и для предоставления информации о последовательности окон, если событие обнаружено, и где управляющийся окнами фильтр 17 приспособлен для применения функции управления окнами согласно информации о последовательности окон. Например, событие может произойти в зависимости от определенных свойств сигнала, проанализированных от фреймов квантованного звукового сигнала. Например, различная длина окна или различные контуры окна и т.д. могут применяться согласно, например, свойствам автокорреляции сигнала, тональности, быстротечности, и т.д. Другими словами, различные события могут произойти как часть различных свойств фреймов квантованного звукового сигнала, и процессор 19 может обеспечивать последовательность различных окон в зависимости от свойств фреймов звукового сигнала. Более детальное описание последовательностей и параметров для последовательностей окон будет изложено ниже.

Фиг.3с показывает другое осуществление звукового кодирующего устройства 10. В осуществлении, изображенном на фиг.3d, фреймы области предсказания не только предоставляются преобразователю, вводящему временное совмещение имен 14, но также и кодирующему устройству шифровальной книги 13, которое приспособлено для кодирования фреймов области предсказания, основанного на предварительно определенной шифровальной книге, чтобы получить кодированные фреймы шифровальной книги. Кроме того, осуществление, изображенное на фиг.3с, включает решающий блок для принятия решения о том, использовать ли кодированный фрейм шифровальной книги или кодированный фрейм, чтобы получить окончательно кодированный фрейм, основанный на мере эффективности кодирования. Осуществление, изображенное на фиг.3с, может также называться сценарием замкнутого контура. В этом сценарии решающий блок 15 имеет возможность получать кодированные фреймы из двух ветвей; одна ветвь основывается на преобразовании, другая ветвь основывается на шифровальной книге. Чтобы определить меру эффективности кодирования, решающий блок может декодировать кодированные фреймы из обеих ветвей и затем определить меру эффективности кодирования посредством оценки статистических ошибок из различных ветвей.

Другими словами, решающий блок 15 может быть приспособлен для возвращения к процедуре, обратной кодированию, то есть для выполнения полного декодирования для обеих ветвей. Получив полностью декодированные фреймы, решающий блок 15 может быть приспособлен для сравнения декодированных образцов с оригинальными образцами, что обозначено пунктирной стрелкой на фиг.3с. В осуществлении, показанном на фиг.3с, решающий блок 15 также обеспечивается фреймами области предсказания, к тому же, он может декодировать кодированные фреймы из кодирующего устройства, уменьшающего избыточность 16, и также декодировать кодированные фреймы шифровальной книги из кодирующего устройства шифровальной книги 13 и сравнивать результаты с первоначально кодированными фреймами области предсказания. К тому же, в одном осуществлении посредством сравнения различий могут быть определены меры эффективности кодирования, например, исходя из отношения сигнала к шуму или статистической ошибки или минимальной ошибки, и т.д., в некоторых осуществлениях также относительно соответствующей скорости кодирования, то есть числа битов, необходимых для кодирования фреймов. Решающий блок 15 тогда может быть приспособлен для выбора кодированных фреймов из кодирующего устройства, уменьшающего избыточность 16, или кодированных фреймов шифровальной книги в качестве окончательно кодированных фреймов, основанных на мере эффективности кодирования.

Фиг.3d показывает другое осуществление звукового кодирующего устройства 10. В осуществлении, показанном на фиг.3d, имеется переключатель 20, соединенный с решающим блоком 15 для переключения фрейма области предсказания между преобразователем, вводящим временное совмещение имен 14, и кодирующим устройством шифровальной книги 13, основанном на мере эффективности кодирования. Решающий бок 15 может быть приспособлен для определения меры эффективности кодирования, основанной на фреймах квантованного звукового сигнала, чтобы определять положение переключателя 20, то есть использовать либо ветвь кодирования, основанную на преобразовывании, с преобразователем, вводящим временное совмещение имен 14, и кодирующим устройством, уменьшающим избыточность 16, или ветвь кодирования, основанную на шифровальной книге с кодирующим устройством шифровальной книги 13. Как уже было упомянуто выше, мера эффективности кодирования может быть определена на основании свойств фреймов квантованного звукового сигнала, то есть на свойствах самого звука, например, является ли фрейм более подобным тону или более подобным шуму.

Конфигурация осуществления, показанного на фиг.3d, также называется конфигурацией открытого контура, так как решающий блок 15 может принимать решение, основываясь на входных фреймах, не зная результатов выходов соответствующей ветви кодирования. Еще в одном осуществлении решающий блок может принимать решение, основываясь на фреймах области предсказания, что показано на фиг.3d пунктирной стрелкой. Другими словами, в одном осуществлении решающий блок 15 может принимать решение, основываясь не на фреймах квантованного звукового сигнала, а скорее на фреймах области предсказания.

В дальнейшем рассматривается процесс принятия решения решающим блоком 15. Обычно дифференцирование между импульс-подобной частью звукового сигнала и постоянной частью постоянного сигнала может быть сделано посредством применения процедуры обработки сигнала, в которой измеряется импульс-подобная характеристика, а также измеряется характеристика, подобная постоянной. Такие измерения могут, например, быть сделаны посредством анализа формы волны звукового сигнала. В завершение, может быть выполнена любая основанная на преобразовании обработка, LPC обработка, или любая другая обработка. Интуитивный способ определения того, является ли часть импульс-подобной или нет, например, заключается в рассмотрении формы волны временной области, чтобы определить, имеет ли эта форма волны временной области пики через равные или неравные промежутки времени; и пики через равные промежутки времени даже больше подходят для речеподобного кодирующего устройства, то есть для кодирующего устройства шифровальной книги. Заметьте, что даже в речи можно различать вокализованные и невокализованные части. Кодирующее устройство шифровальной книги 13 может быть более эффективным для вокализованных частей сигнала или вокализованных фреймов, где основанная на преобразовании ветвь, включающая преобразователь, вводящий временное совмещение имен 14, и кодирующее устройство, уменьшающее избыточность 16, может быть более подходящей для невокализованных фреймов. Обычно основанное на преобразовании кодирование может также быть более подходящим для постоянных сигналов, кроме вокализованных сигналов.

В качестве примера, ссылка делается на Фиг.4а и 4b, 5а и 5b, соответственно. Импульс-подобные сегменты сигнала или части сигнала и постоянные сегменты сигнала или части сигнала обсуждаются в качестве примера. В общем, решающий блок 15 может быть приспособлен для принятия решений, основанных на различных критериях, как например, стационарность, быстротечность, спектральная белизна, и т.д. В дальнейшем будет дан примерный критерий как часть осуществления. В частности, вокализованная речь проиллюстрирована на фиг.4а во временной области и на фиг.4b в частотной области, и обсуждается как пример импульс-подобной части сигнала, а невокализованный речевой сегмент, как пример постоянной части сигнала, обсуждается в связи с Фиг.5а и 5b.

Речь, обычно, классифицируется как вокализованная, невокализованная или смешанная. Диаграммы временной и частотной областей для дискретных вокализованных и невокализованных сегментов показаны на Фиг.4а, 4b, 5а и 5b. Вокализованная речь является квазипериодической во временной области и гармонически структурированной в частотной области, в то время как невокализованная речь является хаотичной и широкополосной. Кроме того, энергия вокализованных сегментов обычно выше, чем энергия невокализованных сегментов. Краткосрочный спектр вокализованной речи характеризуется ее тонкой и формантной структурой. Тонкая гармоническая структура - следствие квазипериодичности речи и может быть приписана вибрирующим голосовым связкам. Формантная структура, которую также называют огибающей спектра, является результатом взаимодействия источника и голосового тракта. Голосовой тракт состоит из глотки и ротовой полости. Форма огибающей спектра, которая «соответствует» краткосрочному спектру вокализованной речи, ассоциируется с характеристиками передачи голосового трактата и углом наклона спектра (6 децибелов/октава) вследствие пульсации гортани.

Огибающая спектра характеризуется рядом пиков, которые называются формантами. Форманты - резонансные режимы голосового тракта. Для среднего голосового тракта имеется 3-5 формант ниже 5 кГц. Амплитуды и местоположения первых трех формант, обычно происходящих ниже 3 кГц, очень важны как в синтезе речи, так и в восприятии. Более высокие форманты также важны для широкополосных и невокализованных речевых представлений. Свойства речи связаны с физическими системами речеобразования следующим образом. Возбуждение голосового тракта квазипериодической воздушной пульсацией гортани, генерируемой вибрирующими голосовыми связками, производит вокализованную речь. Частота периодической пульсации называется фундаментальной частотой или основным тоном. Принудительное проталкивание воздуха через сужение голосового тракта производит невокализованную речь. Носовые звуки являются результатом акустической связи носового тракта с голосовым трактом, а взрывные звуки ослабляются вследствие резкого уменьшения давления воздуха, которое было создано позади смыкания в тракте.

Таким образом, постоянная часть звукового сигнала может быть постоянной частью во временной области, как проиллюстрировано на фиг.5а, или постоянной частью в частотной области, которая отличается от импульс-подобной части, как проиллюстрировано, например, на фиг.4а, вследствие того, что постоянная часть во временной области не демонстрирует постоянно повторяющиеся импульсы. Однако, как будет показано далее, дифференцирование между постоянными частями и импульс-подобными частями может также быть выполнено посредством использования способов LPC, которые моделируют голосовой трактат и возбуждение голосового тракта. Когда рассматривается частотная область сигнала, импульс-подобные сигналы имеют отчетливый вид отдельных формант, то есть отчетливые пики на фиг.4b, в то время как постоянный спектр имеет весьма широкий спектр, как показано на фиг.5b, или, в случае гармонических сигналов, полностью непрерывный минимальный уровень шума, имеющий некоторые отчетливые пики, представляющие определенные тоны, которые имеют место, например, в музыкальном сигнале, но между которыми нет такого постоянного расстояния, как у импульс-подобных сигналов на фиг.4b.

Кроме того, импульс-подобные части и постоянные части могут появляться своевременно, то есть это означает, что часть звукового сигнала постоянна во времени, а другая часть звукового сигнала импульс-подобна во времени. Альтернативно или дополнительно, характеристики сигнала могут быть различными в различных частотных диапазонах. Таким образом, определение того, постоянен ли звуковой сигнал или импульс-подобен, может также быть выполнено посредством частотого отбора так, чтобы определенный частотный диапазон или несколько определенных частотных диапазонов рассматривались как постоянные, а другие частотные диапазоны рассматриваись как импульс-подобные. В этом случае, определенная временная часть звукового сигнала могла бы включать импульс-подобную часть или постоянную часть.

Возвращаясь к осуществлению, показанному на фиг.3d, решающий блок 15 может проанализировать звуковые фреймы, фреймы области предсказания или сигнал возбуждения, чтобы определить, являются ли они, скорее, импульс-подобными, то есть, более подходящими для кодирующего устройства шифровальной книги 13, или постоянными, то есть более подходящими для основанной на преобразовании ветви кодирования.

Впоследствии, анализирующее через синтез кодирующее устройство CELP будет рассмотрено относительно фиг.6. Детали кодирующего устройства CELP могут быть также найдены в работе Андреаса Спаниерса «Речевое Кодирование: обзор обучающих программ», Труды IEEE (Институт инженеров по электротехнике и электронике), т.84, номер 10, октябрь 1994, стр 1541-1582. Кодирующее устройство CELP, как показано на фиг.6, включает долгосрочный компонент предсказания 60 и краткосрочный компонент предсказания 62. Кроме того, используется шифровальная книга, которая обозначена цифрой 64. Перцепционный взвешивающий фильтр W(z) обозначен цифрой 66, а контроллер минимизации ошибки обозначен цифрой 68. s(n) - входной звуковой сигнал. Будучи перцепционно взвешенным, взвешенный сигнал вводится в блок вычитания 69, который вычисляет погрешность между взвешенным синтезирующим сигналом (выход блока 66), и фактическим взвешенным сигналом ошибки предсказания s_w(n).

Обычно краткосрочное предсказание A(z) вычисляется на этапе анализа LPC, которая будет обсуждена далее. В зависимости от этой информации долгосрочное предсказание A_L(z) включает долгосрочный коэффициент усиления предсказания b и задержку Т (также известны как коэффициент усиления основного тона и задержка основного тона). Алгоритм CELP кодирует фреймы возбуждения или фреймы области предсказания, используя шифровальную книгу, например, Гауссовских последовательностей. Алгоритм ACELP, где «А» обозначает «алгебраический», имеет определенную алгебраически разработанную шифровальную книгу.

Шифровальная книга может содержать больше или меньше векторов, где каждый вектор имеет длину согласно числу образцов. Коэффициент усиления g измеряет вектор возбуждения, а образцы возбуждения фильтруются долгосрочным синтезирующим фильтром и краткосрочным синтезирующим фильтром. «Оптимальный» вектор выбирается таким образом, что минимизируется перцепционно взвешенная среднеквадратическая ошибка. Процесс поиска в CELP становится очевиден из схемы анализа через синтез, проиллюстрированной на фиг.6. Следует заметить, что фиг.6 иллюстрирует только пример анализа через синтез CELP, и что осуществления не будут ограничиваться структурой, показанной на фиг.6.

В CELP долгосрочное предсказывающее устройство часто осуществляется как адаптивная шифровальная книга, содержащая предыдущий сигнал возбуждения. Долгосрочная задержка предсказания и коэффициент усиления предсказания представлены адаптивным индексом и коэффициентом усиления шифровальной книги, которые также выбираются посредством минимизации взвешенной среднеквадратической ошибки. В этом случае сигнал возбуждения состоит из сложения двух векторов с масштабированным коэффициентом усиления, один из адаптивной шифровальной книги, а один из фиксированной шифровальной книги. Перцепционный взвешивающий фильтр в AMR-WB+ базируется на фильтре LPC, таким образом, перцепционно взвешенный сигнал является формой сигнала LPC области. В кодирующем устройстве с преобразованием области, используемом в AMR-WB+, преобразовывание применяется к взвешенному сигналу. В декодере сигнал возбуждения получается посредством фильтрования декодированного взвешенного сигнала фильтром, состоящим из фильтров, обратных синтезирующим и взвешенным фильтрам.

Восстановленный ТСХ объект х(n) может фильтроваться обратным взвешенным синтезирующим фильтром нулевого состояния

чтобы найти сигнал возбуждения, который может быть применен к синтезирующему фильтру. Заметьте, что при фильтровании используется интерполированный LP фильтр на подфрейм или фрейм. Как только определено возбуждение, сигнал может быть восстановлен фильтрованием возбуждения при помощи синтезирующего фильтра и затем визуальной блокировкой выбора, например, посредством фильтрации при помощи фильтра 1/(1-0.68z^-1). Заметьте, что возбуждение может также использоваться, чтобы обновить адаптивную шифровальную книгу ACELP и позволяет переключаться от ТСХ на ACELP в последующем фрейме. Заметьте также, что длина синтеза ТСХ может быть представлена длиной фрейма ТСХ (без перекрывания): 256, 512 или 1024 образцами для модуля [] 1,2 или 3 соответственно.

Функциональные возможности осуществления этапе анализа предиктивного кодирования 12 будут обсуждены впоследствии согласно осуществлению, показанному на Фиг.7, посредством использования LPC анализа и LPC синтеза в решающем блоке 15 в соответствующих осуществлениях.

Фиг.7 иллюстрирует более детальное выполнение осуществления анализирующего блока LPC 12. Звуковой сигнал вводится в фильтрующий определяющий блок, который определяет информацию о фильтре A(z), то есть, информацию о коэффициентах для синтезирующего фильтра. Эта информация квантуется и выводится как краткосрочная информация предсказания, необходимая для декодера. В блок вычитания 786 вводится текущий образец сигнала, и предсказанная величина для текущего образца вычитается так, что для этого образца сигнал предсказания ошибки генерируется на линии 784. Заметьте, что сигнал предсказания ошибки может также называться сигналом возбуждения или фреймом возбуждения (обычно, будучи закодированным).

Осуществление звукового декодера 80 для декодирования кодированных фреймов для получения фреймов квантованного звукового сигнала, где фрейм включает ряд образцов временной области, показано на фиг.8а. Звуковой декодер 80 включает декодер, отыскивающий избыточность 82, для декодирования кодированных фреймов, чтобы получить информацию о коэффициентах для синтезирующего фильтра и спектрах фрейма области предсказания, или фреймах спектральной области предсказания. Звуковой декодер 80 далее включает обратный преобразователь, вводящий временное совмещение имен 84, для преобразования фрейма спектральной области предсказания во временную область, чтобы получить перекрывающиеся фреймы области предсказания, где обратный преобразователь, вводящий временное совмещение имен 84, приспособлен для определения перекрывающихся фреймов области предсказания из последовательных спектров фрейма области предсказания. Кроме того, звуковой декодер 80 включает перекрывающий/добавляющий объединитель 86 для объединения перекрывающихся фреймов области предсказания, чтобы получить фрейм области предсказания критически дискретизированным способом. Фрейм области предсказания может состоять из основанного на LPC взвешенного сигнала. Перекрывающий/добавляющий объединитель 86 может также включать конвертер для преобразования фреймов области предсказания в фреймы возбуждения. Звуковой декодер 80 далее включает предиктивный этап синтеза 88 для определения синтезирующего фрейма, основанного на коэффициентах и фрейме возбуждения.

Перекрывающий и добавляющий объединитель 86 может быть приспособлен для объединения перекрывающихся фреймов области предсказания таким образом, что среднее число образцов во фрейме области предсказания равняется среднему числу образцов спектра фрейма области предсказания. В осуществлениях обратный преобразователь, вводящий временное совмещение имен 84, может приспосабливаться для преобразования спектров фрейма области предсказания во временную область согласно IMDCT согласно вышеупомянутым деталям.

Обычно в блоке 86 после «перекрывающего/добавляющего объединителя» в осуществлениях дополнительно может происходить «восстановление возбуждения», которое показано в скобках на Фиг.8а-с. В осуществлениях перекрывание/добавление может выполняться во взвешенной области LPC, тогда взвешенный сигнал может быть преобразован в сигнал возбуждения посредством фильтрации в обратном взвешенном синтезирующем фильтре.

Кроме того, в осуществлениях предиктивный этап синтеза 88 может быть приспособлен для определения фрейма, основанного на линейном предсказании, то есть LPC. Другое осуществление звукового декодера 80 изображено на фиг.8b. Звуковой декодер 80, изображенный на фиг.8b, показывает компоненты, аналогичные звуковому декодеру 80, изображенному на фиг.8а, однако обратный преобразователь, вводящий временное совмещение имен 84, в осуществлении, показанном на фиг.8b, далее включает конвертер 84а для преобразования спектров фрейма области предсказания в преобразованные перекрывающиеся фреймы области предсказания, а управляющийся окнами фильтр 84b для применения функции управления окнами к преобразованным перекрывающимся фреймам области предсказания для получения перекрывающихся фреймов области предсказания.

Фиг.8с показывает другое осуществление звукового декодера 80, имеющего компоненты, аналогичные компонентам осуществления, изображенного на фиг.8b. В осуществлении, изображенном на фиг.8с, обратный преобразователь, вводящий временное совмещение имен 84, далее включает процессор 84с для обнаружения события и для предоставления информации о последовательности окон, если событие обнаружено, управляющемуся окнами фильтру 84b, и управляющийся окнами фильтр 84b приспособлен для применения функции управления окнами согласно информации о последовательности окон. Событие может быть признаком, полученным из или предоставленным кодированными фреймами или любой дополнительной информацией.

В осуществлениях звуковых кодирующих устройств 10 и звуковых декодеров 80 соответствующие управляющиеся окнами фильтры 17 и 84 могут быть приспособлены к применению функций управления окнами согласно информации о последовательности окон. Фиг.9 изображает общее прямоугольное окно, в котором информация о последовательности окон может включать первую нулевую часть, в которой окно маскирует образцы, вторую обходную часть, в которой образцы фрейма, то есть фрейма области предсказания или перекрывающегося фрейма области предсказания, могут пропускаться немодифицированными, и третью нулевую часть, которая снова маскирует образцы в конце фрейма. Другими словами, могут применяться функции управления окнами, которые подавляют некоторые образцы фрейма в первой нулевой части, проходят через образцы во второй обходной части и затем подавляют образцы в конце фрейма в третьей нулевой части. В этом контексте подавление может также направляться на дополнение последовательности нулей в начале и/или в конце обходной части окна. Вторая обходная часть может быть такой, что функция управления окнами просто имеет величину 1, то есть образцы пропускаются немодифицированными, то есть функция управления окнами переключается образцами фрейма.

Фиг.10 показывает другое осуществление последовательности, или функции управления окнами, где последовательность управления окнами далее включает часть верхнего края между первой нулевой частью и второй обходной частью и часть нижнего края между второй обходной частью и третьей нулевой частью. Часть верхнего края может также рассматриваться как часть плавного увеличения уровня, а часть нижнего края может рассматриваться как часть глубокого замирания. В осуществлениях вторая обходная часть может включать последовательность единиц, которая вообще не изменяет образцы фрейма LPC-области.

Другими словами, ТСХ, основанное на MDCT, может потребовать от арифметического декодера ряд квантованных спектральных коэффициентов, lg, которые определяются модулем [] и величинами last_lpd_mode последнего режима. Эти две величины могут также определять длину и форму окна, которые будут применены к обратному MDCT. Окно может состоять из трех частей: левостороннего перекрывания образцов L, средней части единиц образцов М и правой перекрывающейся части образцов R. Чтобы получить окно MDCT длиной 2*lg, нули ZL могут быть добавлены на левой стороне и нули ZR на правой стороне.

Следующая таблица проиллюстрирует число спектральных коэффициентов как функцию last_lpd_mode и модуля [] для некоторых осуществлений:

Величина last lpdmode	Величина модуля [х]	Число lg спектральных коэффициентов	ZL	L	м	R	ZR
0	1	320	160	0	256	28	96
0	2	576	288	0	512	128	224
0	3	1152	512	128	1024	128	512
1..3	1	256	64	128	128	128	64
1..3	2	512	192	128	384	128	192
1..3	3	1024	448	128	896	128	448

Окно MDCT представлено

Осуществления могут обеспечить то преимущество, что систематическая задержка кодирования MDCT, IDMCT соответственно, может быть понижена, по сравнению с оригинальным MDCT, посредством применения к различным функциям окна. Чтобы более подробно рассмотреть это преимущество, фиг.11 показывает четыре графа представления, в которых первый сверху показывает систематическую задержку в единицах времени Т, основанную на функциях управления окнами традиционной треугольной формы, используемых с MDCT, которые показаны во втором графе представления сверху на фиг.11.

Систематическая задержка, рассматриваемая здесь, является задержкой, которую испытывает образец, когда он достигает стадии декодера, при условии, что нет никакой задержки кодирования или передачи образцов. Другими словами, систематическая задержка, показанная на фиг.11, рассматривает задержку кодирования, вызванную аккумулированием образцов фрейма прежде, чем может быть начато кодирование. Как объяснено выше, чтобы декодировать образец в Т, образцы между 0 и 2Т должны быть преобразованы. Это приводит к систематической задержке образца в Т другого Т. Однако прежде, чем образец, сразу за этим образцом, может быть декодирован, все образцы второго окна, которое сосредоточено в 2Т, должны быть доступны. Поэтому систематическая задержка подскакивает к 2Т и снижается до Т в центре второго окна. Третий граф представления сверху на фиг.11 показывает последовательность функций окна в соответствии с осуществлением. При сравнении с современными окнами во второй схеме представления сверху на фиг.11 видно, что перекрывающиеся области ненулевой части окон были уменьшены на 2Δt. Другими словами, функции окна, используемые в осуществлениях, так же широки, как прототипы окон, однако имеют первую нулевую часть и третью нулевую часть, которые становятся предсказуемыми.

Другими словами, декодер уже знает, что есть третья нулевая часть, и поэтому декодирование может начаться раньше и кодирование соответственно. Поэтому систематическая задержка может быть уменьшена на 2Δt, как показано внизу фиг.11. Другими словами, декодер не должен ждать нулевых частей, которые могут сохранить 2Δt. Очевидно, конечно, что после процедуры декодирования, все образцы должны иметь ту же самую систематическую задержку. Графы представления на фиг.11 демонстрируют только систематическую задержку, которую испытывает образец, пока он не достигнет декодера. Другими словами, полная систематическая задержка после декодирования была бы 2Т для прототипного подхода, и 2Т-2Δt для окон в осуществлении.

В дальнейшем будет рассмотрено осуществление, где MDCT используется в AMR-WB+ кодер-декодере, заменяя FFT. Поэтому окна будут более подробно рассмотрены, в соответствии с фиг.12, которая определяет «L» как левую область перекрывания или часть верхнего края, «М» зоны единиц или второй обходной части и «R» - правая область перекрывания или часть нижнего края. Кроме того, рассматриваются первая нулевая и третья нулевая части. К тому же, зона идеального восстановления во фрейме, которая маркирована «PR», обозначена на фиг.12 стрелкой. Кроме того, «Т» указывает стрелку длиной, равной ядру преобразования, которое соответствует числу образцов частотной области, то есть половине числа образцов временной области, которые состоят из первой нулевой части, части верхнего края «L», второй обходной части «М», части нижнего края «R» и третьей нулевой части. К тому же, число частотных образцов может быть сокращено при использовании MDCT, где число частотных образцов для FFT или дискретного косинусного преобразования (DCT=Дискретное Косинусное Преобразования)

Т=L+М.+R

по сравнению с преобразованной длиной кодирующего устройства для MDCT

Т=L/2+М.+R/2.

Фиг.13а сверху иллюстрирует граф представления примерной последовательности функций окна для AMR-WB+. На фиг.13а сверху слева направо граф представления показывает фреймы ACELP, ТСХ20, ТСХ20, ТСХ40, ТСХ80, ТСХ20, ТСХ20, ACELP и ACELP. Пунктирная линия показывает отклик при отсутствии входного сигнала как уже было описано выше.

На фиг.13а внизу показана таблица параметров для различных частей окна, где, в этом осуществлении, левая перекрывающаяся часть или часть верхнего края L=128, когда любой фрейм ТСХх следует за другим фреймом ТСХх. Когда фрейм ACELP следует за фреймом ТСХх, используются аналогичные окна. Если фрейм ТСХ20 или ТСХ40 следует за фреймом ACELP, то левой перекрывающейся частью можно пренебречь, то есть L=0. При прохождении от ACELP к ТСХ80 может использоваться перекрывающаяся часть L=128. Из графа представления в таблице на фиг.13а можно видеть, что основной принцип заключается в том, чтобы оставаться в некритической выборке до тех пор, пока имеется достаточное количество служебных сигналов для идеальной реконструкции в фрейме и скорейшего переключения на критическую выборку. Другими словами, только первый фрейм ТСХ после фрейма ACELP остается некритически выбранным в данном осуществлении.

В таблице внизу фиг.13а показаны различия со ссылкой на таблицу для обычного AMR-WB+, как изображено на фиг.19. Выделенные параметры показывают преимущество осуществлений данного изобретения, в котором перекрывающаяся область расширяется таким образом, что пересекающееся замирание выполняется более гладко, и частотная характеристика окна улучшается при непрерывном осуществлении критической выборки.

Из таблицы внизу фиг.13а можно видеть, что только для переходов от ACELP к ТСХ вводится служебный сигнал, то есть только для этого перехода T>PR, то есть достигается некритическая выборка. Для всех переходов от ТСХх к ТСХх («х» показывает любую продолжительность фрейма) длина преобразования Т равна числу новых идеально восстановленных образцов, то есть достигается критическая выборка. Фиг.13b иллюстрирует таблицу графических представлений всех окон для всех возможных переходов в основанном на MDCT осуществлении AMR-WB+. Как уже было показано в таблице на фиг.13а, левая часть L окон больше не зависит от длины предыдущего фрейма ТСХ. Графические представления на фиг.14b также показывают, что критическая выборка может быть продолжена при переключении между различными фреймами. Можно заметить, что для переходов от ТСХ к ACELP производятся служебные сигналы 128 образцов. Так как левая сторона окон не зависит от длины предыдущего фрейма ТСХ, таблица, показанная на фиг.13b, может быть упрощена, как показано на фиг.14а. Фиг.14а снова показывает графическое представление окон для всех возможных переходов, где переходы от фреймов ТСХ могут быть сложены в один ряд.

Фиг.14b более подробно иллюстрирует переход от ACELP к ТСХ80 окну. Диаграмма представления на фиг.14b показывает число образцов на абсциссе и функцию окна на ординате. При рассмотрении входа MDCT левая нулевая часть простирается от образца 1 до образца 512. Часть верхнего края находится между образцом 513 и 640, вторая обходная часть между 641 и 1664, часть нижнего края между 1665 и 1792, третья нулевая часть между 1793 и 2304. Что касается вышеупомянутого обсуждения MDCT, в данном осуществлении 2304 образца временной области преобразуются в 1152 образца частотной области. Согласно вышеупомянутому описанию зона совмещения имен временной области данного окна находится между образцами 513 и 640, то есть в пределах части верхнего края простирается по образцам L=128. Другая зона совмещения имен временной области простирается между образцами 1665 и 1792, то есть по части нижнего края образцов R=128. Вследствие наличия первой нулевой части и третьей нулевой части имеется зона несовмещения имен, где идеальная реконструкция, размером М=1024, возможна между образцами 641 и 1664. На фиг.14b фрейм ACELP, обозначенный пунктирной линией, заканчивается на образце 640. Относительно образцов части верхнего края между 513 и 640 окна ТСХ80 возникают различные варианты. Один вариант состоит в том, чтобы сначала отбраковать образцы и остаться с фреймом ACELP. Другой выриант состоит в том, чтобы использовать выход ACELP, чтобы выполнить отмену совмещения имен временной области для фрейма ТСХ80.

Фиг.14с иллюстрирует переход от любого фрейма ТСХ, обозначенного «ТСХх», к фрейму ТСХ20 и назад к любому фрейму ТСХх. Фиг.14b-14f используют то же самое изображение графа представления, которое уже было описано относительно фиг.14b. На фиг.14 с в центре вокруг образца 256 изображено окно ТСХ20. 512 образцов временной области преобразованы посредством MDCT в 256 образцов частотной области. Образцы временной области используют 64 образца для первой нулевой части, а также для третьей нулевой части. К тому же, зона несовмещения имен размером М=128 простирается вокруг центра окна ТСХ20. Левое перекрывание или часть верхнего края между образцами 65 и 192 может быть объединено, чтобы отменить совмещение имен временной области с частью нижнего края предыдущего окна, как обозначено пунктирной линией. К тому же, область идеальной реконструкции дает в результате размер PR=256. Так как все части верхнего края всех окон ТСХ равны L=128 и пригодны для всех частей нижнего края R=128, предшествующий фрейм ТСХ, так же, как следующие фреймы ТСХ, может иметь любой размер. При переходе от ACELP к ТСХ20 может использоваться другое окно, как показано на фиг.14d. Как видно по фиг.14d, часть верхнего края выбирается равной L=0, то есть прямоугольный край. К тому же, область идеальной реконструкции PR=256. Фиг.14е показывает аналогичный граф представления при переходе от ACELP к ТСХ40 и, в качестве другого примера, фиг.14f иллюстрирует переход от любого окна ТСХх к ТСХ80 к любому окну ТСХх.

Таким образом, Фиг.14b-f показывают, что перекрывающаяся зона для окон MDCT всегда - 128 образцов, за исключением случая, когда происходит переход от ACELP к ТСХ20, ТСХ40, или ACELP.

Когда происходит переход от ТСХ к ACELP или от ACELP к ТСХ80 возможен ряд вариантов. В одном осуществлении окном, квантованным от MDCT ТСХ фрейма, можно пренебречь в перекрывающейся зоне. В другом осуществлении реализуемые посредством организации окна образцы могут использоваться для взаимного ослабления и для отмены совмещения имен временной области в MDCT ТСХ образцах, основанных на совмещенных ACELP образцах в перекрывающейся зоне. В еще одном осуществлении пересекающееся замирание может быть выполнено без отмены совмещения имен временной области. При переходе от ACELP к ТСХ отклик при отсутствии входного сигнала (ZIR=отклик при отсутствии входного сигнала) может быть удален в кодирующем устройстве для управления окнами и добавлен в декодер для восстановления. На чертежах это обозначено пунктирными линиями в пределах окон ТСХ, следующих за окнами ACELP. В данном осуществлении, при переходе от ТСХ к ТСХ, реализуемые посредством организации окна образцы могут использоваться для взаимного ослабления.

При переходе от ACELP к ТСХ80 длина фрейма больше и может перекрываться фреймом ACELP; может использоваться отмена совмещения имен временной области или способ отбраковки.

При переходе от ACELP к ТСХ80 предыдущий фрейм ACELP может вводить «звон» (затухающие колебания). Звон (затухающие колебания) может распознаваться как распространение ошибки, поступающей из предыдущего фрейма вследствие использования фильтрования LPC. Способ ZIR, используемый для ТСХ40 и ТСХ20, может объяснить звон (затухающие колебания). В осуществлениях вариант для ТСХ80 должен использовать способ ZIR с длиной преобразования 1088, то есть без перекрытия с фреймом ACELP. В другом осуществлении та же самая длина преобразования 1152 может быть сохранена и может быть использовано обнуление области перекрывания непосредственно перед ZIR, как показано на фиг.15. Фиг.15 показывает переход от ACELP к ТСХ80 с обнулением перекрытой области и использованием способа ZIR. Часть ZIR снова обозначена пунктирной линией, идущей после конца окна ACELP.

Суммируя вышесказанное, осуществления данного изобретения обеспечивают то преимущество, что критическая выборка может быть выполнена для всех фреймов ТСХ, когда предшествует фрейм ТСХ. По сравнению с традиционым подходом может быть достигнуто сокращение на 1/8-ую служебных сигналов. Кроме того, осуществления обеспечивают то преимущество, что переходная или перекрывающаяся область между последовательными фреймми может всегда быть 128 образцами, то есть длинее, чем для обычного AMR-WB+. Улучшенные области перекрывания также обеспечивают улучшенную частотную характеристику и более гладкое взаимное ослабление. К тому же, может быть достигнуто лучшее качество сигнала с полным процессом кодирования и декодирования.

В зависимости от определенных требований выполнения изобретательных способов изобретательные способы могут быть осуществлены в аппаратных средствах или в программном обеспечении. Выполнение может быть реализовано посредством использования цифрового носителя данных, в частности диск, DVD, флеш-память или компакт-диск, имеющего электронно-считываемые управляющие сигналы, хранящиеся на нем, которые взаимодействуют с программируемой компьютерной системой, таким образом, чтобы реализовывались изобретательные способы. В общем, данное изобретение, таким образом, - компьютерный программный продукт с управляющей программой, хранящейся на машиночитаемом носителе; управляющая программа, выполняемая для реализации изобретательных способов, когда компьютерный программный продукт запущен на компьютере. Другими словами, изобретательные способы - компьютерная программа, имеющая управляющую программу для выполнения, по крайней мере, одного из изобретательных способов, когда компьютерная программа запущена на компьютере.

ЗВУКОВОЕ КОДИРУЮЩЕЕ УСТРОЙСТВО И ДЕКОДЕР ДЛЯ КОДИРОВАНИЯ ДЕКОДИРОВАНИЯ ФРЕЙМОВ КВАНТОВАННОГО ЗВУКОВОГО СИГНАЛА

Источник поступления информации: Роспатент

‹ › ×

Авторы
Правообладатели

Showing 1-10 of 68 items.

20.01.2013

№216.012.1dde

Устройство для микширования множества входных данных

Изобретение относится к устройствам для микширования множества входных потоков данных для получения потока данных, которые могут применяться, например, в области систем конференц-связи, включая системы видео- и телеконференций. Техническим результатом является уменьшение сложности вычислений...

Тип: Изобретение

Номер охранного документа: 0002473140

Дата охранного документа: 20.01.2013