13.01.2017

№217.015.708d

Результат интеллектуальной деятельности: ПРОСТРАНСТВЕННЫЙ АУДИО ПРОЦЕССОР И СПОСОБ ОБЕСПЕЧЕНИЯ ПРОСТРАНСТВЕННЫХ ПАРАМЕТРОВ НА ОСНОВЕ АКУСТИЧЕСКОГО ВХОДНОГО СИГНАЛА

Вид РИД

Изобретение

Юридическая информация Юридическая информация Свернуть Развернуть

Авторы

Правообладатели

№ охранного документа

0002596592

Дата охранного документа

10.09.2016

Краткое описание РИД Краткое описание РИД Свернуть Развернуть

Аннотация: Изобретение относится к средствам для получения пространственных параметров на основе акустического входного сигнала. Технический результат заключается в обеспечении возможности получения пространственных параметров для входного аудиосигнала с минимизированными расхождениями с моделью, связанными с изменениями во времени или временной нестабильностью входного аудиосигнала. Пространственный аудио процессор для обеспечения пространственных параметров на основе входного аудио сигнала включает модуль определения сигнальных характеристик и управляемый модуль определения параметров. Модуль определения сигнальных характеристик настроен определять сигнальную характеристику входного аудио сигнала. Управляемый модуль определения параметров для вычисления пространственных параметров входного аудио сигнала в соответствии с формулой вычисления изменяемого пространственного параметра настроен модифицировать формулу вычисления изменяемого пространственного параметра в соответствии с определенной сигнальной характеристикой. 3 н. и 12 з.п. ф-лы, 10 ил.

Реферат Реферат Свернуть Развернуть

Область применения

Воплощения в соответствии с настоящим изобретением создают пространственный аудио процессор для получения пространственных параметров на основе акустического входного сигнала. Другие воплощения настоящего изобретения создают способ получения пространственных параметров на основе акустического входного сигнала. Воплощения настоящего изобретения могут относиться к области акустического анализа, параметрического описания и воспроизводству пространственного звука, например, на основе записей микрофона.

Уровень техники

Пространственная запись звука предназначена для записи звукового поля с группой микрофонов таким образом, что на стороне воспроизведения слушатель воспринимает звуковой образ так, как он был представлен в точке записи. При стандартных подходах к пространственной записи звука используются простые стерео микрофоны или более сложные комбинации направленных микрофонов, например, такие как микрофоны В-формата, используемые в системе Амбисоник. Обычно такие способы называются системами совмещенных микрофонов.

И наоборот, могут применяться способы, основанные на параметрическом представлении звукового поля, относящиеся к параметрическим пространственным аудио процессорам. В последнее время появились несколько методов анализа, параметрического описания и воспроизводства пространственного звука. Каждая система имеет свои преимущества и недостатки относительно типа параметрического описания, типа необходимого входного сигнала, зависимости и независимости от определенной акустической системы и т.д.

Пример эффективного параметрического описания пространственного звука представляет пространственное аудио кодирование (DirAC) (V. Pulkki: SpatialSoundReproductionwithDirectionalAudioCoding, JournaloftheAES. Vol. 55, No. 6. 2007). DirAC является способом акустического анализа и параметрического описания пространственного звука (DirAC анализ), а также способ его воспроизводства (DirAC синтез). DirAC анализ принимает сигналы группы микрофонов в качестве входного сигнала. Предоставляется описание пространственного звука для нескольких частотных поддиапазонов одного или нескольких микшированных с понижением аудио сигналов, а также дополнительная параметрическая информация, содержащая информацию о направлении звука и его размытости. Последний параметр описывает, насколько размыто записанное звуковое поле. Кроме этого, размытость может использоваться как показатель надежности при определении направления. Еще одно применение состоит в обработке пространственного аудио сигнала в зависимости от направления (M. Kallingeretal.: ASpatialFilteringApproachforDirectionalAudioCoding, 126^th AESConvention, Munich, May 2009). На основе параметрического представления пространственный звук может быть воспроизведен с помощью любой акустической системы. Кроме этого, DirAC анализ может рассматриваться как акустический внешний интерфейс для параметрической системы кодирования, которая выполняет кодирование, передачу и воспроизводство многоканального пространственного звука, например, MPEGSurround.

Другой способ анализа пространственного звукового поля представлен так называемым пространственным микрофоном (SAM) (С. Fallen MicrophoneFront-endsforSpatialAudioCoders, inProceedingsoftheAES 125_th InternationalConvention, SanFrancisco. Oct. 2008). SAM принимает сигналы совмещенных направленных микрофонов в качестве входного сигнала. Подобно DirACSAM определяет DOA (DOA - направление приема) звука для параметрического описания звукового поля совместно с вычислением компонентов диффузии звука.

Параметрические методы записи и анализа пространственного звука, такие как DirAC и SAM, основаны на вычислении определенных параметров звукового поля. Выполнение этих методов, таким образом, строго зависит от определения ключевых пространственных параметров, таких как направление приема звука или диффузия звукового поля.

Как правило, при определении ключевых пространственных параметров делаются предположения относительно входных аудио сигналов (например, относительно стационарности или тональности) для того, чтобы выполнить наилучший (т.е. наиболее эффективный и наиболее точный) алгоритм аудио обработки. Обычно для этой цели определяется одна инвариантная по времени модель сигнала. Однако, часто возникающая проблема состоит в том, что различные аудио сигналы могут демонстрировать значительные изменения во времени, поэтому общая инвариантная по времени модель, описывающая входной аудио сигнал, часто оказывается неэффективной. В частности, при рассмотрении одной инвариантной по времени модели сигнала могут встретиться несоответствия с моделью, что ухудшает выполнение применяемого алгоритма.

Задачей реализации настоящего изобретения является обеспечение пространственных параметров для входного аудио сигнала с незначительными расхождениями с моделью, связанными с изменениями во времени или временной нестабильностью входного аудио сигнала.

Сущность изобретения

Задача решается с помощью пространственного аудио процессора в соответствии с п. 1. способа для обеспечения пространственных параметров на основе входного аудио сигнала в соответствии с п. 14 и компьютерной программы в соответствии с п. 15.

Варианты реализации настоящего изобретения создают пространственный аудио процессор для обеспечения пространственных параметров на основе входного аудио сигнала. Пространственный аудио процессор содержит модуль определения сигнальных характеристик и контролируемый модуль определения параметров. Модуль определения сигнальных характеристик настроен определять сигнальные характеристики входного аудио сигнала. Контролируемый модуль определения параметров настроен вычислять пространственные параметры для входного аудио сигнала в соответствии с изменяемой формулой вычисления пространственных параметров. Модуль определения параметров также настроен модифицировать изменяемую формулу вычисления пространственных параметров в соответствии с определенной сигнальной характеристикой.

Суть идеи воплощений настоящего изобретения состоит в том, что пространственный аудио процессор для обеспечения пространственных параметров на основе входного аудио сигнала, который уменьшает несоответствия с моделью, возникающие в результате изменений во времени входного аудио сигнала, может быть создан в том случае, если формула вычисления будет модифицироваться на основе сигнальных характеристик входного аудио сигнала. Обнаружено, что несоответствия с моделью могут быть уменьшены, если определяются сигнальные характеристики входного аудио сигнала и на основе этих определенных сигнальных характеристик вычисляются пространственные параметры для входного аудио сигнала.

Другими словами, варианты реализации настоящего изобретения решают проблему модельных несоответствий, связанную с изменениями во времени входного аудио сигнала, путем определения характеристик (сигнальных характеристик) входных аудио сигналов, например, на этапе предварительной обработки (с помощью модуля определения сигнальных характеристик) и последующей идентификации модели сигнала (например, формулы вычисления пространственного параметра или формулы вычисления параметров пространственного параметра), которая наиболее оптимально соответствует текущей ситуации (текущим сигнальным характеристикам). Эта информация направляется в модуль определения параметров, который выбирает наилучшую стратегию определения параметра (в соответствии с временными изменениями входного аудио сигнала) для вычисления пространственных параметров. Таким образом, преимуществом воплощений настоящего изобретения является то, что можно получить параметрическое описание поля (пространственные параметры) со значительно сниженным модельным несоответствием.

Входной аудио сигнал может быть, например, сигналом, измеряемым с помощью одного или более микрофонов, например, с помощью микрофонной решетки или В-формат микрофона. Различные микрофоны могут иметь различную направленность. Входные аудио сигналы могут иметь, например, звуковое давление "Р" или акустическую скорость "U", например, во временной или частотной области (например, в области STFT, STFT - кратковременное преобразование Фурье) или, другими словами, во временном или частотном представлении. Входной аудио сигнал может, например, содержать компоненты в трех различных (например, ортогональных) направлениях (например, x-компонент. y-компонент и z-компонент) и всенаправленный компонент (например, w-компонент). Кроме этого, входной аудио сигнал может включать только компоненты в трех направлениях и не включать всенаправленный компонент. Кроме этого, входной аудио сигнал может включать только всенаправленный компонент. Кроме этого, входной аудио сигнал может включать два направленных компонента (например, x-компонент и y-компонент, x-компонент и z-компонент или y-компонент и z-компонент) и всенаправленный компонент или не включать всенаправленный компонент.

Кроме этого, входной аудио сигнал может включать только один направленный компонент (например, x-компонент, y-компонент или z-компонент) и всенаправленный компонент или не включать всенаправленный компонент.

Сигнальная характеристика, определяемая с помощью модуля определения сигнальных характеристик из входного аудио сигнала, например, из сигналов микрофона, может представлять собой, например: стационарные интервалы по отношению ко времени, частоте, пространству; присутствие одновременного разговора или множественных источников звука; присутствие тональности или переходных сигналов; отношение сигнал/шум входного аудио сигнала; или присутствие сигнала, похожего аплодисменты.

Сигналы, похожие на аплодисменты, определяются как сигналы, содержащие ускоренную последовательность переходов, например, с различной направленностью.

Информация, собранная модулем определения сигнальных характеристик, может быть использована для управления модулем определения параметров, например, при использовании направленного аудио кодирования (DirAC) или пространственного микрофона (SAM) для того, чтобы, например, выбирать стратегию работы модуля определения или его настройки (или, другими словами, чтобы модифицировать формулу вычисления изменяемого пространственного параметра), которые наиболее соответствуют текущей ситуации (текущей сигнальной характеристике входного аудио сигнала).

Варианты реализации настоящего изобретения могут применяться аналогичным образом в обеих системах, при использовании пространственного микрофона (SAM) и направленного аудио кодирования (DirAC). или в любой другой параметрической системе. Далее основное внимание будет уделено анализу направленного аудио кодирования.

В соответствии с некоторыми вариантами реализации настоящего изобретения управляемый модуль определения параметров может быть настроен на вычисление пространственных параметров в качестве параметров направленного аудио кодирования, включая параметр размытости для временного слота или частотного поддиапазона и/или параметр направления прихода сигнала для временного слота или частотного поддиапазона, или в качестве параметров при использовании пространственного микрофона.

Далее направленное аудио кодирование и пространственный микрофон рассматриваются как внешний интерфейс для систем, которые работают с пространственными параметрами, такими как, например, направление прихода сигнала или размытость звука. Необходимо отметить возможность непосредственного применения концепции настоящего изобретения с другими акустическими внешними интерфейсами. Как направленное аудио кодирование, так и система использования пространственных микрофонов обеспечивает специфические (пространственные) параметры, получаемые из входных аудио сигналов для описания пространственного аудио звука. Обычно при обработке пространственного аудио сигнала с помощью акустического внешнего интерфейса, такого как направленное аудио кодирование или специальный аудио микрофон, определяется одна общая модель для входных аудио сигналов и, таким образом, выводятся оптимальные (или почти оптимальные) модули определения параметров. Модули определения параметров функционируют столько, сколько это необходимо, пока не выполняются основополагающие допущения, принятые в соответствии с моделью. Как было сказано ранее, в противном случае появляются несоответствия, которые приводят к грубым ошибкам в вычислениях. Подобные несоответствия с моделью представляют собой часто встречающуюся проблему, так как входные аудио сигналы обычно значительно изменяются во времени.

Краткое описание чертежей

Варианты реализации настоящего изобретения будут далее описаны со ссылкой на прилагаемые фигуры:

Фиг. 1 показывает блок-схему пространственного аудио процессора в соответствии с вариантом реализации настоящего изобретения;

Фиг. 2 показывает блок-схему направленного аудио кодера в качестве примера;

Фиг. 3 показывает блок-схему пространственного аудио процессора в соответствии со следующим вариантом реализации настоящего изобретения;

Фиг. 4 показывает блок-схему пространственного аудио процессора в соответствии со следующим вариантом реализации настоящего изобретения;

Фиг. 5 показывает блок-схему пространственного аудио процессора в соответствии со следующим вариантом реализации настоящего изобретения;

Фиг. 6 показывает блок-схему пространственного аудио процессора в соответствии со следующим вариантом реализации настоящего изобретения;

Фиг. 7a показывает блок-схему модуля определения параметра, который может быть использован в пространственном аудио процессоре в соответствии с вариантом реализации настоящего изобретения;

Фиг. 7b показывает блок-схему модуля определения параметра, который может быть использован в пространственном аудио процессоре в соответствии с вариантом реализации настоящего изобретения;

Фиг. 8 показывает блок-схему пространственного аудио процессора в соответствии со следующим вариантом реализации настоящего изобретения;

Фиг. 9 показывает блок-схему пространственного аудио процессора в соответствии со следующим вариантом реализации настоящего изобретения; и

Фиг. 10 показывает блок-схему способа в соответствии со следующим вариантом реализации настоящего изобретения.

Подробное описание вариантов реализации настоящего изобретения

Прежде чем будут подробно описаны варианты реализации настоящего изобретения с помощью прилагаемых чертежей, необходимо отметить, что одинаковые или функционально эквивалентные элементы имеют один и тот же идентификационный номер, повторное описание таких элементов будет опущено. Описания элементов с одинаковыми идентификационными номерами, таким образом, являются взаимозаменяемыми.

Пространственный аудио процессор в соответствии с фиг. 1.

Далее будет дано описание пространственного аудио процессора 100 в соответствии с фиг. 1. на которой показана блок-схема подобного аудио процессора. Пространственный аудио процессор 100 для обеспечения пространственных параметров 102 или возможных значений пространственного параметра 102 на основе входного аудио сигнала 104 (или на основе множества входных аудио сигналов 104) включает управляемый модуль определения параметров 106 и модуль определения сигнальных характеристик 108. Модуль определения сигнальных характеристик 108 настроен определять сигнальную характеристику 110 входного аудио сигнала 104. Управляемый модуль определения параметров 106 настроен вычислять пространственные параметры 102 для входного акустического сигнала 104 в соответствии с изменяемой формулой вычисления пространственного параметра. Управляемый модуль определения параметров 106 настроен далее модифицировать изменяемую формулу вычисления пространственного параметра в соответствии с определенными сигнальными характеристиками 110.

Иными словами, управляемый модуль определения параметров 106 контролируется в зависимости от характеристик входных аудио сигналов или входного аудио сигнала 104.

Входной аудио сигнал 104, как отмечалось ранее, может включать направленные компоненты и/или всенаправленные компоненты. Подходящая сигнальная характеристика 110, как уже отмечалось, может представлять собой, например, стационарные интервалы по отношению ко времени, частоте, пространству входного аудио сигнала 104, присутствие одновременного разговора или множественных источников звука во входном аудио сигнале 104, присутствие тональности или переходных сигналов во входном аудио сигнале 104, присутствие сигнала в виде аплодисментов или отношение сигнал-шум входного аудио сигнала 104. Подобное перечисление сигнальных характеристик является примером сигнальных характеристик, которые может определить модуль определения сигнальных характеристик 108. В соответствии с другими вариантами реализации настоящего изобретения модуль определения сигнальных характеристик 108 может также определить другие (которые не упоминались) сигнальные характеристики входного аудио сигнала 104, и управляемый модуль определения параметров 106 может модифицировать изменяемую формулу вычисления пространственных параметров на основе таких сигнальных характеристик входного аудио сигнала 104.

Управляемый модуль определения параметров 106 может быть настроен на вычисление пространственных параметров 102 в качестве параметров направленного аудио кодирования, включая параметр размытости Ψ (k,n) для временного слота n и частотного поддиапазона k и/или параметр направления прихода сигнала φ (k,n) для временного слота n и частотного поддиапазона k, или в качестве параметров системы использования пространственного микрофона, например, для временного слота n и частотного поддиапазона k.

Управляемый модуль определения параметров 106 может быть далее настроен на вычисление пространственных параметров 102 при использовании не DirAC или SAM. а другой системы. Вычисление параметров DirAC или SAM приводится в качестве примера. Управляемый модуль определения параметров может быть, например. настроен на вычисление пространственных параметров 102 таким образом, что пространственные параметры будут включать направление звука, размытость звука или статистическую оценкунаправления звука.

Входной аудио сигнал может быть представлен во временной области или в (кратковременной) частотной области, например в STFT-области.

Аудио сигнал 104. представленный во временной области, может включать множество аудио потоков x₁(t)-x_N(t), каждый из которых содержит множество аудио сэмплов во временном интервале. Каждый из аудио потоков может поступать от отдельного микрофона и соответствовать различным направлениям взгляда. Например, первый входной аудио поток x₁(t) может соответствовать первому направлению (например, x-направлению), второй входной аудио поток x₂(t) может соответствовать второму направлению, которое может быть ортогонально первому направлению (например, y-направление), третий входной аудио поток x₃(t) может соответствовать третьему направлению, которое может быть ортогонально первому и второму направлениям (например, z-направление) и четвертый входной аудио поток x₄(t) может быть всенаправленным компонентом. Такие различные входные аудио потоки могут быть записаны с разных микрофонов, например, в ортогональном направлении и может быть ноцифрован при помощи аналого-цифрового преобразователя.

Согласно вариантам реализации настоящего изобретения входной аудио сигнал 104 может включать входные аудио потоки в частотном представлении, например во временно-частотной области, такой как STFT-область. Например, входной аудио сигнал 104 может быть представлен в В-формате, включающем вектор акустической скорости U(k,n) и вектор звукового давления Р(k,n), при этом k обозначает частотный поддиапазон и n обозначает временной слот. Вектор акустической скорости U(k,n) является направленным компонентом входного аудио сигнала 104, при этом звуковое давление Р(k,n) представляет всенаправленный компонент входного аудио сигнала 104.

Как отмечалось ранее, управляемый модуль определения параметров 106 может быть настроен обеспечивать пространственные параметры 102 в качестве параметров направленного аудио кодирования или в качестве параметров при использовании пространственного микрофона. Далее в качестве примера будет представлен конвенциональный направленный аудио кодер. Блок-схема конвенционального направленного аудио кодера показана на фиг. 2.

Конвенциональный направленный аудио кодер в соответствии с фиг. 2

На фиг. 2 показана блок-схема направленного аудио кодера 200. Направленный аудио кодер 200 включает модуль определения В-формата 202. Модуль определения В-формата 202 включает банк фильтров. Направленный аудио кодер 200 далее включает модуль определения параметров направленного аудио кодирования 204. Модуль определения параметров направленного аудио кодирования 204 включает энергетический анализатор 206 для осуществления анализа энергии. Кроме этого, модуль определения параметров направленного аудио кодирования 204 включает модуль определения направления 208 и модуль определения размытости 210.

Направленное аудио кодирование (DirAC) (V. Pulkki: SpatialSoundReproductionwithDirectionalAudioCoding, JournaloftheAES, Vol. 55, No. 6, 2007) представляет собой эффективный, обоснованный с точки зрения восприятия подход к анализу и воспроизводству пространственного звука. Анализ DirAC обеспечивает параметрическое описание звукового поля в отношении аудио сигнала с понижающим микшированием и дополнительной служебной информацией, например, направлением прихода сигнала (DOA) и размытостью звукового поля. DirAC принимает во внимание характеристики, значимые для человеческого слуха. Например, допускается, что интерауральные временные различия (ITD) и интерауральные уровневые различия (ILD) могут быть описаны с помощью DOA звука. Соответственно, предполагается, что интеауральная когерентность (IС) может быть представлена размытостью звукового поля. На основе выхода DirAC анализа система воспроизводства звука может создать параметры, чтобы воспроизвести звук с исходным пространственным эффектом при произвольном количестве акустических систем. Необходимо отметить, что размытость также может рассматриваться как показатель надежности для определенного DOA. Чем выше размытость, тем ниже надежность DOA. и наоборот. Подобная информация может быть использована многими инструментами на основе DirAC, такими как локализация источника (О. Thiergartetal.: LocalizationofSoundSourcesinReverberantEnvironmentsBasedonDirectionalAudioCodingParamet ers, 127^thAESConvention, NY, October 2009). Варианты реализации настоящего изобретения сосредоточены на части анализа DirAC, а не на воспроизводстве звука.

В процессе DirAC анализа параметры вычисляются посредством энергетического анализа звукового поля, который выполняется энергетическим анализатором 206. на основе сигналов В-формата, которые обеспечиваются модулем определения В-формата 202. Сигналы В-формата состоят из всенаправленного сигнала, соответствующего звуковому давлению Р(k,n), и одного, двух или трех дипольных сигналов, расположенных в x-, y- или z-направлении согласно декартовой системе координат. Дипольные сигналы соответствуют элементам вектора акустической скорости частиц U(k,n). Анализ DirAc показан на фиг. 2. Сигналы микрофона во временной области, а именно х₁(t), x₂(t), x_N(t) направляются в модуль определения В-формата. Сигналы микрофона во временной области далее буду: обозначены как «входные аудио сигналы во временной области». Модуль определения В формата 202, который содержит кратковременное преобразование Фурье (STFT) или другой банк фильтров (FB), вычисляет сигналы В-формата в кратковременной частотной области, т.е. звуковое давление Р(k,n) и вектор акустической скорости частиц U(k,n), где k и n обозначают показатель частоты (частотный поддиапазон) и показатель временного интервала (временного слота) соответственно. Сигналы Р(k,n) и U(k,n) далее будут обозначены как «входные аудио сигналы в кратковременной частотной области». Сигналы В-формата могут быть получены на основе значений решетки микрофонов, как было рассмотрено в работе R. Schultz-Amlingetal.: PlanarMicrophone Array ProcessingfortheAnalysisandReproductionofSpatialAudiousingDirectiona lAudioCoding, 124^th AESConvention, Amsterdam, TheNetherlands, May 2008 или непосредственно при использовании микрофона В-формата. В процессе энергетического анализа вектор активной интенсивности звука Ia(k,n) определяется отдельно для различных частотных диапазонов при помощи формулы

где Re (·) выводит основную часть, a U*(k,n) обозначает комплексно сопряженное число вектора акустической скорости частиц U(k,n).

Далее вектор активной интенсивности звука будет также называться параметром интенсивности.

Используя представление STFT-области формулы 1, DOA звука φ(k,n) может быть определен модулем определения направления 208 для каждого кип как противоположное направление вектора активной интенсивности звука Ia(k,n). Модуль определения размытости 210 вычисляет размытость звукового поля на основе колебаний активной интенсивности согласно формуле

где |(.)| обозначает вектор нормы, а Е(·) возвращает математическое ожидание. В применении на практике ожидание Е(·) приблизительно приравнивается путем усреднения по конечному элементу к одной или более определенной величине, например, времени, частоте или пространству.

Обнаружено, что ожидание Е(·) в формуле 2 может быть приблизительно приравнено путем усреднения к определенной величине. Для этого усреднение выполняется по времени (временное усреднение), по частоте (частотное усреднение) или пространству (пространственное усреднение). Пространственное усреднение означает, что вектор активной интенсивности звука Ia(k,n) согласно формуле 2 определяется с помощью множества микрофонных решеток, расположенных в разных точках. Например, можно расположить четыре различные (микрофонные) решетки в четырех разных точках комнаты. В результате для каждого значения времени-частоты (k,n) мы будем иметь четыре вектора интенсивности Ia(k,n), для которых можно найти среднее значение (как, например, при спектральном усреднении) для того, чтобы получить приблизительное значение оператора ожидания Е(·).

Например, при использовании временного усреднения для нескольких n, мы получаем значение Ψ(k,n) для параметра размытости согласно формуле

Существуют известные методы осуществления временного усреднения, которое необходимо согласно формуле 3. Одним из методов является усреднение блоков (усреднение интервалов) по определенному числу N временных интервалов nв соответствии с

где y (k,n) - это усредняемое количество, например, Ia(k,n) или . Второй метод для вычисления временного усреднения, который обычно используется в DirAC благодаря своей эффективности, представляет собой применение фильтров с бесконечной импульсной характеристикой (IIR). Например, при использовании фильтра нижних частот первого порядка с коэффициентом α∈[0,1] временное усреднение временное усреднение для определенного сигнала y(k,n) по числу n может быть получено согласно формуле:

где обозначает фактический результат усреднения и является предыдущим результатом усреднения, т.е. результатом усреднения для временного интервала (n-1). Более долгое временное усреднение достигается для меньших α, при этом большие α производят более быстрые результаты, а предыдущие результаты имеют меньшее значение. Типичным значением для α, используемым в DirAC, является α=0,1.

Было обнаружено, что кроме использования временного усреднения оператор ожидания в формуле 2 может быть приблизительно определен посредством спектрального усреднения по нескольким или всем частотным поддиапазонам k. Этот способ применим только в том случае, кода нет необходимости в самостоятельном вычислении значения размытости для различных частотных поддиапазонов в процессе предыдущей обработки, например, когда присутствует только один источник звука. Таким образом, наиболее подходящим способом вычисления размытости на практике может быть применение временного усреднения.

Обычно при приблизительном вычислении оператора ожидания согласно формуле 2, т.е. посредством процесса усреднения, мы предполагаем стационарность рассматриваемого сигнала по отношению к количеству, которое подвергается усреднению. Чем длиннее процесс усреднения, т.е. чем больше сэмплов учитывается, тем более точным оказывается результат.

Далее будет вкратце рассмотрен анализ с применением системы пространственного микрофона (SAM).

Анализ с применением системы пространственного микрофона (SAM)

Аналогично DiACSAM-анализ(С. Fallen Microphone Front-Ends for Spatial Audio Coders, in Proceedings of the AES 125th International Convention, San Francisco, Oct. 2008) обеспечивает параметрическое описание пространственного звука. Представление звукового поля основано на аудио сигнале с понижающим микшированием и параметрической служебной информации, а именно DOA звука и полученных значений уровней прямого и размытого компонентов звука. Входными сигналами SAM-анализа являются сигналы, измеряемые с помощью множественных синхронных направленных микрофонов, например, двух кардиоидных датчика, размещенных в одной точке. Базой для SAM-анализа являются спектральная плотность мощности (PSD) и взаимная спектральная плотность (CSD) входных сигналов.

Например, допустим, что Х₁(k,n) и Х₂(k,n) являются сигналами вовременно-частотной области, которые измеряются двумя синхронными направленными микрофонами. PSD обоих входных сигналов определяются в соответствии с

CSD между входными сигналами даются в соответствии с

SAM допускает, что полученные в результате измерений входные сигналы Х₁(k,n) и Х₂(k,n) представляют наложение прямого звука и размытого звука, причем прямой звук и размытый звук не согласованы. Основываясь на этом предположении в работе С. Fallen MicrophoneFront-EndsforSpatialAudioCoders, inProceedingsoftheAES 125^th InternationalConvention, SanFrancisco, Oct. 2008 показано, что для каждого сенсора возможно извлечь с помощью формул 5а и 5bPSD полученного в результате измерений прямого звука и размытого звука. Соотношение различных PSD прямого звука затем позволяет определить DOAφ(k,n) звука с априорным знанием направленных ответов микрофонов.

Обнаружено, что в применении на практике ожидания Е{·} в формулах 5a и 5b могут быть приблизительно вычислены с помощью операций временного и /или спектрального усреднения. Эта процедура аналогична вычислению размытости в DirAC, которое было описано в предыдущем разделе. Аналогичным образом приблизительное вычисление может осуществляться, например, при помощи формул 4 или 5. Вычисление CSD может выполняться, например, на основе возвратного временного усреднения согласно формуле:

Как указывалось в предыдущем разделе, при приблизительном вычислении оператора ожидания в соответствии с формулами 5a и 5b при помощи операции усреднения может допускаться стационарность рассматриваемого сигнала в отношении количества, подвергаемого усреднению.

Далее будет рассматриваться вариант реализации настоящего изобретения, который осуществляет вычисление изменяемого во времени параметра в зависимости от стационарности интервала.

Пространственный аудио процессор в соответствии с фиг. 3

На фиг. 3 показан пространственный аудио процессор 300 согласно одному из вариантов реализации настоящего изобретения. По своей функциональности пространственный аудио процессор 300 аналогичен пространственному аудио процессору 100 на фиг. 1. Пространственный аудио процессор 300 содержит дополнительные функции, показанные на фиг. 3. Пространственный аудио процессор 300 включает управляемый модуль определения параметров 306, функциональность которого аналогична функциональности управляемого модуля определения параметров 106, показанного на фиг. 1, но который может иметь дополнительные функции, рассматриваемые далее. Пространственный аудио процессор 300 дополнительно включает модуль определения сигнальных характеристик 308, функциональность которого аналогична функциональности модуля определения сигнальных характеристик 108, показанного на фиг. 1, но который может иметь дополнительные функции, рассматриваемые далее.

Модуль определения сигнальных характеристик 308 настроен определять интервал стационарности входного аудио сигнала 104, который представляет собой определяемую сигнальную характеристику 110, например, при помощи модуля определения интервала стационарности 310. Модуль определения параметров 306 настроен модифицировать изменяемую формулу вычисления параметра в соответствии с определенной сигнальной характеристикой 110, т.е. определенным интервалом стационарности. Модуль определения параметров 306 настроен модифицировать изменяемую формулу вычисления параметра таким образом, что период усреднения или длительность усреднения для вычисления пространственных параметров 102 сравнительно длиннее (больше) для сравнительно более длинного интервала стационарности и сравнительно короче (меньше) для сравнительно более короткого интервала стационарности. Длительность усреднения может быть, например, равной интервалу стационарности.

Иными словами, пространственный аудио процессор 300 воплощает идею усовершенствования процесса определения размытости в направленном аудио кодировании, принимая во внимание изменяющийся интервал стационарности входного аудио сигнала 104 или входных аудио сигналов.

Интервал стационарности входного аудио сигнала 104 может, например, определять временной период, в котором не было движения (или оно было незначительным) источника звука входного аудио сигнала 104. В целом, стационарность входного аудио сигнала 104 может определять временной период, в котором определенная сигнальная характеристика входного аудио сигнала 104 оставалась постоянной. Сигнальной характеристикой может быть, например, энергия сигнала, пространственная размытость, тональность, отношение сигнал/шум и др. Учитывая интервал стационарности входного аудио сигнала 104 для вычисления пространственных параметров 102, можно модифицировать длительность усреднения для вычисления пространственных параметров 102 таким образом, что будет повышена точность пространственных параметров 102, которые представляют входной аудио сигнал 104. Например, для более длительного интервала стационарности, который означает, что источник звука входного аудио сигнала 104 не двигался в течение долгого периода, может применяться более длительное темпоральное (или временное) усреднение, чем для более короткого интервала стационарности. Таким образом, управляемый модуль определения параметров 306 может (всегда) выполнять по меньшей мере максимально оптимальное (или в некоторых случаях оптимальное) вычисление пространственного параметра в зависимости от интервала стационарности входного аудио сигнала 104.

Управляемый модуль определения параметров 306 может быть настроен на обеспечение параметра размытости Ψ(k,n), например, в области STFT для частотного поддиапазона k и временного слота или временного блока n. Управляемый модуль определения параметров 306 может включать модуль определения размытости 312 для вычисления параметра размытости Ψ(k,n). например, на основе временного усреднения параметра интенсивности Iа(k,n) входного аудио сигнала 104 в области STFT. Кроме этого, управляемый модуль определения параметров 306 может включать энергетический анализатор 314 для выполнения энергетического анализа входного аудио сигнала 104 для того, чтобы определить параметр интенсивности Ia(k,n). Параметр интенсивности Ia(k,n) может быть также обозначен как вектор активной интенсивности звука и вычислен при помощи энергетического анализатора 314 согласно формуле 1.

Таким образом, входной аудио сигнал 104 может быть предоставлен в области STFT. например, в В-формате. и иметь звуковое давление Р(k,n) и вектор акустической скорости частиц U(k,n) для частотного поддиапазона к и временного слота n.

Модуль определения размытости 312 может вычислять параметр размытости Ψ(k,n) на основе временного усреднения параметров интенсивности Ia(k,n) входного аудио сигнала 104, например, одного и того же частотного поддиапазона k. Модуль определения размытости 312 может вычислять параметр размытости Ψ(k,n) согласно формуле 3, при этом количество параметров интенсивности и, таким образом, длительность усреднения может варьироваться модулем определения размытости 312 в зависимости от определенного интервала стационарности.

Например, если модуль определения интервала стационарности 310 определяет сравнительно длительный интервала стационарности, модуль определения размытости 312 может выполнять временное усреднение параметров интенсивности Iа(k,n) по параметрам интенсивности Ia(k,n-10) до Ia(k,n-1). Для сравнительно короткого интервала стационарности, определенного модулем определения интервала стационарности 310, модуль определения размытости 312 может выполнять временное усреднение параметров интенсивности Ia(k,n) по параметрам интенсивности Ia(k,n-4) до Ia(k,n-1).

Как видим, длительность временного усреднения, применяемая модулем определения размытости 312, соответствует количеству параметров интенсивности Iа(k,n), используемых для временного усреднения.

Иными словами, процесс определения размытости в направленном аудио кодировании становится совершенствуется, если учитывается интервал стационарности временного инварианта (также обозначаемый как время когерентности) входных аудио сигналов или входного аудио сигнала 104. Как отмечалось ранее, для определения параметра размытости Ψ(k,n) на практике часто применяется формула 3, которая включает временное усреднение вектора активной интенсивности Ia(k,n). Было обнаружено, что оптимальная длительность усреднения зависит от временной стационарности входных аудио сигналов или входного аудио сигнала 104. Было обнаружено, что наиболее точные результаты могут быть получены, если длительность усреднения приравнивается к интервалу стационарности.

Обычно, как показано на примере конвенционального направленного аудио кодера 200, определяется общая временная инвариантная модель входного аудио сигнала, на основе которой определяется оптимальная стратегия вычисления параметров, которая в данном случае обозначает оптимальную длительность временного усреднения. Для определения размытости обычно допускается, что входной аудио сигнал обладает временной стационарностью в течение определенного временного интервала, например, 20 мс. Иными словами, для рассматриваемого интервала стационарности устанавливается постоянное значение, которое является общим для нескольких входных сигналов. На основе предполагаемого интервала стационарности определяется стратегия временного усреднения, например, оптимальное значение для α при использовании IIR усреднении, как показано в формуле 5, или оптимальное значение N при использовании усреднения при помощи блока, как показано в формуле 4.

Однако, было обнаружено, что различные входные аудио сигналы обычно характеризуются различными интервалами стационарности. Таким образом, традиционный метод допущения временной инвариантной модели входного аудио сигнала не подходит. Иными словами, когда входной аудио сигнал имеет интервалы стационарности, отличные от интервалов, допускаемых модулем определения параметров, это приводит к несоответствию с моделью, что в результате приводит неточному вычислению параметров.

Таким образом, предлагаемый новый подход (например. реализуемый пространственным аудио процессором 300) позволяет адаптировать стратегию определения параметров (изменяемую формулу вычисления пространственного параметра) в зависимости от фактических сигнальных характеристик, как показано на фиг. 3 для определения размытости: интервал стационарности входного аудио сигнала 104, т.е. сигнала В-формата, определяется на этапе предварительной обработки (при помощи модуля определения сигнальных характеристик). На основе этой информации (на основе определенного интервала стационарности) выбирается оптимальная (или в некоторых случаях максимально оптимальная) длительность временного усреднения, оптимальное (или в некоторых случаях максимально оптимальное) значение а или N, а затем осуществляется вычисление (пространственного) параметра при помощи модуля определения размытости 312.

Необходимо отметить, что помимо адаптивного определения размытости сигнала в DirAC возможно аналогичным образом усовершенствовать определение направления в SAM. Для вычисления значений PSD и CSD входных аудио сигналов согласно формулам 5a и 5b необходимо приблизительное вычисление операторов ожидания при помощи процесса временного усреднения (например, при помощи формул 4 или 5). Как указывалось ранее, наиболее точные результаты могут быть получены в том случае, если длительность усреднения соответствует интервалу стационарности входных аудио сигналов. Это означает, что SAM-анализ может быть усовершенствован, если сначала определить интервал стационарности входных аудио сигналов, а затем на основе этой информации выбрать оптимальную длительность усреднения. Далее будет рассмотрено, как могут быть определены интервал стационарности входных аудио сигналов и соответствующий фильтр оптимального усреднения.

Далее в качестве примера будет представлен способ определения интервала стационарности входного аудио сигнала 104. Затем на основе этой информации выбирается оптимальная длительность временного усреднения для вычисления размытости согласно формуле 3.

Определение интервала стационарности

Далее описывается возможный способ определения интервала стационарности входного аудио сигнала (например, входного аудио сигнала 104), а также оптимального коэффициента а фильтра IIR (например, используемого в формуле 5), с помощью которого выполняется соответствующее временное усреднение. Определение интервала стационарности, рассматриваемое далее, может осуществляться при помощи модуля определения интервала стационарности 310 модуля определения сигнальных характеристик 308. Представленный способ позволяет использовать формулу 3 для того, чтобы точно вычислить размытость (параметр размытости) Ψ(k,n) в зависимости от интервала стационарности входного аудио сигнала 104. Звуковое давление частотной области Р(k,n), которое является частью сигнала В-формата. может рассматриваться как входной аудио сигнал 104. Иными словами, входной аудио сигнал 104 может содержать по меньшей мере один компонент, соответствующий звуковому давлению Р(k,n).

Входные аудио сигналы обычно имеют короткий интервал стационарности, если энергия сигнала сильно варьируется в течение короткого периода времени. Типичными примерами сигналов с коротким интервалом стационарности являются переходы, начальная фаза речи и финальная фаза, когда говорящий перестает говорить. Последний пример характеризуется резким снижением энергии сигнала (отрицательное усиление), а в двух предыдущих примерах энергия резко увеличивается (положительное усиление).

Необходимый алгоритм, в результате определяющий оптимальный коэффициент фильтра α, должен определять значения примерно α=1 (соответствующие короткому временному усреднению) для высоких нестационарных сигналов и значения примерно α=α′ в случае стационарности. Символ α′ обозначает оптимальный коэффициент независимого сигнального фильтра для усреднения стационарных сигналов. В математическом отношении алгоритм представлен формулой

где α⁺(k,n) является оптимальным коэффициентом фильтра для каждого временно-частотного интервала, является абсолютным значением мгновенной энергии сигнала P(k,n), a является средним значением по времени от W(k,n). Для стационарных сигналов мгновенная энергия W(k,n) равна среднему значению что приводит к необходимому значению α⁺=α′. В том случае, если сигнал является нестационарным в значительной степени, из-за положительного усиления энергии знаменатель формулы 7 становится близким к α′·W(k,n), т.к. W(k,n) близок к . Таким образом получается требуемое α⁺≈1. В случае нестационарности из-за отрицательного усиления энергии получается нежелательный результат α⁺≈0, т.к. W(k,n) близок к . Таким образом, можно представить альтернативный вариант оптимального коэффициента фильтра α:

формула которого аналогична формуле 7, но обладает обратным свойством в случае нестационарности. Это означает, что в случае нестационарности для положительного усиления энергии получается α^-≈0, а для отрицательного усиления энергии получается α^-≈1 . Таким образом, при максимальном использовании формул 7 и 8, т.е.

получается необходимое оптимальное значение обратного коэффициента усреднения α для выполнения временного усреднения, которое соответствует интервалу стационарности входных аудио сигналов.

Иными словами, модуль определения сигнальных характеристик 308 настроен определять параметр взвешивания α на основе соотношения текущей (мгновенной) энергии сигнала по меньшей мере одного (всенаправленного) компонента (например, звукового давления Р(k,n)) входного сигнала 104 и среднего значения по времени заданного (предыдущего) временного сегмента энергии сигнала по меньшей мере одного (всенаправленного) компонента входного аудио сигнала 104. Заданный временной сегмент может, например, соответствовать заданному количеству коэффициентов энергии сигнала для различных (предыдущих) временных слотов.

В случае SAM-анализа энергеия сигнала W(k,n) может состоять из энергий двух сигналов микрофона X₁(k,n) и Х₂(k,n), например, . Коэффициент α для обратного вычисления корреляций в формулах 5а или 5b и согласно формуле 5с может быть выбран при использовании критерия формулы 9, как было показано выше.

Таким образом, управляемый модуль определения параметров 306 может быть настроен на применение временного усреднения параметров интенсивности Ia(k,n) входного аудио сигнала 104 с использованием фильтра низких частот (например, фильтр с бесконечной импульсной характеристикой (IIR) и фильтр с конечной импульсной характеристикой (FIR), которые упоминались ранее). Кроме этого, управляемый модуль определения параметров 306 может быть настроен на согласование взвешивания текущего параметра интенсивности входного аудио сигнала 104 и предыдущих параметров интенсивности входного аудио сигнала 104 на основе параметра взвешивания α. В особых случаях применения фильтра первого порядка IIR, как показывает формула 5. взвешивание текущего параметра интенсивности и одного предыдущего параметра интенсивности может быть согласовано. Чем больше коэффициент взвешивания α, тем короче длительность временного усреднения, и, таким образом, больше вес текущего параметра интенсивности по сравнению с весом предыдущих параметров интенсивности. Иными словами, длительность временного усреднения основывается на параметре взвешивания α.

Управляемый модуль определения параметров 306 может быть настроен таким образом, что вес текущего параметра интенсивности по сравнению с весом предыдущих параметров интенсивности сравнительно больше для сравнительно короткого интервала стационарности, а вес текущего параметра интенсивности по сравнению с весом предыдущих параметров интенсивности сравнительно меньше для сравнительно длинных интервалов стационарности. Таким образом, длительность временного усреднения сравнительно короче для сравнительно коротких интервалов стационарности и сравнительно длиннее для сравнительно длинных интервалов стационарности.

В соответствии с дополнительными вариантами реализации настоящего изобретения управляемый модуль определения параметров пространственного аудио процессора согласно одному из вариантов реализации настоящего изобретения может быть настроен выбирать одну формулу вычисления пространственного параметра из множества формул вычисления пространственного параметра для вычисления пространственных параметров в зависимости от определенной сигнальной характеристики. Множество формул вычисления пространственных параметров может, например, различаться по вычисляемым параметрам, и они могут быть абсолютно отличными друг от друга. Как показывают формулы 4 и 5, временное усреднение может вычисляться при помощи блоков согласно формуле 4 или при помощи фильтра нижних частот согласно формуле 5. Первая формула вычисления пространственного параметра может, например, соответствовать усреднению с помощью блоков по формуле 4, а вторая формула вычисления пространственного параметра может соответствовать усреднению с использованием фильтра нижних частот согласно формуле 5. Управляемый модуль определения параметров может выбирать формулу вычисления из множества формул вычисления, что обеспечивает наиболее точное определение пространственных параметров на основе определенной сигнальной характеристики.

В соответствии с дополнительными вариантами реализации настоящего изобретения управляемый модуль определения параметров может быть настроен таким образом, что первая формула вычисления пространственного параметра из множества формул вычисления пространственного параметра будет отличаться от второй формулы вычисления пространственного параметра из множества формул вычисления пространственного параметра. Первая формула вычисления пространственного параметра и вторая формула вычисления пространственного параметра могут быть выбраны из группы, включающей:

вычисление среднего значения по времени на основе множества временных слотов в частотном поддиапазоне (например, согласно формуле 3), вычисление среднего частотного значения на основе множества частотных поддиапазонов во временном слоте, вычисление среднего значения по времени и частоте, вычисление среднего пространственного значения или отсутствие вычисления среднего значения.

Данная концепция выбора одной формула вычисления пространственного параметра из множества формул вычисления пространственного параметра управляемым модулем определения параметров будет описана далее на примере двух вариантов реализации настоящего изобретения, показанных на фиг. 4 и 5.

Определение изменяемого во времени направления прибытия сигнала и размытости сигнала в зависимости от присутствия одновременного разговора, используя пространственный кодер в соответствии с фиг. 4

На фиг. 4 показана блок-схема пространственного аудио процессора 400 согласно варианту реализации настоящего изобретения. Функциональность пространственного аудио процессора 400 аналогична функциональности пространственного аудио процессора 100 на фиг. 1. Пространственный аудио процессор 400 может включать дополнительные функции, которые будут рассмотрены далее. Пространственный аудио процессор дополнительно 400 включает модуль определения сигнальных характеристик 408, функциональность которого аналогична функциональности модуля определения сигнальных характеристик 108 на фиг. 1, но который может иметь рассматриваемые далее дополнительные функции.

Управляемый модуль определения параметров 406 настроен выбирать одну формулу вычисления пространственных параметров из множества формул вычисления пространственных параметров для вычисления пространственных параметров 102 в зависимости от определенной сигнальной характеристики 110, которая определяется модулем определения сигнальных характеристик 408. Согласно варианту изобретения, показанному в качестве примера на фиг. 4, модуль определения сигнальных характеристик настроен определять сигнальные характеристики, если входной аудио сигнал 104 содержит компоненты от разных источников звука либо компоненты от одного источника звука. На основе такого определения управляемый модуль определения параметров 406 может выбирать первую формулу вычисления пространственного параметра 410 для вычисления пространственных параметров 102, если входной аудио сигнал 104 состоит из компонентов от одного источника звука, а также может выбирать вторую формулу вычисления пространственного параметра 412 для вычисления пространственных параметров 102, если входной аудио сигнал 104 состоит из компонентов от более чем одного источников звука. Первая формула вычисления пространственного параметра 410 может, например, включать спектральное усреднение или частотное усреднение на основе множества частотных поддиапазонов, а вторая формула вычисления пространственного параметра 412 может не включать спектральное усреднение или частотное усреднение.

Если входной аудио сигнал содержит компоненты от более чес одного источника звука, что не обязательно, определение сигнальных характеристик может осуществляться детектором одновременного разговора 414, являющегося частью модуля определения сигнальных характеристик 408. Модуль определения параметров 406 мжет быть настроен на обеспечение параметра размытости Ψ(k,n) входного аудио сигнала 104 в области STFT для частотного поддиапазона k и временного блока n.

Иными словами, пространственный аудио процессор 400 представляет концепцию совершенствования процесса определения размытости в направленном аудио кодировании благодаря тому, что принимаются во внимание ситуации одновременного разговора.

Модуль определения сигнальных характеристик 408 настроен определять, содержит ли входной аудио сигнал 104 одновременные сигналы от различных источников звука. Управляемый модуль определения параметров 406 настроен выбирать в соответствии с результатом определения сигнальных характеристик формулу вычисления пространственного параметра (например, первую формулу вычисления пространственного параметра 410 или вторую формулу вычисления пространственного параметра 412) из множества формул вычисления пространственных параметров для того, чтобы вычислить пространственные параметры 102 (например, для вычисления параметра размытости Ψ(k,n)). Первая формула вычисления пространственного параметра 410 выбирается в том случае, когда входной аудио сигнал 104 содержит компоненты от одного, как максимум, источника звука, вторая формула вычисления пространственного параметра 412 из множества формул вычисления пространственных параметров выбирается в том случае, когда входной аудио сигнал 104 содержит компоненты от более чем одного источников звука одновременно. Первая формула вычисления пространственного параметра 410 включает частотное усреднение (например, параметров интенсивности Ia(k,n)) входного акустического сигнала на основе множества частотных поддиапазонов. Вторая формула вычисления пространственного параметра 412 не включает частотное усреднение.

В примере на фиг. 4 определение параметра размытости Ψ(k,n) и/или параметра направления (прихода сигнала) φ(k,n) в рамках анализа направленного аудио кодирования является усовершенствованным благодаря адаптации соответствующих модулей определения к ситуациям одновременного разговора. Было обнаружено, что вычисление размытости по формуле 2 может осуществляться на практике посредством усреднения вектора активной интенсивности Ia(k,n) на основе частотных поддиапазонов к или посредством комбинирования временного и спектрального усреднения. Однако спектральное усреднение не подходит в том случае, если необходимы независимые величины размытости для различных частотных поддиапазонов, как это происходит в так называемой ситуации одновременного разговора, где одновременно активны множественные источники звука (например, собеседники).Таким образом, обычно (как показано на примере пространственного аудио кодера на фиг. 2) спектральное усреднение не используется, т.к. общая модель входных аудио сигналов всегда подразумевает ситуации одновременного разговора. Обнаружено, что допущение подобной модели не является оптимальным для ситуаций индивидуальной речи. т.к. в случае индивидуальной речи спектральное усреднение может увеличить точность определения параметров.

Предполагаемый новый подход, как показано на фиг. 4, позволяет определить оптимальную стратегию вычисления параметров (оптимальную формулу вычисления пространственных параметров) путем выбора базовой модели для входного аудио сигнала или входных аудио сигналов. Иными словами, фиг. 4 показывает применение варианта реализации настоящего изобретения с целью усовершенствовать определение размытости в зависимости от ситуаций одновременного разговора: сначала применяется детектор одновременного разговора 414, который определяет во входном аудио сигнале 104 или входных аудио сигналах присутствует или нет в текущий момент одновременный разговор. Если он не присутствует, то применяется модуль определения параметров (или, другими словами, управляемый модуль определения параметров 406 выбирает формулу вычисления пространственного параметра), который вычисляет размытость (параметр размытости) Ψ(k,n) с помощью формулы усреднения 2, в которой используется спектральное (частотное) и временное усреднение вектора активной интенсивности Ia(k,n). т.е.

Наоборот, если одновременный разговор присутствует, выбирается модуль определения параметров (или, другими словами, управляемый модуль определения параметров 406 выбирает формулу вычисления пространственного параметра), который применяет только временное усреднение согласно формуле 3. Аналогичная концепция может применяться к определению направления: в случае индивидуальной речи, но только в этом случае, определение направления φ(k,n) может быть усовершенствовано при помощи спектрального усреднения результатов на основе нескольких или всех частотных поддиапазонов к. т.е.

Согласно некоторым вариантам реализации настоящего изобретения также допустимо применять (спектральное) усреднение на части спектра, а не обязательно на всей полосе.

Для выполнения временного и спектрального усреднения управляемый модуль определения параметров 406 может определять вектор активной интенсивности Ia(k,n). например, в области STFT для каждого поддиапазона к и для каждого временного слота n, применяя, например, энергетический анализ с помощью модуля энергетического анализа 416, который является частью управляемого модуля определения параметров 406.

Иными словами, модуль определения параметров 406 может быть настроен на определение текущего параметра размытости Ψ(k,n) для текущего частотного поддиапазона k и текущего временного слота n входного аудио сигнала 104 на основе спектрального и временного усреднения определенных параметров активной интенсивности Ia(k,n) входного аудио сигнала 104, которые включаются в первую формулу вычисления пространственного параметра 410. или только на основе временного усреднения определенных векторов активной интенсивности Ia(k,n) в зависимости от определенной сигнальной характеристики.

Далее будет рассмотрен пример реализации настоящего изобретения, также основанный на концепции выбора подходящей формулы вычисления пространственного параметра для того, чтобы усовершенствовать вычисление пространственных параметров входного аудио сигнала, используя пространственный аудио процессор 500, показанный на фиг. 5. на основе тональности входного аудио сигнала.

Применение пространственного аудио процессора для определения зависимого от тональности параметра в соответствии с фиг. 5

На фиг. 5 показана блок-схема пространственного аудио процессора 500 в соответствии с вариантом реализации настоящего изобретения. Функциональность пространственного аудио процессора 500 аналогична функциональности пространственного аудио процессора 100 на фиг. 1. Пространственный аудио процессор 500 может включать дополнительные функции, которые будут рассмотрены далее. Пространственный аудио процессор 500 включает управляемый модуль определения параметров 506 и модуль определения сигнальных характеристик 508. Функциональность управляемого модуля определения параметров 506 аналогична функциональности управляемого модуля определения параметров 106 на фиг. 1, но при этом управляемый модуль определения параметров 506 может включать дополнительные функции, которые будут рассмотрены далее. Функциональность модуля определения сигнальных характеристик 508 аналогична функциональности модуля определения сигнальных характеристик 108 на фиг. 1. Модуль определения сигнальных характеристик 508 может включать дополнительные функции, которые будут рассмотрены далее.

Пространственный аудио процессор 500 отличается от пространственного аудио процессора 400 тем, что здесь модифицировано вычисление пространственных параметров 102 на основе определенной тональности входного аудио сигнала 104. Модуль определения сигнальных характеристик 508 может определять тональность входного аудио сигнала 104, управляемый модуль определения параметров 506 может выбирать, на основе определенной тональности входного аудио сигнала 104, формулу вычисления пространственного параметра из множества формул вычисления пространственных параметров для того, чтобы вычислить пространственные параметры 102.

Иными словами, пространственный аудио процессор демонстрирует концепцию усовершенствования процесса определения параметров в направленном аудио кодировании благодаря тому, что принимается во внимание тональность входного аудио сигнала 104 или входных аудио сигналов.

Модуль определения сигнальных характеристик 508 может определять тональность входного аудио сигнала при помощи, например, модуля определения тональности 510, который является частью модуля определения сигнальных характеристик 508. Модуль определения сигнальных характеристик 508 может, таким образом, обеспечить параметры тональности входного аудио сигнала 104 или информацию о тональности входного аудио сигнала 104 в качестве определяемой сигнальной характеристики ПО входного аудио сигнала 104.

Управляемый модуль определения параметров 506 настроен выбирать в соответствии с результатом определения сигнальных характеристик (определения тональности) формулу вычисления пространственного параметра из множества формул вычисления пространственных параметров для того, чтобы вычислить пространственные параметры 102 таким образом, что первая формула вычисления пространственного параметра из множества формул вычисления пространственных параметров выбирается в том случае, когда тональность входного аудио сигнала 104 находится ниже заданного предела тональности, а вторая формула вычисления пространственного параметра из множества формул вычисления пространственных параметров выбирается в том случае, когда тональность входного аудио сигнала 104 находится выше заданного предела тональности. Аналогично управляемому модулю определения параметров 406 на фиг. 4 первая формула вычисления пространственного параметра может включать частотное усреднение, а вторая формула вычисления пространственного параметра может не включать частотное усреднение.

Обычно тональность аудио сигнала предоставляет информацию о том, имеет ли сигнал широкополосный спектр. Высокая тональность обозначает, что спектр сигнала содержит несколько частот с высокой энергией. И наоборот, низкая тональность обозначает широкополосные сигналы, т.е. сигналы, у которых одинаковая энергия присутствует в большом диапазоне частот.

Информация о тональности входного аудио сигнала (о тональности входного аудио сигнала 104) может применяться для усовершенствования определения параметров в пространственном аудио кодировании. Как показывает блок-схема на фиг. 5, для входного аудио сигнала 104 или входных сигналов сначала определяется тональность (как рассматривается, например, в работе S. Molla и В. Torresani: DeterminingLocalTransientnessofAudioSignals. IEEESignalProcessingLetters. Vol. 11, No. 7, July 2007) при помощи детектора тональности или модуля определения тональности 510. Информация о тональности (определяемая сигнальная характеристика 110) контролирует определение параметров направленного аудио кодирования (пространственных параметров 102). Управляемый модуль определения параметров 506 имеет на выходе пространственные параметры 102 с более высокой точностью по сравнению с традиционным способом, который демонстрирует пространственный аудио кодер на фиг. 2.

Процесс определения размытости Ψ(k,n) может иметь следующие преимущества благодаря информации о тональности входного аудио сигнала. Вычисление размытости требует выполнения усреднения согласно формуле 3. Усреднение обычно выполняется по времени n. Для размытых звуковых полей точное вычисление размытости возможно только при достаточно длительном усреднении. Длительное усреднение по времени, однако, обычно невозможно из-за короткого интервала стационарности входных аудио сигналов. Для того, чтобы повысить точность определения размытости, можно комбинировать временное усреднение и спектральное усреднение по частотным диапазонам k, например:

Однако для такого способа необходимы широкополосные сигналы, где размытость одинакова для разных частотных диапазонов. В случае тональных сигналов, когда только несколько частот обладают значительной энергией, фактическая размытость звукового поля может сильно варьироваться по частотным диапазонам k. Это означает, что когда детектор тональности (модуль определения тональности 510, который является частью модуля определения сигнальных характеристик 508) указывает высокую тональность аудио сигнала 104, спектральное усреднение не выполняется.

Иными словами, управляемый модуль определения параметров 506 настроен извлекать пространственные параметры 102. например, параметр размытости Ψ(k,n), например, в области STFT для частотного поддиапазона k и временного слота n на основе темпорального и спектрального усреднения параметров интенсивности Ia(k,n) входного аудио сигнала 104, если определенная тональность аудио сигнала 104 сравнительно мала, а также обеспечивать пространственные параметры 102, например, параметр размытости Ψ(k,n), на основе только темпорального, а не спектрального усреднения параметров интенсивности Ia(k,n) входного аудио сигнала 104, если определенная тональность входного аудио сигнала 104 сравнительно высока.

Подобная концепция может применяться к определению параметра направления (прихода сигнала) φ(k,n) для того, чтобы улучшить результаты соотношения сигнал/шум (в составе определяемых пространственных параметров 102). Иными словами, управляемый модуль определения параметров 506 может быть настроен определять параметр направления прихода сигнала φ(k,n) на основе спектрального усреднения, если определенная тональность входного аудио сигнала 104 сравнительно мала, а также извлекать параметр направления прихода сигнала φ(k,n) без спектрального усреднения, если тональность сравнительно высокая.

Далее на примере следующего варианта реализации настоящего изобретения будет подробно рассмотрена концепция усовершенствования определения соотношения сигнал/шум при помощи спектрального усреднения параметра направления прихода сигнала φ(k,n). Спектральное усреднение может применяться к входному аудио сигналу 104 или входным аудио сигналам, к активной интенсивности звука или непосредственно к параметру направления (прихода сигнала) φ(k,n).

Для специалистов данной области очевидно, что пространственный аудио процессор 500 может аналогичным образом применяться при анализе с использованием системы пространственных микрофонов с той разницей, что здесь операторы ожидания в формулах 5a и 5b приблизительно вычисляются с помощью спектрального усреднения в случае отсутствия одновременного разговора либо в случае низкой тональности.

Далее будут рассмотрены два варианта реализации настоящего изобретения, которые осуществляют определение направления в зависимости от соотношения сигнал/шум для того, чтобы повысить точность вычисления пространственных параметров.

Применение пространственного аудио процессора для определения направления в зависимости от соотношения сигнал/шум (фиг. 6)

На фиг. 6 показана блок-схема пространственного аудио процессора 600. Пространственный аудио процессор 600 настроен осуществлять определение направления в зависимости от соотношения сигнал/шум. Функциональность пространственного аудио процессора 600 аналогична функциональности пространственного аудио процессора 100 на фиг. 1. Пространственный аудио процессор 600 может включать дополнительные функции, которые будут рассмотрены далее. Пространственный аудио процессор 600 включает управляемый модуль определения параметров 606 и модуль определения сигнальных характеристик 608. Функциональность управляемого модуля определения параметров 606 аналогична функциональности управляемого модуля определения параметров 106 на фиг. 1. однако управляемый модуль определения параметров 606 может включать дополнительные функции, которые будут рассмотрены далее. Функциональность модуля определения сигнальных характеристик 608 аналогична функциональности модуля определения сигнальных характеристик 108 на фиг. 1, однако модуль определения сигнальных характеристик 608 может включать дополнительные функции, которые будут рассмотрены далее.

Модуль определения сигнальных характеристик 608 может быть настроен определять соотношение сигнал/шум (SNR) входного аудио сигнала 104 в качестве сигнальной характеристики 110 входного аудио сигнала 104. Управляемый модуль определения параметров 606 настроен предоставлять изменяемую формулу вычисления пространственных параметров для вычисления пространственных параметров 102 входного аудио сигнала 104 на основе определяемого соотношения сигнал/шум входного аудио сигнала 104.

Управляемый модуль определения параметров 606 может выполнять временное усреднение для определения пространственных параметров 102 и изменять длительность временного усреднения (или количество элементов, используемых для временного усреднения) в зависимости от определенного соотношения сигнал/шум входного аудио сигнала 104. Например, модуль определения параметров 606 может быть настроен изменять длину усреднения при временном усреднении так, что длина усреднения является сравнительно большой для сравнительно низкого соотношения сигнал/шум входного аудио сигнала 104 и сравнительно малой для сравнительно высокого соотношения сигнал/шум входного аудио сигнала 104.

Модуль определения параметров 606 может быть настроен обеспечивать параметр направления прихода сигнала φ(k,n)в качестве пространственного параметра 102 на основе временного усреднения. Как указывалось ранее, параметр направления прихода сигнала φ(k,n) может быть определен управляемым модулем определения параметров 606 (например, модулем определения направления 610, который является частью модуля определения параметров 606) для каждого частотного поддиапазона k и временного слота n как противоположное направление вектора активной интенсивности звука Ia(k,n). Модуль определения параметров 606 может включать модуль энергетического анализа 612 для выполнения энергетического анализа входного аудио сигнала 104, чтобы определить вектор активной интенсивности звука Ia(k,n) для каждого частотного поддиапазона k и каждого временного слота n. Модуль определения направления 610 может выполнять временное усреднение, например, на основе определенного вектора активной интенсивности Ia(k,n) для частотного поддиапазона к по множеству временных слотов п. Иными словами, модуль определения направления 610 может выполнять временное усреднение параметров интенсивности Iа(k,n) для одного частотного поддиапазона k и множества (предыдущих) временных слотов, чтобы вычислить параметр направления прихода сигнала φ(k,n) для частотного поддиапазона k и временного слота n. В соответствии с другими вариантами реализации настоящего изобретения модуль определения направления 610 может также выполнять временное усреднение (например, вместо временного усреднения параметров интенсивности Ia(k,n)) по множеству определенных параметров направления прихода сигнала φ(k,n) для частотного поддиапазона k и множества (предыдущих) временных слотов. Длина временного усреднения соответствует количеству параметров интенсивности или количеству параметров направления прихода сигнала, на основе которых выполняется временное усреднение. Иными словами, модуль определения параметров 606 может быть настроен применять временное усреднение для набора параметров интенсивности Ia(k,n) для множества временных слотов и частотных поддиапазонов k или для набора параметров направления прихода сигнала φ(k,n) для множества временных слотов и частотных поддиапазонов k. Количество параметров интенсивности в наборе параметров интенсивности или количество параметров направления прихода сигнала в наборе параметров направления прихода сигнала, используемых для временного усреднения, соответствует длине временного усреднения. Управляемый модуль определения параметров 606 настроен изменять количество параметров интенсивности или количество параметров направления прихода сигнала в наборе, используемом для вычисления временного усреднения, таким образом, что количество параметров интенсивности в наборе параметров интенсивности или количество параметров направления прихода сигнала в наборе параметров направления прихода сигнала сравнительно мало для сравнительно высокого соотношения сигнал/шум входного аудио сигнала 104, и количество параметров интенсивности или количество параметров направления прихода сигнала сравнительно большое для сравнительно низкого соотношения сигнал/шум входного аудио сигнала 104.

Иными словами, вариант реализации настоящего изобретения обеспечивает определение направления направленного аудио кодирования на основе соотношения сигнал/шум входных аудио сигналов или входного аудио сигнала 104.

Обычно на точность вычисления направления φ(k,n) (или параметра направления прихода сигнала φ(k,n)), определяемого в соответствии с направленным аудио кодером 200 на фиг. 2, оказывает влияние шум, который всегда присутствует во входном аудио сигнале.

Влияние шума на точность вычисления зависит от SNR, т.е. от соотношения сигнальной энергии звука, который приходит в решетку (микрофона) и энергии шума. Малое SNR значительно снижает точность вычисления направления φ(k,n). Сигнал шума обычно связан с /представлен измерительным оборудованием, например, микрофонами или усилителем микрофона, и приводит к ошибкам в параметрах φ(k,n). Было обнаружено, что направление φ(k,n) может быть с одинаковой вероятностью занижено или завышено, не ожидание направления φ(k,n) будет все же верным.

Было обнаружено, что при выполнении нескольких независимых вычисление параметра направления прихода сигнала φ(k,n), т.е. при нескольких повторах измерений влияние шума может быть уменьшено и, таким образом, точность вычисления направления будет повышена при помощи усреднения параметра направления прихода сигнала φ(k,n) на основе нескольких результатов измерений. Процесс усреднения увеличивает соотношение сигнал/шум модуля определения параметров. Чем меньше соотношение сигнал/шум у микрофонов или у звукозаписывающих устройств в целом либо чем выше необходимое соотношение сигнал/шум. определяемое модулем определения параметров, тем выше количество измерений, которые могут требоваться в процессе усреднения.

Пространственный кодер 600 на фиг. 6 осуществляет процесс усреднения в зависимости от соотношения сигнал/шум входного аудио сигнала 104. Или. иными словами, пространственный кодер 600 демонстрирует концепцию усовершенствования процесса определения направления в направленном аудио кодировании, учитывая SNR аудио входа или входного аудио сигнала 104.

Перед определением направления φ(k,n) модулем определения направления 610 определяется соотношение сигнал/шум входного аудио сигнала 104 или входных аудио сигналов с помощью модуля определения соотношения сигнал/шум 614. который является частью модуля определения сигнальных характеристик 608. Соотношение сигнал/шум может быть определено для каждого временного блока n и частотного диапазона k, например, в области STFT. Информация о фактическом соотношении сигнал/шум входного аудио сигнала 104 предоставляется в качестве определенной сигнальной характеристики 110 от модуля определения соотношения сигнал/шум 614 в модуль определения направления 610, который выполняет временное усреднение по частоте и времени определенных сигналов направленного аудио кодирования с целью улучшения соотношения сигнал/шум. Кроме этого, требуемое соотношение сигнал/шум может быть передано в модуль определения направления 610. Требуемое соотношение сигнал/шум может быть определено внешним образом, например, пользователем. Модуль определения направления 610 может изменять длину временного усреднения таким образом, что полученное соотношение сигнал/шум входного аудио сигнала 104 на выходе управляемого модуля определения параметров 606 (после усреднения) будет соответствовать требуемому соотношению сигнал/шум. Или, иными словами, усреднение выполняется (модулем определения направления 610) до тех пор, пока не получено необходимое соотношение сигнал/шум.

Модуль определения направления 610 может повторно сравнивать полученное соотношение сигнал/шум входного аудио сигнала 104 и выполнять усреднение до тех пор. пока не будет получено необходимое соотношение сигнал/шум. При использовании данного способа полученное соотношение сигнал/шум входного аудио сигнала 104 многократно измеряется, и процесс усреднения заканчивается тогда, когда полученное соотношение сигнал/шум входного аудио сигнала 104 соответствует требуемому соотношению сигнал/шум, и, таким образом, не возникает необходимость в предварительном вычислении длины усреднения.

Кроме этого, модуль определения направления 610 может определять длину усреднения на основе соотношения сигнал/шум входного аудио сигнала 104 на входе управляемого модуля определения параметров 606 для выполнения усреднения соотношения сигнал/шум входного аудио сигнала 104 таким образом, что полученное соотношение сигнал/шум входного аудио сигнала 104 на выходе управляемого модуля определения параметров 606 соответствует требуемому соотношению сигнал/шум. Таким образом, при использовании данного способа полученное соотношение сигнал/шум входного аудио сигнала 104 не измеряется многократно.

Таким образом, результат применения двух концепций модуля определения направления 610 оказывается аналогичным. При определении пространственных параметров 102 можно достичь точности их определения как в случае, если бы входной аудио сигнал имел необходимое соотношение сигнал/шум, хотя текущее соотношение сигнал/шум (на входе управляемого модуля определения параметров 606) таковым не является.

Чем меньше соотношение сигнал/шум входного аудио сигнала 104 по сравнению с требуемым соотношением сигнал/шум, тем длиннее процесс временного усреднения. Выходом модуля определения направления 610 является, например, параметр φ(k,n), т.е. параметр направления прихода сигнала φ(k,n), который оказывается более точным. Как было отмечено ранее, существуют различные способы усреднения сигналов направленного аудио кодирования: усреднение вектора активно интенсивности звука Ia(k,n) для одного частотного поддиапазона k и множества временных слотов, выполняемое по формуле 1, или усреднение непосредственно параметра направления φ(k,n) (параметра направления прихода сигнала φ(k,n)), определяемого ранее как направление, противоположное вектору активной интенсивности звука Ia(k,n) по времени.

Пространственный аудио процессор 600 может аналогичным образом применяться при анализе направления в системе применения пространственных микрофонов. Точность определения направления может быть повышена при усреднении аналогично результатов на основе выполнения нескольких измерений. Это означает, что аналогично DirAC на фиг. 6 работа модуля определения SAM оказывается усовершенствованной, если сначала определяется SNR входного аудио сигнала (сигналов) 104. Информация о фактическом и требуемом SNR направляется в модуль определения направления SAM, который выполняет временное усреднение по частоте и времени определенных сигналов SAM с целью улучшения SNR. Усреднение выполняется до тех пор, пока получен требуемый SNR. Фактически могут подвергаться усреднению два сигнала SAM, а именно определенный параметр направления φ(k,n) или PSD и CSD, определяемые по формуле 5а и 5b. Второе усреднение означает, что операторы ожидания приблизительно вычисляются в процессе усреднения, длина которого зависит от фактического и требуемого (искомого) SNR. Процесс усреднения определенного параметра усреднения φ(k,n) рассматривается на примере DirAC в соответствии с фиг. 7b, но является аналогичным для SAM.

Согласно следующему варианту реализации настоящего изобретения, который будет рассматриваться далее в соответствии с фиг 8, вместо указанных двух способов усреднения физических величин возможно переключение используемого банка фильтров, т.к. банк фильтров может содержать внутренне усреднение входных сигналов. Далее будут более подробно рассмотрены два указанных способа усреднения сигналов направленного аудио кодирования в соответствии с фиг. 7а и 7b. Альтернативный метод включения банка фильтров с пространственным аудио процессором показан на фиг. 8.

Усреднение вектора активной плотности звука в направленном аудио кодировании в соответствии с фиг. 7а.

На фиг. 7а показана блок-схема первой возможной реализации модуля определения направления 610 в зависимости от соотношения сигнал/шум на фиг. 6. Реализация, показанная на фиг. 7а, основана на временном усреднении интенсивности звука или параметров интенсивности звука Ia(k,n) модулем определения направления 610а. Функциональность модуля определения направления 610а аналогична функциональности модуля определения направления 610 на фиг.6. однако модуль определения направления 610а может включать дополнительные функции, которые будут рассмотрены далее.

Модуль определения направления 610а настроен выполнять усреднение и определение направления. Модуль определения направления 610а связан с модулем энергетического анализа 612, который показан на фиг. 6, модуль определения направления 610а совместно с модулем энергетического анализа 612 могут составлять управляемый модуль определения параметров 606а, функциональность которого аналогична функциональности модуля модуль определения параметров 606, показанного на фиг. 6. Управляемый модуль определения параметров 606а сначала на основе входного аудио сигнала 104 или входных аудио сигналов определяет вектор активной интенсивности звука 706 (Ia(k,n)) при помощи модуля энергетического анализа 612 по формуле 1, как это было рассмотрено ранее. В блоке усреднения 702 модуля определения направления 610а, который выполняет усреднение, выводится среднее значение вектора (вектора интенсивности звука 706) по времени n отдельно для всех (или по меньшей мере части) частотных диапазонов или частотных поддиапазонов k, что позволяет получить усредненный вектор интенсивности звука 708 (Iavg(k,n)) согласно следующей формуле:

Для выполнения усреднения модуль определения усреднения 610а учитывает предыдущие вычисления интенсивности. В качестве первого входного сигнала модуля усреднения 702 передается фактическое соотношение сигнал/шум 710 аудио входа 104 или входного аудио сигнала 104, которое определяется с помощью модуля определения сигнал/шум 614, показанного на фиг. 6. Фактическое соотношение сигнал/шум 710 входного аудио сигнала 104 составляет определяемую сигнальную характеристику 110 входного аудио сигнала 104. Соотношение сигнал/шум определяется для каждого частотного поддиапазона k и для каждого временного слота в области кратковременных частот. В качестве второго входного сигнала модуля усреднения 702 передается требуемое или искомое соотношение сигнал/шум 712, которое должно быть получено на выходе управляемого модуля определения параметров 606а, т.е. искомое соотношение сигнал/шум. Искомое соотношение сигнал/шум 712 является внешним входом, который задается, например, пользователем. Блок усреднения 702 вычисляет среднее значения вектора интенсивности 706 (Iа(k,n)) до тех пор, пока не получено искомое соотношение сигнал/шум 712. На основе среднего значения вектора интенсивности (звука) 708 (Iavg(k,n)) в результате может быть получено направление звука φ(k,n) при помощи блока определения направления, который является частью модуля определения направления 610а. выполняющего определение направления, как это было рассмотрено ранее. Параметр направления прихода сигнала φ(k,n) составляет пространственный параметр 102, определяемый управляемым модулем определения параметров 606а. Модуль определения направления 610а может определять параметр направления прихода сигнала φ(k,n) для каждого частотного поддиапазона k и временного слота n как направление, обратное направлению среднего вектора интенсивности звука 708 (Iavg(k,n)) соответствующего частотного поддиапазона k и соответствующего временного слота n.

В зависимости от необходимого соотношения сигнал/шум 712 управляемый модуль определения параметров 610а может изменять длину усреднения для вычисления среднего значения параметров интенсивности звука 706 (Ia(k,n)) таким образом, что соотношение сигнал/шум на выходе управляемого модуля определения параметров 606а соответствует (или равно) искомому соотношению сигнал/шум 712. Обычно управляемый модуль определения параметров 610а выбирает сравнительно большую длину для сравнительно большой разницы между фактическим соотношением сигнал/шум 710 входного аудио сигнала 104 и искомым соотношением сигнал/шум 712. Для сравнительно небольшой разницы между фактическим соотношением сигнал/шум 710 входного аудио сигнала 104 и искомым соотношением сигнал/шум 712 управляемый модуль определения параметров 610а выбирает сравнительно небольшую длину усреднения.

Иными словами, модуль определения направления 606а основан на вычислении среднего значения акустической интенсивности по параметрам интенсивности.

Непосредственное вычисление среднего значения параметра направления в направленном аудио кодировании в соответствии с фиг. 7b

На фиг. 7b показана блок-схема управляемого модуля определения параметров 606b, функциональность которого аналогична функциональности управляемого модуля определения параметров 606 на фиг. 6. Управляемый модуль определения параметров 606b модуль энергетического анализа 612 и модуль определения направления 610b. которые настроены выполнять определение направления и усреднение. Модуль определения направления 610b отличается от модуля определения направления 610а тем, что он сначала определяет направление, чтобы определить параметр направления прихода сигнала 718 (φ(k,n)) для каждого частотного поддиапазона k и временного слота n, а затем выполняет усреднение на основе определенного параметра направления прихода сигнала 718. чтобы определить среднее значение параметра направления прихода сигнала φ_avg(k,n) для каждого частотного поддиапазона k и временного слота n. Среднее значение параметра направления прихода сигнала φ_avg(k,n) составляет пространственный параметр 102, определяемый управляемым модулем определения параметров 606b.

Иными словами, на фиг. 7b показан другой вариант реализации модуля определения направления 610 в зависимости от соотношения сигнал/шум. продемонстрированный на фиг. 6. Реализация модуля, показанная на фиг. 7b, основана на временном усреднении определяемого направления (параметра направления прихода сигнала 718 (φ(k,n)), которое может быть получено при обычном способе аудио кодирования, например, для каждого частотного поддиапазона k и временного слота n как обратное направление вектора активной интенсивности звука 706 (Ia(k,n)).

При помощи модуля энергетического анализа 612 выполняется энергетический анализ аудио входа или входного аудио сигнала 104, а затем определяется направление звука (параметра направления прихода сигнала 718 (φ(k,n)) при помощи блока определения направления 714. который является частью модуля определения направления 610b, выполняющего определение направления, например, при помощи конвенционального способа пространственного аудио кодирования, который рассматривался ранее. Затем блок усреднения 716 модуля определения направления 610b осуществляет временное усреднение этого направления (параметра направления прихода сигнала 718 (φ(k,n)). Как указывалось ранее, усреднение выполняется по времени и для всех (или по меньшей мере части) частотных диапазонов или частотных поддиапазонов k, что приводит к получению среднего значения направления φ_avg(k,n):

Среднее значения направления φ_avg(k,n) для каждого частотного поддиапазона k и временного слота n представляет собой пространственный параметр 102, определяемый управляемым модулем определения параметров 606b.

Как указывалось ранее, на вход блока усреднения 716 направляются фактическое соотношение сигнал/шум 710 аудио входа или входного аудио сигнала 104, а также искомое соотношение сигнал/шум 712, которое будет получено на выходе управляемого модуля определения параметров 606b. Фактическое соотношение сигнал/шум 710 определяется для каждого частотного поддиапазона k и временного слота n, например, в области STFT. Усреднение 716 выполняется на основе значительного количества временных блоков (или временных слотов) до тех пор. пока не будет получено искомое соотношение сигнал/шум 712. Результатом является более точный средний по времени параметр направления φ_avg(k,n).

Таким образом, модуль определения сигнальных характеристик 608 настроен обеспечивать соотношение сигнал/шум 710 входного аудио сигнала 104 в качестве множества параметров соотношения сигнал/шум для частотного поддиапазона k и временного слота n входного аудио сигнала 104. Управляемые модули определения параметров 606а, 606b настроены получать искомое соотношение сигнал/шум 712 в качестве множества параметров искомого соотношения сигнал/шум для частотного поддиапазона k и временного слота n. Управляемые модули определения параметров 606a, 606b дополнительно настроены извлекать длину временного усреднения в соответствии с текущим параметром соотношения сигнал/шум входного аудио сигнала таким образом, чтобы текущий параметр соотношения сигнал/шум текущего (среднего) параметра направления прихода сигнала φ_avg(k,n) соответствовал текущему искомому параметру соотношения сигнал/шум.

Управляемые модули определения параметров 606a, 606b настроены извлекать параметры интенсивности Ia(k,n) для каждого частотного поддиапазона k и каждого временного слота n входного аудио сигнала 104. Кроме этого, управляемые модули определения параметров 606, 606b настроены извлекать параметры направления прихода сигнала φ(k,n) для каждого частотного поддиапазона k и каждого временного слота n входного аудио сигнала 104 на основе параметров интенсивности Ia(k,n) аудио сигнала, которые определяются управляемыми модулями определения параметров 606a, 606b. Управляемые модули определения параметров 606а, 606b дополнительно настроены извлекать текущий параметр направления прихода сигнала φ(k,n) для текущего частотного поддиапазона и текущего временного слота на основе временного усреднения по меньшей мере набора извлеченных параметров интенсивности входного аудио сигнала 104 или на основе временного усреднения по меньшей мере набора извлеченных параметров направления прихода сигнала.

Управляемые модули определения параметров 606a, 606b настроены извлекать параметры интенсивности Ia(k,n) для каждого частотного поддиапазона k и каждого временного слота n, например, в области STFT, и, кроме этого, управляемые модули определения параметров 606a, 606b настроены извлекать параметры направления прихода сигнала φ(k,n) для каждого частотного поддиапазона k и каждого временного слота n, например, в области STFT. Управляемый модуль определения параметров 606a настроен выбирать набор параметров интенсивности для выполнения временного усреднения таким образом, что частотный поддиапазон, соответствующий всем параметрам интенсивности набора параметров интенсивности, аналогичен текущему частотному поддиапазону, соответствующему текущему параметру направления прихода сигнала. Управляемый модуль определения параметров 606b настроен выбирать набор параметров направления прихода сигнала для выполнения временного усреднения 716 таким образом, что частотный поддиапазон, соответствующий всем параметрам направления прихода сигнала набора параметров направления прихода сигнала аналогичен текущему частотному поддиапазону, соответствующему текущему параметру направления прихода сигнала.

Кроме этого, управляемый модуль определения параметров 606a настроен выбирать набор параметров интенсивности таким образом, что временные слоты, соответствующие параметрам интенсивности набора параметров интенсивности, являются смежными по времени. Управляемый модуль определения параметров 606b настроен выбирать набор параметров направления прихода сигнала таким образом, что временные слоты, соответствующие параметрам направления прихода сигнала набора параметров направления прихода сигнала, являются смежными по времени. Количество параметров интенсивности в наборе параметров интенсивности и количество параметров направления прихода сигнала в наборе параметров направления прихода сигнала соответствует длине временного усреднения. Управляемый модуль определения параметров 606a настроен извлекать количество параметров интенсивности в наборе параметров интенсивности для выполнения временного усреднения в зависимости от разницы между текущим соотношением сигнал/шум входного аудио сигнала 104 и текущим искомым соотношением сигнал/шум. Управляемый модуль определения параметров 606b настроен извлекать количество параметров направления прихода сигнала в наборе параметров направления прихода сигнала для выполнения временного усреднения в зависимости от разницы между текущим соотношением сигнал/шум входного аудио сигнала 104 и текущим искомым соотношением сигнал/шум.

Иными словами, модуль определения направления 606b основан на вычислении среднего значения направления 718 φ(k,n), полученного при обычном способе направленного аудио кодирования.

Далее будет рассмотрен следующий вариант реализации пространственного аудио процессора, который также выполняет определение параметров в зависимости от соотношения сигнал/шум.

Применение банка фильтров с подходящим спектрально-темпоральным разрешением в направленном аудио кодировании, используя аудио кодер в соответствии с фиг. 8

На фиг. 8 показан пространственный аудио процессор 800, включающий управляемый модуль определения параметров 806 и модуль определения сигнальных характеристик 808. Функциональность направленного аудио кодера 800 аналогична функциональности направленного аудио кодера 100. Направленный аудио кодер 800 может включать дополнительные функции, которые будут рассмотрены далее. Функциональность управляемого модуля определения параметров 806 аналогична функциональности управляемого модуля определения параметров 106, и функциональность модуля определения сигнальных характеристик 808 аналогична функциональности модуля определения сигнальных характеристик 108. Управляемый модуль определения параметров 806 и модуль определения сигнальных характеристик 808 могут включать дополнительные функции, которые будут рассмотрены далее.

Модуль определения сигнальных характеристик 808 отличается от модуля определения сигнальных характеристик 608 тем. что он определяет соотношение сигнал/шум 810 входного аудио сигнала 104, которое также обозначается как входное соотношение сигнал/шум, во временной, а не STFT-области. Соотношение сигнал/шум 810 входного аудио сигнала 104 является сигнальной характеристикой, определяемой модулем определения сигнальных характеристик 808. Управляемый модуль определения параметров 806 отличается от управляемого модуля определения параметров 606, показанного на фиг. 6, тем, что он включает модуль определения В-формата 812, который содержит банк фильтров 814 и блок вычисления В-формата 816, настроенный преобразовывать входной аудио сигнал 104 во временной области в представление В-формата, например, в области STFT.

Кроме этого, модуль определения В-формата 812 настроен изменять определение В-формата входного аудио сигнала 104 на основе сигнальных характеристик, определенных с помощью модуля определения сигнальных характеристик 808, или, иными словами, в зависимости от соотношения сигнал/шум 810 входного аудио сигнала 104 во временной области.

Выходом модуля определения В-формата 812 является В-формат представление 818 входного аудио сигнала 104. В-формат представление 818 включает всенаправленный компонент, например, рассмотренный ранее вектор звукового давления Р(k,n), и направленный компонент, например, рассмотренный ранее вектор акустической скорости частиц U(k,n) для каждого частотного поддиапазона k и каждого временного слота n.

Модуль определения направления 820 управляемого модуля определения параметров 806 извлекает параметр направления прихода сигнала φ(k,n) входного аудио сигнала 104 для каждого частотного поддиапазона k и каждого временного слота n. Параметр направления прихода сигнала φ(k,n) является пространственным параметром 102. определяемым управляемым модулем определения параметров 806. Модуль определения направления 820 может выполнять определение направления посредством вычисления параметра активной интенсивности Ia(k,n) для каждого частотного поддиапазона k и каждого временного слота n, а также посредством определения параметров направления прихода сигнала φ(k,n) на основе параметров активной интенсивности Ia(k,n).

Банк фильтров 814 модуля определения В-формата 812 настроен получать фактическое соотношение сигнал/шум 810 входного аудио сигнала 104 и искомое соотношение сигнал/шум 822. Управляемый модуль определения параметров 806 настроен изменять длину блока банка фильтров 814 в зависимости от разницы между фактическим соотношением сигнал/шум 810 входного аудио сигнала 104 и искомым соотношением сигнал/шум 822. Выходом банка фильтров 814 является частотное представление (например, в области STFT) входного аудио сигнала 104. на основе которого блок вычисления В-формата 816 вычисляет В-формат представление 818 входного аудио сигнала 104. Иными словами, преобразование входного аудио сигнала 104 из временной области в частотное представление может быть выполнено банком фильтров 814 в зависимости от определяемого фактического соотношения сигнал/шум 810 входного аудио сигнала 104, а также в зависимости от искомого соотношения сигнал/шум 822. В общем, вычисление В-формата может быть выполнено блоком вычисления В-формата 816 в зависимости от определяемого фактического соотношения сигнал/шум 810 и от искомого соотношения сигнал/шум 822.

Модуль определения сигнальных характеристик 808 настроен определять соотношение сигнал/шум 810 входного аудио сигнала 104 во временной области. Управляемый модуль определения параметров 806 включает банк фильтров 814 для того, чтобы преобразовывать входной аудио сигнал 104 из временной области в частотное представление. Управляемый модуль определения параметров 806 настроен изменять длину блока банка фильтров 814 в соответствии с определяемым соотношением сигнал/шум 810 входного аудио сигнала 104. Управляемый модуль определения параметров 806 настроен получать искомое соотношение сигнал/шум 812 и изменять длину блока банка фильтров 814 таким образом, что соотношение сигнал/шум входного аудио сигнала 104 в частотной области соответствует искомому соотношению сигнал/шум 824 или, иными словами, таким образом, что соотношение сигнал/шум частотного представления 824 входного аудио сигнала 104 соответствует искомому соотношению сигнал/шум 822.

Управляемый модуль определения параметров 806, показанный на фиг. 8, может также рассматриваться как следующая реализация модуля определения направления в зависимости от соотношения сигнал/шум 610, представленного на фиг. 6. Вариант реализации на фиг. 8 основан на выборе оптимального спектрально-темпорального разрешения банка фильтров 814. Как было рассмотрено ранее, направленное аудио кодирование осуществляется в STFT-области. Таким образом, входные аудио сигналы или входной аудио сигнал 104 во временной области, например, измеряемый с помощью микрофонов, преобразуется с использованием, например, кратковременного преобразования Фурье или любого другого банка фильтров. Модуль определения В-формата 812 затем обеспечивает кратковременное частотное представление 818 входного аудио сигнала 104 или, иными словами, обеспечивает сигнал В-формата, что обозначается звуковым давлением Р(k,n) и вектором акустической скорости частиц U(k,n) соответственно. Применение банка фильтров 814 к аудио сигналам во временной области (входному аудио сигналу 104 во временной области) позволяет осуществить ингерентное усреднение преобразованного сигнала (кратковременного частотного представления 824 входного аудио сигнала 104), при этом длина усреднения соответствует длине преобразования (или длине блока) банка фильтров 814. Способ усреднения, описанный в связи с пространственным аудио процессором 800, включает и ингерентное временное усреднение входных сигналов.

Аудио вход или входной аудио сигнал 104, который может быть измерен с помощью микрофонов, преобразовывается в кратковременную частотную область при помощи банка фильтров 814. Длина преобразования, или длина фильтра, или длина блока регулируется с помощью фактического соотношения сигнал/шум на входе 810 входного аудио сигнала 104 или входных аудио сигналов и искомого соотношения сигнал/шум 822, которое определяется в результате процесса усреднения. Иными словами, желательно выполнять усреднение в банке фильтров 814 так, чтобы соотношение сигнал/шум временно-частотного представления 824 входного аудио сигнала 104 соответствовало или было равным искомому соотношению сигнал/шум 822. Соотношение сигнал/шум определяется на основе входного аудио сигнала 104 или входных аудио сигналов во временной области. В случае высокого соотношения сигнал/шум 810 на входе выбирается более длинное преобразование. Как рассматривалось в предыдущем разделе, входное соотношение сигнал/шум 810 входного аудио сигнала 104 обеспечивается модулем определения соотношения сигнал/шум, который является частью модуля определения сигнальных характеристик 808, в то время как искомое соотношение сигнал/шум 822 может контролироваться извне, например, пользователем. Выход банка фильтров 814 и последующее вычисление В-формата, которое выполняется блоком вычисления В-формата 816, являются входными сигналами 818, например, в области STFT, а именно Р(k,n) и/или U(k,n). Эти сигналы (входной аудио сигнал 818 в области STFT) обрабатываются далее, например, при помощи обычного направленного аудио кодирования посредством модуля определения направления 820 для того, чтобы определить направление φ(k,n) для каждого частотного поддиапазона k и каждого временного слота n.

Иными словами, пространственный аудио процессор 800 или модуль определения направления основан на выборе подходящего банка фильтров для входного аудио сигнала 104 или для входных аудио сигналов.

В целом, модуль определения сигнальных характеристик 808 настроен определять соотношение сигнал/шум 810 входного аудио сигнала 104 во временной области. Управляемый модуль определения параметров 806 включает банк фильтров 814, настроенный преобразовывать входной аудио сигнал 104 из временной области в частотное представление. Управляемый модуль определения параметров 806 настроен изменять длину блока банка фильтров 814 в соответствии с определяемым соотношением сигнал/шум 810 входного аудио сигнала 104. Кроме этого, управляемый модуль определения параметров 806 настроен получать искомое соотношение сигнал/шум 822 и изменять длину блока банка фильтров 814 таким образом, что соотношение сигнал/шум входного аудио сигнала 824 в частотном представлении соответствует искомому соотношению сигнал/шум 822.

Определение соотношения сигнал/шум, выполняемое модулем определения сигнальных характеристик 608, 808 представляет известную проблему. Далее будет рассмотрен возможный вариант реализации модуля определения соотношения сигнал/шум.

Возможная реализация модуля определения SNR

Далее будет рассмотрен возможный вариант реализации модуля определения входного соотношения сигнал/шум 614 на фиг. 6. Модуль определения соотношения сигнал/шум, рассматриваемый далее, может использоваться для управляемого модуля определения параметров 606a и управляемого модуля определения параметров 606b, показанных на фиг. 7a и 7b. Модуль определения соотношения сигнал/шум вычисляет соотношение сигнал/шум входного аудио сигнала 104, например, в области STFT. Реализация во временной области (например, в модуле определения сигнальных характеристик 808) может быть выполнена аналогичным образом.

Модуль определения SNR может вычислять SNR входных аудио сигналов, например, в области STFT для каждого временного блока n и частотного диапазона k или для сигнала во временной области. SNR определяется посредством вычисления мощности сигнала для рассматриваемого временно-частотного отрезка. Допустим, что x(k,n) является входным аудио сигналом. Мощность сигнала S(k,n) может быть определена согласно

Для определения SNR вычисляется соотношение между мощностью сигнала и мощностью шума N(k) согласно формуле:

Поскольку S(k,n) уже содержит шум, в случае низкого SNR более точное вычисление SNR осуществляется по формуле:

Предполагается, что мощность сигнала N(л) является постоянной в течение времени n. Она может определяться на основе аудио входа для каждого k. Фактически она равна среднему значению мощности в том случае, если звук отсутствует, т.е. в течение паузы. В математическом выражении это может быть представлено следующим образом:

Иными словами, согласно некоторым вариантам реализации настоящего изобретения модуль определения сигнальных характеристик настроен измерять шум во время фазы отсутствия звука входного аудио сигнала 104 и вычислять мощность шума N(k). Модуль определения сигнальных характеристик может быть дополнительно настроен измерять активный сигнал в фазе присутствия звука входного аудио сигнала 104 и вычислять мощность S(k,n) активного сигнала. Модуль определения сигнальных характеристик может быть дополнительно настроен определять соотношение сигнал/шум входного аудио сигнала 104 на основе вычисленной мощности шума N(k) и вычисленной мощности активного сигнала S(k,n).

Эта схема может быть применена в модуле определения сигнальных характеристик 808 с той разницей, что модуль определения сигнальных характеристик 808 определяет мощность S(t) активного сигнала во временной области и определяет мощность шума N(t) во временной области для того, чтобы получить фактическое соотношение сигнал/шум входного аудио сигнала 104 во временной области.

Иными словами, модули определения сигнальных характеристик 608, 808 настроены измерять шум в фазе отсутствия звука входного аудио сигнала 104 и вычислять мощность шума N(k). Модули определения сигнальных характеристик 608, 808 настроены измерять активный сигнал в фазе присутствия звука входного аудио сигнала 104 и вычислять мощность S(k,n) активного сигнала. Кроме этого, модули определения сигнальных характеристик 608, 808 настроены определять соотношение сигнал/шум входного аудио сигнала 104 на основе вычисленной мощности шума N(k) и вычисленной мощности активного сигнала S(k).

Далее будет рассмотрен вариант реализации настоящего изобретения, выполняющий определение параметров в зависимости от присутствия аплодисментов.

Определение параметров в зависимости от присутствия аплодисментов, используя пространственный аудио процессор в соответствии с фиг. 9

На фиг. 9 показана блок-схема пространственного аудио процессора 900 в соответствии с вариантом реализации настоящего изобретения. Функциональность пространственного аудио процессора 900 аналогична функциональности пространственного аудио процессора 100, однако пространственный аудио процессор 900 может включать дополнительные функции, которые будут рассмотрены далее. Пространственный аудио процессор 900 включает управляемый модуль определения параметров 906 и модуль определения сигнальных характеристик 908. Функциональность управляемого модуля определения параметров 906 аналогична функциональности управляемого модуля определения параметров 106, однако управляемый модуль определения параметров 906 может включать дополнительные функции, которые будут рассмотрены далее. Функциональность модуля определения сигнальных характеристик 908 аналогична функциональности модуля определения сигнальных характеристик 108, однако модуль определения сигнальных характеристик 908 может включать дополнительные функции, которые будут рассмотрены далее.

Модуль определения сигнальных характеристик 908 настроен определять, включает ли входной аудио сигнал 104 переходные компоненты, которые соответствуют сигналам, похожим на аплодисменты, например, при помощи модуля определения аплодисментов 910.

Сигналы, похожие на аплодисменты, определяются как сигналы, которые содержат быстро меняющуюся последовательность переходов, например, с разными направлениями.

Управляемый модуль определения параметров 906 включает банк фильтров 912. который настроен преобразовывать входной аудио сигнал 104 из временной области в частотное представление (например. STFT-область) на основе формулы вычисления преобразования. Управляемый модуль определения параметров 906 настроен выбирать формулу вычисления преобразования для преобразования входного аудио сигнала 104 из временной области в частотное представление из множества формул вычисления преобразования в соответствии с результатом определения сигнальных характеристик, которое выполняется модулем определения сигнальных характеристик 908. Результат определения сигнальных характеристик представляет собой сигнальную характеристику 110 модуля определения сигнальных характеристик 908. Управляемый модуль определения параметров 906 выбирает формулу вычисления преобразования из множества формул вычисления преобразования таким образом, что первая формула вычисления преобразования из множества формул вычисления преобразования выбирается для преобразования входного аудио сигнала 104 из временной области в частотное представление, когда входной аудио сигнал включает компоненты, соответствующие аплодисментам, а вторая формула вычисления преобразования из множества формул вычисления преобразования выбирается для преобразования входного аудио сигнала 104 из временной области в частотное представление, когда входной аудио сигнал не включает компоненты, соответствующие аплодисментам.

Иными словами, управляемый модуль определения параметров 906 настроен выбирать необходимую формулу вычисления преобразования для преобразования входного аудио сигнала 104 из временной области в частотное представление в зависимости от присутствия аплодисментов.

В общем, пространственный аудио процессор 900 показан в качестве примера реализации изобретения, где параметрическое описание звукового поля определяется в зависимости от входных аудио сигналов или входного аудио сигнала 104. В том случае, если микрофоны захватывают аплодисменты, или входной аудио сигнал 104 содержит компоненты, соответствующие сигналам, похожим на аплодисменты, применяется особая обработка для того, чтобы повысить точность определения параметров.

Аплодисменты обычно характеризуются быстрым изменением направления прихода звука за очень короткий временной период. Кроме этого, получаемые аудио сигнала содержат, в основном, переходы. Было обнаружено, что для точного анализа звука желательно применять систему, которая может анализировать быстрое изменение направления прихода сигнала и которая может сохранить переходный характер сигнальных компонентов.

Этим требованиям соответствует применение банка фильтров с высоким временным разрешением (например, STFT с коротким преобразованием или короткой длиной блока) для преобразования входных аудио сигналов во временной области. При использовании такого банка фильтров будет понижено спектральное разрешение системы. Это не проблематично для сигналов, содержащих аплодисменты, т.к. DOA звука изменяется по частоте незначительно из-за переходных характеристик звука. Однако было обнаружено, что малое спектральное разрешение является проблемой для других сигналов, таких как речь в сценариях с одновременной речью, где требуется определенное спектральное разрешение для того, чтобы разграничить отдельных говорящих. Было обнаружено, что для точного определения параметров необходимо зависимое от сигнала включение банка фильтров (или соответствующего преобразованию или длины блока банка фильтров) в зависимости от характеристик входных аудио сигналов или входного аудио сигнала 104.

Пространственный кодер 900 на фиг. 9 представляет возможный вариант реализации применения зависимого от сигнала включения банка фильтров 912 или выбора формулы вычисления преобразования банка фильтров 912. Перед преобразованием входных аудио сигналов или входного аудио сигнала 104 в частотное представление (например, в область STFT) с помощью банка фильтров 912 входные аудио сигналы или входной аудио сигнал 104 направляется в модуль определения аплодисментов 910 модуля определения сигнальных характеристик 908. Входной аудио сигнал 104 направляется в модуль определения аплодисментов 910 во временной области. Модуль определения аплодисментов 910 модуля определения сигнальных характеристик 908 контролирует банк фильтров 912 на основе определяемой сигнальной характеристики 110 (который в данном случае указывает, содержит или нет входной аудио сигнал 104 компоненты, соответствующие сигналам, похожим на аплодисменты). Если во входных аудио сигналах или входном аудио сигнале 104 обнаруживаются аплодисменты, управляемый модуль определения параметров 900 переключается на банк фильтров или. иными словами, выбирается формула вычисления преобразования в банке фильтров 912, который соответствует анализу аплодисментов. В том случае, если аплодисменты не присутствуют, применяется обычный банк фильтров или, иными словами, обычная формула вычисления преобразования, которая может быть применяется, например, направленным аудио кодером 200. После преобразования входного аудио сигнала 104 в область STFT (или другое частотное представление) может выполняться конвенциональное пространственное аудио кодирование (при помощи блока вычисления В-формата 914 или блока определения параметров 916 управляемого модуля определения параметров 906). Иными словами, определение параметров пространственного аудио кодирования, которые составляют пространственные параметры 102, определяемые пространственным аудио процессором 900, может осуществляться при помощи блока вычисления В-формата 914 и блока определения параметров 916, как рассматривалось в связи с направленным аудио кодером 200 на фиг. 2. Результатом являются параметры направленного аудио кодирования, т.е. направление φ(k,n) и размытость Ψ(k,n).

Иными словами, пространственный аудио процессор 900 представляет концепцию усовершенствования определения параметров направленного аудио кодирования при помощи включения банка фильтров в случае присутствия аплодисментов или сигналов, похожих на аплодисменты.

В целом, управляемый модуль определения параметров 906 настроен таким образом, что первая формула вычисления преобразования соответствует более высокому временному разрешению входного аудио сигнала в частотном представлении, чем вторая формула вычисления преобразования, однако вторая формула вычисления преобразования соответствует более высокому спектральному разрешению входного аудио сигнала в частотном представлении, чем первая формула вычисления преобразования.

Если входной аудио сигнал 104 содержит сигналы, похожие на аплодисменты, модуль определения аплодисментов 910 модуля определения сигнальных характеристик 908 может функционировать на основе метаданных, созданных, например, пользователем.

Пространственный аудио процессор 900 на фиг. 9 также может аналогичным образом применяться в SAM-анализе с той разницей, что банк фильтров контролируется детектором аплодисментов 910 модуля определения сигнальных характеристик 908.

Согласно следующему варианту реализации настоящего изобретения управляемый модуль определения параметров может определять пространственные параметры, используя различные стратегии определения параметров независимо от определенных сигнальных характеристик таким образом, что для каждой стратегии определения параметров управляемый модуль определения параметров определяет набор пространственных параметров входного аудио сигнала. Управляемый модуль определения параметров может быть дополнительно настроен выбирать один набор пространственных параметров из определенных наборов пространственных параметров в качестве пространственного параметра входного аудио сигнала и, таким образом, как результат процесса определения в зависимости от определенной сигнальной характеристики. Например, первая формула вычисления изменяемого пространственного параметра может включать: определение пространственных параметров входного аудио сигнала для каждой стратегии определения параметров и выбор набора пространственных параметров, определенных согласно первой стратегии определения параметров. Вторая формула вычисления изменяемого пространственного параметра может включать: определение пространственных параметров входного аудио сигнала для каждой стратегии определения параметров и выбор набора пространственных параметров, определенных согласно второй стратегии определения параметров.

На фиг. 10 показана блок-схема способа 1000 в соответствии с реализацией настоящего изобретения.

Способ 1000 для обеспечения пространственных параметров на основе входного аудио сигнала включает шаг 1010 определения сигнальных характеристик входного аудио сигнала.

Способ 1000 далее включает шаг 1020 модификации формулы вычисления изменяемого пространственного параметра в соответствии с определенными сигнальными характеристиками.

Способ 1000 далее включает шаг 1030 вычисления пространственных параметров входного аудио сигнала в соответствии с формулой вычисления изменяемого пространственного параметра.

Варианты реализации настоящего изобретения относятся к способу, согласно которому контролируются стратегии определения параметров в системах пространственного звукового представления на основе характеристик входных аудио сигналов, т.е. сигналов микрофонов.

Далее будут суммированы некоторые аспекты вариантов реализации настоящего изобретения.

По меньшей мере несколько вариантов реализации настоящего изобретения настроены получать многоканальные аудио сигналы, т.е. сигналы микрофонов. На основе входных аудио сигналов, варианты реализации настоящего изобретения могут определять отдельные сигнальные характеристики. На базе сигнальных характеристик варианты реализации настоящего изобретения могут выбирать наиболее подходящую звуковую модель. Звуковая модель может затем контролировать стратегию определения параметров. На основе управляемой или выбранной стратегии определения параметров варианты реализации настоящего изобретения могут определить наиболее подходящие пространственные параметры для заданного входного аудио сигнала.

Определение параметрических описаний звукового поля основывается на определенных допущениях относительно входных аудио сигналов. Однако входной сигнал может обладать значительной темпоральной вариативностью, в связи с чем общая инвариантная временная модель часто не подходит. В параметрическом кодировании эта проблема решается при помощи предварительного определения сигнальных характеристик и последующего выбора оптимальной стратегии кодирования с изменениями во времени. Варианты реализации настоящего изобретения определяют сигнальные характеристики входных аудио сигналов не только предварительно, но и постоянно, например, по блокам для частотного поддиапазона и временного слота или для набора частотных поддиапазонов и/или набора временных слотов. Варианты реализации настоящего изобретения могут применять данную стратегию к акустическим интерфейсам для параметрической пространственной аудио обработки и/или пространственного аудио кодирования, такого как пространственное аудио кодирование (DirAC) или система применения пространственных микрофонов (SAM).

Концепция реализации настоящего изобретения состоит в применении изменяемых во времени и зависимых от сигнала стратегий обработки данных для определения параметров в параметрическом пространственном аудио кодировании на основе сигналов микрофона или других входных аудио сигналов.

Варианты реализации настоящего изобретения рассмотрены с акцентом на определении параметров в направленном аудио кодировании, однако данная концепция может также применяться при других способах параметрической обработки, таких как система применения пространственных микрофонов.

Варианты реализации настоящего изобретения обеспечивают адаптируемое к сигналу определение параметров для пространственного звука на основе входных аудио сигналов.

В настоящем документе были рассмотрены различные варианты реализации настоящего изобретения. Некоторые варианты реализации настоящего изобретения осуществляют определение параметров в зависимости от интервала стационарности входных сигналов. Следующие варианты реализации настоящего изобретения осуществляют определение параметров в зависимости от присутствия ситуаций одновременного разговора. Следующие варианты реализации настоящего изобретения осуществляют определение параметров в зависимости от соотношения сигнал/шум входных сигналов. Следующие варианты реализации настоящего изобретения осуществляют определение параметров на основе усреднения вектора интенсивности звука в зависимости от входного соотношения сигнал/шум. Следующие варианты реализации настоящего изобретения осуществляют определение параметров на основе усреднения полученного параметра направления в зависимости от входного соотношения сигнал/шум. Следующие варианты реализации настоящего изобретения осуществляют определение параметров при помощи выбора оптимального банка фильтров или оптимальной формулы вычисления преобразования в зависимости от входного соотношения сигнал/шум. Следующие варианты реализации настоящего изобретения осуществляют определение параметров в зависимости от тональности входных аудио сигналов. Следующие варианты реализации настоящего изобретения осуществляют определение параметров в зависимости от присутствия сигналов, похожих на аплодисменты.

Пространственный аудио процессор может, в целом, представлять собой устройство, которое обрабатывает пространственный звук и генерирует параметрическую информацию.

Альтернативные варианты использования

Хотя некоторые аспекты уже были описаны в контексте устройства, ясно, что эти аспекты также представляют собой описание соответствующего способа, где блок или устройство соответствуют шагу способа или свойству шага способа. Аналогично, аспекты, изложенные в контексте шага способа, также представляют собой описание соответствующего блока или элемента либо свойства соответствующего устройства. Некоторые или все шаги способа могут быть выполнены посредством (или с помощью) аппаратного обеспечения, как, например, микропроцессор, программируемый компьютер или электронная схема. В некоторых вариантах один или несколько наиболее важных шагов способа могут быть выполнены таким устройством.

В зависимости от требований к определенным реализациям изобретения, варианты изобретения могут быть реализованы в виде аппаратного средства или программного средства. Воплощение может быть осуществлено с помощью цифрового носителя, например дискеты, DVD. Blue-Ray. CD. ROM. PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные на нем и читаемые электронным способом контролирующие сигналы, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой таким образом, что выполняется соответствующий способ. Таким образом, цифровой носитель может быть читаемым на компьютере.

Некоторые варианты реализации в соответствии с изобретением содержат носитель данных, имеющий читаемые электронным способом контролирующие сигналы, которые способны взаимодействовать с программируемой компьютерной системой так, что выполняется один из способов, описанных в данном документе.

Как правило, варианты осуществления настоящего изобретения могут быть реализованы в виде программного продукта с программным кодом, который задействован для осуществления одного из способов, когда программный продукт запускается на компьютере. Программный код, например, может быть сохранен на считываемом носителе.

Другие варианты включают компьютерную программу, которая хранится на считываемом носителе, для выполнения одного из способов, описанных в данном документе.

Иными словами, воплощением изобретенного способа, следовательно, является компьютерная программа, имеющая программный код для выполнения одного из способов, описанных в данном документе, когда компьютерная программа запускается на компьютере.

Еще одним вариантом реализации изобретенных способов, таким образом, является носитель данных (или цифровое средство хранения, или носитель, считываемый на компьютере), включающий записанную на нем компьютерную программу для выполнения одного из способов, описанных в данном документе.

Еще одним вариантом реализации изобретенного способа является, таким образом, поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть настроена для передачи через соединение передачи данных, например, через Интернет.

Еще один вариант реализации изобретения включает средства обработки, например, компьютер или программируемое логическое устройство, настроенное или адаптированное для выполнения одного из способов, описанных в данном документе.

Еще один вариант реализации изобретения включает компьютер с установленной на нем компьютерной программой для выполнения одного из способов, описанных в данном документе.

В некоторых вариантах реализации изобретения программируемое логическое устройство (например, программируемая вентильная матрица) может быть использовано для выполнения некоторых или всех функциональных возможностей способов, описанных в данном документе. В некоторых вариантах программируемая вентильная матрица может взаимодействовать с микропроцессором для выполнения одного из способов, описанных в данном документе. Как правило, способы предпочтительно осуществляются с помощью любого аппаратного средства.

Описанные выше варианты реализации изобретения являются только иллюстрацией принципов данного изобретения. Подразумевается, что модификации и варианты конфигурации и элементов, описанных в данном документе, будут очевидны для специалистов в данной области. Таким образом, данный документ ограничивается только областью предстоящих патентных притязаний, а не конкретными деталями, представленными в виде описания и объяснения вариантов реализации изобретения в настоящем документе.

ПРОСТРАНСТВЕННЫЙ АУДИО ПРОЦЕССОР И СПОСОБ ОБЕСПЕЧЕНИЯ ПРОСТРАНСТВЕННЫХ ПАРАМЕТРОВ НА ОСНОВЕ АКУСТИЧЕСКОГО ВХОДНОГО СИГНАЛА

Источник поступления информации: Роспатент

‹ › ×

Авторы
Правообладатели

Showing 1-10 of 16 items.

20.06.2013

№216.012.4e39

Устройство и способ расчета коэффициентов фильтра эхоподавления

Изобретение относится к устройствам и способам расчета коэффициентов пропускания адаптивного фильтра, предназначенного для подавления эха микрофонного сигнала, возбуждаемого сигналом громкоговорителя. Техническим результатом является улучшение качества звука в системах подавления или...

Тип: Изобретение

Номер охранного документа: 0002485607

Дата охранного документа: 20.06.2013

Показать авторов и правообладателей

10.10.2013

№216.012.7499

Устройство и способ расчета параметров управления фильтра эхоподавления и устройство и способ расчета величины задержки

Изобретение относится к устройствам и способам расчета параметров управления заграждающим фильтром. Техническим результатом является улучшение качества звучания акустических систем за счет подавления отраженных сигналов пропорционально уровню шумов. Устройство (200) для расчета параметров...

Тип: Изобретение

Номер охранного документа: 0002495506

Дата охранного документа: 10.10.2013

Показать авторов и правообладателей

20.11.2013

№216.012.8359

Устройство для определения преобразованного пространственного звукового сигнала

Использование: данное изобретение относится к сфере обработки звукового сигнала, главным образом, обработки пространственного звукового сигнала, и преобразования различных форматов пространственных звуковых сигналов. Сущность: улучшенная обработка звукового сигнала может быть достигнута, если...

Тип: Изобретение

Номер охранного документа: 0002499301

Дата охранного документа: 20.11.2013

Показать авторов и правообладателей

20.01.2014

№216.012.98ec

Устройство для формирования выходного пространственного многоканального аудио сигнала

Изобретение относится к области аудио обработки, особенно обработки пространственных свойств аудио. Сущность изобретения состоит в том, что устройство (100) для формирования выходного пространственного многоканального аудио сигнала на основе входного аудио сигнала и входного параметра....

Тип: Изобретение

Номер охранного документа: 0002504847

Дата охранного документа: 20.01.2014

Показать авторов и правообладателей

20.01.2014

№216.012.9933

Устройство для объединения пространственных аудиопотоков

Изобретение относится к средствам объединения нескольких пространственных аудиопотоков. Технический результат заключается в повышении качества объединенного аудиопотока. Оценивают первое волновое представление, содержащее измерение направления первой волны, характеризующее направление первой...

Тип: Изобретение

Номер охранного документа: 0002504918

Дата охранного документа: 20.01.2014

Показать авторов и правообладателей

10.06.2014

№216.012.d114

Транскодировщик аудио формата

Изобретение относится к транскодировщику аудиоформата (100) для транскодирования входного аудиосигнала. Технический результат заключается в эффективном объединении возможностей направленного и пространственного аудиокодирования. Входной звуковой сигнал имеет не менее двух направленных...

Тип: Изобретение

Номер охранного документа: 0002519295

Дата охранного документа: 10.06.2014

Показать авторов и правообладателей

20.06.2014

№216.012.d53c

Устройство подавления акустического эха и фронтальное устройство конференцсвязи

Изобретение относится к средствам подавления акустического эха. Технический результат заключается в снижении вычислительной сложности и увеличении эффективности процесса подавления акустического эха. Акустический эхоподавитель включает в себя средство входного интерфейса (230) для извлечения...

Тип: Изобретение

Номер охранного документа: 0002520359

Дата охранного документа: 20.06.2014

Показать авторов и правообладателей

20.07.2014

№216.012.e055

Устройство для формирования выходного пространственного многоканального аудио сигнала

Изобретение относится к средствам формирования выходного пространственного многоканального аудио сигнала на основе входного аудио сигнала. Технический результат заключается в уменьшении вычислительных затрат процесса декодирования/рендеринга. Раскладывают входной аудио сигнал на основе входного...

Тип: Изобретение

Номер охранного документа: 0002523215

Дата охранного документа: 20.07.2014

Показать авторов и правообладателей

27.12.2014

№216.013.15f4

Устройство для формирования выходного пространственного многоканального аудио сигнала

Изобретение относится к средствам формирования выходного пространственного многоканального аудиосигнала на основе входного аудиосигнала и входного параметра. Технический результат заключается в уменьшении вычислительных затрат процесса декодирования/рендеринга. Раскладывают входной аудио сигнал...

Тип: Изобретение

Номер охранного документа: 0002537044

Дата охранного документа: 27.12.2014

Показать авторов и правообладателей

10.06.2015

№216.013.5080

Устройство и способ для разрешения неоднозначности из оценки направления прихода

Устройство (100) для разрешения неоднозначности из оценки (105) DOA ( ) содержит анализатор (110) оценки DOA для анализирования оценки (105) DOA ( ) для получения множества (115) неоднозначных параметров анализа ( ... ; f( )...f( ); f( )...f( ); g( )...g( ); D( )...D( )) посредством...

Тип: Изобретение

Номер охранного документа: 0002552129

Дата охранного документа: 10.06.2015

Показать авторов и правообладателей

Showing 1-10 of 85 items.

10.01.2013

№216.012.1a9e

Устройство и способ для извлечения сигнала окружающей среды в устройстве и способ получения весовых коэффициентов для извлечения сигнала окружающей среды

Изобретение относится к устройствам и способам извлечения сигнала окружающей среды и получения весовых коэффициентов для извлечения сигнала окружающей среды. Техническим результатом является упрощение извлечения сигнала окружающей среды. Указанный результат достигается тем, что устройство для...

Тип: Изобретение

Номер охранного документа: 0002472306

Дата охранного документа: 10.01.2013

Показать авторов и правообладателей

10.02.2013

№216.012.24a9

Аудиокодирование с использованием повышающего микширования

Изобретение относится к аудиокодерам, использующим повышающее микширование аудиосигналов. Техническим результатом является возможность разделения отдельных аудиообъектов при микшировании аудиосигналов с понижением количества каналов и с повышением количества каналов. Указанный результат...

Тип: Изобретение

Номер охранного документа: 0002474887

Дата охранного документа: 10.02.2013

Показать авторов и правообладателей

20.06.2013

№216.012.4e39

Устройство и способ расчета коэффициентов фильтра эхоподавления

Тип: Изобретение

Номер охранного документа: 0002485607

Дата охранного документа: 20.06.2013

Показать авторов и правообладателей

27.06.2013

№216.012.525e

Устройство и способ для хранения и чтения файла, имеющего хранилище медиа данных и хранилище метаданных

Изобретение относится к технике передачи информации и может использоваться для передачи медиа данных. Технический результат состоит в возможности использования различных форматов средств хранения медиа данных, в особенности к хранению медиа данных или воспроизведению из файла, имеющего...

Тип: Изобретение

Номер охранного документа: 0002486679

Дата охранного документа: 27.06.2013

Показать авторов и правообладателей

10.07.2013

№216.012.5540

Звуковое кодирующее устройство и звуковое декодирующее устройство

Изобретение относится к области звукового кодирования, в частности к кодированию на основе энтропии. Звуковое кодирующее устройство (100) для кодирования сегментов коэффициентов, сегментов коэффициентов, имеющих различные временные или частотные разрешения выбранного звукового сигнала, включает...

Тип: Изобретение

Номер охранного документа: 0002487427

Дата охранного документа: 10.07.2013

Показать авторов и правообладателей

10.07.2013

№216.012.5541

Устройство и способ для вычисления числа огибающих спектра

Изобретение относится к области вычисления числа огибающих спектра, а именно к кодированию звуковых сигналов. Техническим результатом является эффективное кодирование в лучшем качестве, специально для сигналов с медленно изменяющейся энергией, интенсивность колебаний которой слишком низкая,...

Тип: Изобретение

Номер охранного документа: 0002487428

Дата охранного документа: 10.07.2013

Показать авторов и правообладателей

27.07.2013

№216.012.5aeb

Микширование входящих информационных потоков и генерация выходящего информационного потока

Изобретение относится к области телекоммуникационных систем. Техническим результатом является осуществление передачи сигналов без ухудшения качества звучания и уменьшение необходимого количества оборудования. Для достижения указанного технического результата используется устройство (500) для...

Тип: Изобретение

Номер охранного документа: 0002488896

Дата охранного документа: 27.07.2013

Показать авторов и правообладателей

27.07.2013

№216.012.5b33

Кодирующее устройство и способ генерирования потока данных

Изобретение описывает способ генерирования потока данных, где поток включает множество блоков закодированных данных. Блоки закодированных данных включают множество независимых блоков, включающих всю информацию для декодирования блока, и множество блоков, включающих только частичную информацию...

Тип: Изобретение

Номер охранного документа: 0002488968

Дата охранного документа: 27.07.2013

Показать авторов и правообладателей

20.08.2013

№216.012.6209

Устройство и способ определения множества локальных частотных центров тяжести в спектре аудиосигнала

Изобретение относится к области цифровой обработки звука. Технический результат заключается в усовершенствовании способа определения множества частот локальных центров тяжести спектра звукового сигнала с целью снижения его вычислительной трудоемкости. Такой результат достигается за счет того,...

Тип: Изобретение

Номер охранного документа: 0002490729

Дата охранного документа: 20.08.2013

Показать авторов и правообладателей

27.08.2013

№216.012.65a4

Способы и устройства для эффективного использования поэтапно передаваемой информации в кодировании и декодировании звука

Заявленное изобретение имеет отношение к кодированию звука и декодированию звука, в частности к схеме кодирования и декодирования, селективно извлекаемой и/или передаваемой фазовой информации, когда восстановление такой информации перцепционно релевантно. Технический результат - эффективно...

Тип: Изобретение

Номер охранного документа: 0002491657

Дата охранного документа: 27.08.2013

Показать авторов и правообладателей