Главная  Радио и связь 

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 [ 15 ] 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

чно долговременный предсказатель имеет порядок 1, т.е. - М2 = О, так что передаточная характеристика фильтра определяется единственным коэффициентом предсказания д и задержкой с/:

P(z) = A-gz-> .

Если на вход инверсного фильтра долговременного предсказания подается остаток кратковременного предсказания e, то на выходе получается остаток (ошибка) долговременного предсказания f, равный

Ошибка fn весьма близка к белому гауссовскому шуму, что облегчает экономичное формирование параметров сигнала возбуждения, о чем мы расскажем чуть ниже. Параметры долговременного предсказания g и d могут быть определены, например, из условия t минимизации среднеквадратического значения ошибки на некотором интервале, составляющем 20...25% от длительности передаваемого сегмента речи. Задержка d обычно заключается в пределах 20... 160 интервалов дискретизации сигнала, что соответствует диапазону частот основного тона 50...400 Гц. Передаточная характеристика R(z) долговременного фильтра-синтезатора обрат- на P(z) с точностью до скалярного коэффициента усиления F:

R(z) = F/P(z).

Сигнал возбуждения, аппроксимирующий (в смысле выхода фильтра-синтезатора) остаток долговременного предсказания f, моделируется в виде определенного числа импульсов на интервале кадра возбуждения {excitation frame), составляющего обычно 20...50% от длительности передаваемого сегмента речи. Для оценки параметров последовательности импульсов сигнала возбуждения существует несколько методов [162]. В методе многоимпульсного возбуждения {Multi-Pulse Excitation - МРЕ) оптимизируется как положение, так и амплитуды импульсов. В методе возбуждения регулярной последовательностью импульсов (Regular-Pulse Excitation - RPE) взаимное расположение импульсов предопределено заранее - используется сетка равноотстоящих импульсов, а оптимизируется расположение этой сетки в пределах кадра возбуждения (так как обычно число импульсов возбуждения в 3...4 раза меньше числа выборок в кадре) и амплитуды импульсов. В методе стохастического кодирования, или методе линейного предсказания с кодовым возбуждением (Code-Excited Linear Prediction -CELP), с разновидностью возбуждения векторной суммой (Vector Sum Excited Linear Prediction - VSELP), наиболее подходящий вектор возбуждения выбирается из заранее составленной кодовой книги, или кодового словаря, содержащего обычно 2, N - 7..Л0, квазислучайных векторов заданной длины с элементами, нормированными ПС "мплитуде; амплитуда вектора возбуждения кодирует-

ся отдельно в соответствии с громкостью передаваемого элемента речи. Наконец, известен эффективный метод возбуждения последовательностью бинарных импульсов с преобразованием (Transformed Binary Pulse Excitation - ТВРЕ), в котором сигналом возбуждения является последовательность равноотстоящих по времени и квазислучайных по знаку (с амплитудами ±1) импульсов, умноженных на некоторую матрицу преобразования. Ограничившись приведенными общими сведениями по методам формирования сигнала возбуждения, перейдем к рассмотрению конкретных схем кодеков речи стандартов D-AMPS и GSM.

В стандарте D-AMPS используется метод кодирования VSELP. Упрощенная блок-схема кодека представлена на рис. 2.38; по-существу, она является развитием и детализацией схемы рис. 2.37. Рассмотрим сначала схему кодера.

Блок предварительной обработки выполняет следующие функции:

- предварительную цифровую фильтрацию входного сигнала с целью подъема верхних частот, на долю которых в спектре речевого сигнала приходится меньшая мощность;

- нарезание сигнала на сегменты по 160 выборок (20 миллисекунд).

Затем для каждого 20-миллисекундного сегмента оцениваются параметры фильтра кратковременного линейного предсказания - 10 коэффициентов частичной корреляции kj, i = 1,...10 (порядок предсказания М = 10), которые непосредственно кодируются для выдачи в канал связи, без каких-либо дополнительных функциональных преобразований. Здесь же оценивается амплитудный множитель р, определяющий энергию сегмента речи.

Сигнал с выхода блока предварительной обработки фильтруется фильтром-анализатором кратковременного линейного предсказания в форме трансверсального линейного фильтра, для чего коэффициенты частичной корреляции к, преобразуются в коэффициенты линейного предсказания а,.

Выходной сигнал фильтра кратковременного предсказания (остаток предсказания е) используется для оценки параметров долговременного предсказания - задержки d и коэффициента предсказания д, причем параметры долговременного предсказания оцениваются в отдельности для каждого из четырех подсег-ментов по 40 выборок, на которые разделяется сегмент из 160 выборок.

Далее для каждого из подсегментов по 40 выборок определяются параметры сигнала возбуждения. Для этого в составе кодера используется схема, аналогичная входящей в состав декодера, которая включает фильтры-синтезаторы кратковременного и долговременного предсказания и две кодовые книги и реализует метод «анализа через синтез» (эта часть кодера на схеме рис.2.38 подробно не раскрыта). Каждая из кодовых книг сигнала возбуждения содержит 128 кодовых векторов, по 40 элементов в каждом.



Кодер

Предварительная обработка

Оценка параметров фильтра кратковр. предсказания

Оценка параметров

сигнала возбуждения

Фильтр-анализатор кратковр. предсказ. А(2)

Оценка параметров фильтра долговрем. предсказания


фильтр-синтезатор кратковр. предсказ. H(z)

фильтр-синтезатор долговр. предсказ. R(z)

Декодер

Кодовая книга 1

Кодовая книга 2

Рис.238. Упрощенная блок-схема кодека речи стандарта D-AMPS

Все кодовые векторы одной книги являются элементам! 7-мерного линейного подпространства 40-мерного пространства, натянутого на 7 базисных векторов, причем коэффициенты линейных комбинаций, задающих кодовые векторы через векторы базиса, имеют значения +1 или -1. Таким образом, каждая кодовая книга, содержащая 128 векторов, задается семью базисными векторами и 128 кодовыми словами (7-элементными векторами коэффициентов линейных комбинаций) с однобитовыми элементами.

Сигнал возбуждения фильтра-синтезатора кратковременного предсказания, в соответствии со схемой декодера на рис. 2.38, является суммой векторов возбуждения из двух кодовых книг и вектора с выхода фильтра-синтезатора долговременного предсказания (отсюда и название метода - «с возбуждением векторной суммой»), причем векторы возбуждения из кодовых книг до подачи на сумматор умножаются на соответствующие коэффициенты усиления у1 и У2. а входным сигналом фильтра-синтезатора долговре-

менного предсказания является, в зависимости от участка сегмента, выходной сигнал того же фильтра или суммарный сигнал возбуждения фильтра-синтезатора кратковременного предсказания. Параметры сигнала возбуждения - номера векторов возбуждения /, и /г из первой и второй кодовых книг и соответствующие коэффициенты усиления Yi и Y2 ~ определяются по критерию минимума среднеквадратической ошибки на выходе фильтра-синтезатора кратковременного предсказания, входящего в состав кодера. Предварительно базисные векторы обеих кодовых книг ортогона-лизуются: для первой книги - по отношению к выходному вектору фильтра-синтезатора долговременного предсказания, для второй книги - по отношению к тому же выходному вектору и к базисным векторам первой книги.

Следовательно, выходная информация кодера речи для 20-миллисекундного сегмента включает:

- параметры фильтра кратковременного линейного предсказания - 10 коэффициентов частичной корреляции

kj, / = 1.....10, и амплитудный множитель р - один набор на

весь сегмент;

- параметры фильтра долговременного линейного предсказания - коэффициент предсказания д и задержка d - для каждого из четырех подсегментов;

- параметры сигнала возбуждения - номера /i, /2 векторов возбуждения из двух кодовых книг и соответствующие коэффициенты усиления Y2 ~ для каждого из четырех подсегментов.

В табл. 2.6 приведена сводка выходной информации кодера с указанием числа бит, используемых для кодирования. Общий объем информации, выдаваемой для 20-миллисекундного сегмента речи, составляет 159 бит. Поскольку исходный объем информации на входе кодера составляет 1280 бит (160 выборок по 8 бит), кодер речи осуществляет сжатие информации более чем в 8 раз (1280 : 159 = 8,05). Перед выдачей в канал связи выходная информация кодера речи подвергается дополнительно канальному кодированию, причем разнью параметры, в зависимости от их важности для обеспечения качества передачи речи, кодируются с различной степенью избыточности. Более подробно этот вопрос будет рассмотрен в подразд. 2.4.4.4.

Рассмотрим схему декодера, что представляется теперь уже достаточно простым делом. Сигнал возбуждения фильтра-синтезатора кратковременного предсказания формируется таким.же образом, как и в синтезирующей схеме кодера: по номерам /7, /2 из кодовых книг выбираются векторы возбуждения, которые умножаются соответственно на коэффициенты yi. Y2 и складываются с вы-одным вектором фильтра-синтезатора долговременного предсказания, определяемого параметрами gf, d.



Таблица 2.6. Кодирование выходной информации кодера речи стан дарта D-AMPS

Передаваемые параметры

Число

Примечания

Параметры фильтра кратковременно-

А, - 6 бит; кг, a3 - по 5 бит;

го предсказания (коэффициенты час-

а4, >С5 - по 4 бита; kg...kg -

тичной корреляции ki, i= 1.....10)

по 3 бита; ко - 2 бита

Амплитудный множитель (энергия

сегмента) р

Задержка фильтра долговременного

7 бит на каждый подсег-

предсказания d (для каждого из че-

мент

тырех подсегментов)

Номера векторов возбуждения /г

;,,/г-по7 бит

из двух кодовых книг (для каждого из

четырех подсегментов)

Коэффициенты усиления д, у,, уг (Для

8 бит на каждый подсег-

каждого из четырех подсегментов)

мент; векторному квантова-

нию и кодированию под-

вергаются некоторые функ-

ции от д, у1,у2

Всего за 20-миллисекуидный сегмент


Далее сигнал возбуждения фильтруется фильтром-синтезатором кратковременного предсказания в форме трансверсального фильтра, т.е. параметры фильтра приходится преобразовывать -от коэффициентов частичной корреляции к, переходить к коэффициентам предсказания а,. Для улучшения субъективного качества синтезированной речи выходной сигнал фильтра-синтезатора подвергается цифровой адаптивной пост-фильтрации, и с выхода пост-фильтра получается восстановленный цифровой сигнал речи.

В стандарте GSM используется метод RPE-LTP (Regular Pulse Excited Long Term Predictor - линейное предсказание с возбуждением регулярной последовательностью импульсов и долговременным предсказателем). Упрощенная блок-схема кодека представлена на рис. 2.39.

Начнем с рассмотрения кодера. Блок предварительной об работки осуществляет:

- предыскажение входного сигнала при помощи цифро фильтра, подчеркивающего верхние частоты;

- нарезание сигнала на сегменты по 160 выборок (20 миллисекунд);

- взвешивание каждого из сегментов окном Хэмминга ( «косинус на пьедестале» - амплитуда сигнала плавно спадает от центра окна к краям).

s со i


о h-

©

п! i

h- со л т с; S

0 со if со

S с. © t

л со

03 т- о




0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 [ 15 ] 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40


0.0064