PDA

Просмотр полной версии : Передача голоса в полосе менее 1 кГц



ur8us
06.09.2009, 16:19
Радиолюбители уже давно работают над способами передачи голоса в узкой полосе частот. В частности, можно отметить статью "Narrow Band Voice Transmission" (http://www.qsl.net/vk5br/NarBandVoice.htm), где частоты 600-1500 Гц удаляются из звукового диапазона, а частоты 1500-2400 Гц сдвигаются, чтобы занять их место. Кроме того, голос научились передавать в цифровом виде (например, "FDMDV - Frequency Division Multiplex Digital Voice", http://n1su.com/fdmdv/, полоса 1100 Гц).

Кроме того, есть еще и совершенно маразматические и лженаучные способы передачи голоса и цифровых данных в сверхузкой полосе (например, VMSK - very minimum shift keying), но их лучше не касаться.

Вместо этого предлагаю поэкспериментировать над способом передачи аналогового сигнала, основанным на компрессии спектра сигнала. Наверное, многие заметили, что проигрыватель Windows Media Player имеет регулятор "Настройка скорости воспроизведения", с помощью которого можно менять скорость воспроизведения, оставляя неизменной высоту звука.

Аналогично можно изменять высоту, не меняя скорости. При этом, если, к примеру, высоту звука понизить на полторы октавы, это приведет к сжатию спектра примерно в три раза. В результате для голосового сигнала с достаточной для хорошей разборчивости шириной спектра в 3 кГц получим сигнал с шириной полосы всего 1 кГц.

На приемной стороне достаточно выполнить обратное действие - "растягивание" спектра.

Приложенные файлы иллюстрируют этот способ:

Передающая сторона:

1) 1.mp3 - исходный файл, 1.gif - его спектр (нарисован программой Audacity).
2) При помощи программы WinAmp с установленным плагином "Chronotron" высота снижена на полторы октавы (прогон через программу три раза, каждый раз снижая по пол-октавы).
3) Программой SigView (http://www.sigview.com/) отфильтрован 1 кГц, результат в файле 1L18F1000.mp3 (спектр показан на рис. 1L18F1000.gif).

Приемная сторона:

1) WinAmp-ом высота поднята на полторы октавы.
2) При помощи SigView отфильтрованы 3 килогерца. Файл 4R18F3000.mp3 содержит принятый и декодированный сигнал, 4R18F3000.gif - его спектр.

(SSB-передатчики и приемники обычно не позволяют транслировать частоты ниже 300 Гц - придется научить их это делать, или же переносить звуковой сигнал выше по частоте на передающей стороне и ниже на приемной.)

Какие есть идеи?

ur8us
06.09.2009, 16:20
Файл, который не удалось прицепить к предыдущему письму.

CAM
06.09.2009, 16:43
Если не стремиться передавать ФОРМУ сигнала, а только СМЫСЛОВУЮ информацию, то пользуются ВОКОДЕРОМ. Он позволяет сузить полосу канала до нескольких десятков герц. Но, при этом теряется индивидуальная окраска голоса. Для ее восстановления необходим анализ личных характеристик голоса и передача их отдельным файлом. Т.е. задача узкополосной передачи голоса решается чисто программными средствами: распознавание, передача смысла (фактически ТЕКСТА), восстановление естественного голоса... Способ же передачи цифровой информации по эфиру может быть любой, например BPSK.

ur8us
06.09.2009, 16:53
Если не стремиться передавать ФОРМУ сигнала, а только СМЫСЛОВУЮ информацию, то пользуются ВОКОДЕРОМ. Он позволяет сузить полосу канала до нескольких десятков герц. Но, при этом теряется индивидуальная окраска голоса. Для ее восстановления необходим анализ личных характеристик голоса и передача их отдельным файлом. Т.е. задача узкополосной передачи голоса решается чисто программными средствами: распознавание, передача смысла (фактически ТЕКСТА), восстановление естественного голоса... Способ же передачи цифровой информации по эфиру может быть любой, например BPSK.

Спасибо.

А по сути можно?

CAM
06.09.2009, 19:01
А по сути можно?
В радиолюбительской практике подобные методы передачи речевой информации пока не применяются. Есть только попытки подхода к проблеме.
Сложности:
Качественное распознавание речи.
Распознавание особенностей речи (темп, индивидуальная окраска...)
Восстановление живой речи по ее описанию.

ur8us
06.09.2009, 22:54
А по сути можно?
В радиолюбительской практике подобные методы передачи речевой информации пока не применяются. Есть только попытки подхода к проблеме.
Сложности:
Качественное распознавание речи.
Распознавание особенностей речи (темп, индивидуальная окраска...)
Восстановление живой речи по ее описанию.

Еще раз спасибо. :-)

R4ITU
07.09.2009, 20:53
Интересно. Надо поэкспериментировать . Но изначально подавать не голос, а свип или тест сигналы. Что-бы понять величину и качество потерь в спектре.

ur8us
07.09.2009, 21:35
Интересно. Надо поэкспериментировать . Но изначально подавать не голос, а свип или тест сигналы. Что-бы понять величину и качество потерь в спектре.

Отлично,

Будут результаты - пишите.

UA3GGP
08.09.2009, 01:36
Схемы NBVM в журнале Funkamateur публиковались с 1980 года. Не прижилось. Как мне кажется, не из-за усложнения аппаратуры, а потому, что мало кому нужно. Мне кажется, проще найти свободную частоту. :)

CAM
08.09.2009, 21:01
Денис! (UU9JDR) Правилно ли я понял цель открытия Вами этой темы - прощупывание общественного мнения по вопросу необходимости ПРОГРАММНОЙ реализации режекции и последующей "склейки" речевого спектра. Не сомневаюсь, что Вам эта задача вполне по плечу.

Не прижилось. Как мне кажется, не из-за усложнения аппаратуры, а потому, что мало кому нужно. Мне кажется, проще найти свободную частоту. :)Не прижилось потому, что это было в древнем 1980-м году и реализовывалось совсем не так, как можно сейчас.
На счет свободной частоты - я ставлю в своих постах нЕсколько иной акцент. Если удастся передать ЖИВУЮ речь в полосе в несколько десятков Герц, то это ЗНАЧИТЕЛЬНО повысит энергетические характеристики сигнала и позволит при той же мощности работать дальше (пример - PSK31)
Как Вы смотрите на решение этой проблемы (хотя бы в первом приближении без передачи индивидуальных характеристик речи)? Ведь есть уже программы распознающие речь, не говоря уже о синтезирующих. Объединить их "в одном стакане" - вот Вам и НОВАЯ МОДА!