VoIP

Общая схема работы интернет телефонии
1140E VoIP Phone

VoIP ( англ. voice over IP ) - технология передачи медиа данных в реальном времени с помощью семейства протоколов TCP / IP. IP-телефония - система связи, при которой аналоговый звуковой сигнал от одного абонента дискретизуеться (кодируется в цифровой вид), компрессия и пересылается по цифровым каналам связи до второго абонента, где производится обратная операция - декомпрессия, декодирования и воспроизведения аналогового сигнала.


1. Протоколы

Часть протоколов из семейства VoIP утверждается Интернет сообществом в качестве RFC ( англ. request for comments ), Часть - международными организациями ( IETF т.п.).

Основу технологии VoIP составляет протокол RTP (real time protocol, RFC 1889, RFC 3550), построенный этаж протоколов UDP / IP, а также протоколы (методы) кодирования медиа данных (для кодирования голоса эти протоколы G.711, G.723, G.729, GSM, Speex и другие, для кодирования видео это протоколы RFC??).

Существуют расширения (профили) протокола RTP, такие как SRTP (secure RTP) и другие (RFC 1890, RFC 2198, RFC 3711 и др.).


1.1. Протоколы IP телефонии

Протоколы обеспечивают регистрацию IP устройства (шлюз, терминал или IP телефон) на сервере или гейткипер провайдера, вызов и / или переадресацию вызова, установление голосового соединения, передачу имени и / или номера абонента. В настоящее время [ Когда? ] широкое распространение получили такие протоколы VoIP:

  • SIP - обеспечивает передачу голоса и для сигнализации обычно использует порт 5060 UDP
  • H.323 - протокол, более привязанный к системам традиционной телефонии, чем SIP, сигнализация по порт 1720 TCP
  • IAX2 - через 4569 UDP порт и сигнализация, и медиа
  • MGCP
  • SIGTRAN
  • SCTP
  • SGCP
  • Skinny / SCCP
  • Unistim - закрытый протокол передачи сигнального трафика в продуктах компании Nortel

2. Кодирования речевой информации

Источником информационных данных является речевой сигнал, возможной моделью которого является нестационарный случайный процесс. В первом приближении можно выделить следующие типы сигнальных фрагментов: вокализування, невокализування, переходные и паузы. При передаче речи в цифровой форме каждый тип сигнала при одной и той же длительности и одинаковом качестве требует различного числа бит для кодирования и передачи. Следовательно, скорость передачи разных типов сигнала может быть различной, что обусловливает применение кодеков с переменной скоростью. В результате передача речевых данных в каждом направлении дуплексного канала рассматривается как передача асинхронных логически самостоятельных фрагментов цифровых последовательностей (транзакций) с датаграммной синхронизацией внутри транзакции, наполненной блоками различной длины.

В основе кодека речи с переменной скоростью лежит классификатор входного сигнала, определяющий степень его информативности и, таким образом, задающий метод кодирования и скорость передачи речевых данных. Простым классификатором речевого сигнала является VAD ( англ. Voice Activity Detector , Детектор речевой активности), который выделяет во входном речевом сигнале активную речь и паузы. Фрагменты сигнала, классифицируемые как активная речь, кодируются каким-то из известных алгоритмов (как правило, на базе метода Code Excited Linear Prediction - CELP) с базовой скоростью 4 - 8 кбит / с. Фрагменты, классифицированные как паузы, кодируются и передаются с низкой скоростью порядка 0.1 - 0.2 Кбит / с, либо не передаются вообще. Когда срабатывает VAD, на приемной стороне может автоматически генерироваться так называемый "комфортный шум" чтобы у собеседника не возникало ощущения пропажи связи. При этом передачи минимальной информации о фрагментах пауз предпочтительна. Данная стратегия позволяет оптимизировать скорость кодирования 2 - 4 кбит / с при достаточном качестве языка синтезируется. При этом для особо критичных фрагментов речевого сигнала выделяется большая скорость передачи, для менее ответственных - меньше.

Вокодер вносит дополнительную задержку порядка 15 - 45 мс, возникающее по следующим причинам:

  • использование буфера для накопления сигнала и учета статистики последующих отсчетов (алгоритмическая задержка);
  • математические преобразования, выполняемые над речевым сигналом, требуют процессорного времени (вычислительная задержка).

Данную задержку необходимо учитывать при расчете сквозных задержек. Проведенный в различных исследовательских группах анализ качества передачи речевых данных через сеть Интернет показывает, что основным источником возникновения искажений, снижения качества и разборчивости синтезированной речи является прерывание потока речевых данных, вызванное:

  • потерями пакетов при передаче по сети связи;
  • превышением допустимого времени доставки пакета с речевыми данными.

Это требует решения задачи оптимизации задержек в сети и создание алгоритмов компрессии речи, устойчивых к потерям пакетов (восстановления потерянных пакетов).


2.1. Кодеки

Открыты:

  • GSM
  • G.711 uLaw иначе (Mu-law)
  • G.711 aLaw
  • G.722
  • G.726
  • Speex
  • iLBC

Проприетарные:

  • G.729
  • G.729A
  • G.723
  • G.723.1

3. Декодирования речевой информации

С учетом возможных потерь пакетов в сети для восстановления речевого потока на приемной стороне используется протокол реального времени - Real Time Protocol (RTP). В заголовке данного протокола, в частности, передаются временная метка и номер пакета. Эти параметры позволяют при минимальных задержках определить порядок и момент декодирования каждого пакета, а также интерполировать потерянные пакеты. Восстановленная последовательность, с возможными пропусками как одиночных пакетов, так и групп пакетов, поступает на декодер. Декодер должен обеспечить восстановление речевой информации, заполнение пауз фоновым шумом, а также эхо-компенсацию кодированного сигнала, обнаружения и детектирования телефонной сигнализации.


4. История

Возможность передачи голосовых сообщений через сеть с пакетной коммутацией впервые была реализована в 1993 году. Данная технология получила название VoIP (Voice over IP). Одним из отдельных приложений этой технологии IP-телефония - услуга по передаче телефонных разговоров абонентов по протоколу IP.

5. Преимущества и недостатки

Основными преимуществами технологии VoIP является сокращение требуемой полосы пропускания, что обеспечивается учетом статистических характеристик речевого трафика:

  • блокировкой передачи пауз (диалоговых, слоговых, смысловых и др.)., которые могут составлять до 40-50% времени занятости канала передачи;
  • высокой избыточностью речевого сигнала и его сжатием (без потери качества при восстановлении) до уровня 20-40% исходного сигнала.

С другой стороны трафик VoIP критичен к задержкам пакетов в сети, но толерантный (стоек) по потерям отдельных пакетов. Так потеря до 5% пакетов не приводит к ухудшению разборчивости речи.


6. Сноски


7. Ресурсы

8. Смотрите также