27 нояб. 2015 г.

Примеры декодирования и проигрывания аудио-файла в Linux

Здесь можно найти несколько примеров того, как декодировать и воспроизвести аудио-файл, с использованием разных библиотек.

Код доступен на github.

Каждый пример это небольшая программа. Примеры делятся на два типа:
  • decode: программа декодирует заданный файл и выводит сырые сэмплы в stdout;
  • play: программа читает сырые сэмплы из stdin и посылает в звуковую карту.

Разделение на два шага введено специально, чтобы продемонстрировать, как можно получить сырые сэмплы, и как их можно воспроизвести. Библиотеки вроде FFmpeg и SoX позволяют сделать это также и без промежуточного шага, если построить более сложный pipeline.

Сырые сэмплы на выходе/входе всех примеров имеют одинаковый формат:
  • два канала (front Left, front Right);
  • interleaved format (L R L R ...);
  • сэмплы это 32-битные float-ы в little endian;
  • частота сэмплирования 44100 Hz.

Примеры не выполняют конвертацию порядка байт на входе/выходе, так что будут работать только на little-endian архитектурах.


Пример запуска


Программы decode и play можно объединять через пайп. Допустимы любые комбинации, например:

$ ./ffmpeg_decode     cool_song.mp3   |  ./alsa_play_tuned
$ ./sox_decode_chain  cool_song.mp3   |  ./ffmpeg_play
$ ./sndfile_decode    cool_song.flac  |  ./sox_play


FFmpeg


ffmpeg_decode

  • открывает входной файл, ищет в нем аудио-стрим и открывает подходящий декодер;
  • инициализирует конвертер из формата входного файла (определенного автоматически) в выходной формат (2 канала, 32-битные флоаты);
  • читает пакеты из входного файла;
  • передает полученные пакеты декодер и получает из него декодированные фреймы;
  • передает декодированные фреймы в конвертер и получает из него выходные сэмплы;
  • пишет сэмплы в stdout.
Конвертер может выполнять буферизацию, если входных данных больше, чем выходных. Если аккуратно настроить размеры пакетов/фреймов, можно избежать буферизации.

ffmpeg_play

  • открывает устройство вывода ALSA;
  • настраивает формат вывода;
  • читает сэмплы из stdin, формирует из них пакеты и отправляет в устройство вывода.

ffmpeg_play_encoder

  • открывает устройство вывода ALSA;
  • настраивает формат вывода;
  • создает энкодер для выходного формата;
  • читает сэмплы из stdin, формирует из них фреймы и передает их в энкодер;
  • получает их энкодера пакеты и отправляет их в устройство вывода.

SoX


sox_decode_simple

  • открывает входной файл;
  • если входной формат (количество каналов, частота сэмплирования) отличается от выходного, завершается с ошибкой;
  • читает сэмплы из входного файла и пишет их в stdout.

sox_decode_chain

  • открывает входной файл и определяет входные параметры;
  • настраивает выходные параметры;
  • создает и запускает цепочку эффектов:
    • ввод: чтение входного файла;
    • ресемплинг (эффект включается, если входная и выходная частота сэмплирования отличаются);
    • ремаппинг каналов (эффект включается, если входные и выходные каналы отличаются);
    • вывод: вызов коллбэка для записи сэмплов в stdout.

sox_play

  • открывает устройство вывода ALSA (также можно заменить "alsa" на "pulseaudio");
  • читает сэмплы из stdin и пишет их в устройство вывода.

 

ALSA (libasound)


alsa_play_simple

  • открывает pcm;
  • устанавливает параметры в значения по-умолчанию;
  • читает сэмплы из stdin и отправляет в pcm.

alsa_play_tuned

  • открывает pcm;
  • устанавливает все доступные параметры;
  • читает сэмплы из stdin и отправляет в pcm.

Интерес представляют параметры, связанные с циклическим буфером. При записи данных в pcm, они добавляются в циклический буфер, из которого ALSA читает по таймеру.

Переполнение буфера называется "buffer overrun". Попытка чтения (со стороны ALSA, по таймеру) из пустого буфера называет "buffer underrun". Вместе эти события называются "xrun".

В частности, при возникновении buffer underrun, воспроизведение прекращается до вызова snd_pcm_recover(). Если софт все время не успевает добавить данные в буфер до того, как ALSA попытается их прочитать, пользователь будет слышать "заикания" и видеть в консоли сообщения про "alsa xrun".

Настройки циклического буфера:
  • buffer_size - количество сэмплов в циклическом буфере;
  • buffer_time - продолжительность всего буфера в микросекундах;
  • period_size - количество сэмплов, которое ALSA вычитывает из циклического буфера по тику таймера;
  • period_time - интервал таймера в микросекундах.
И связанные с ним:
  • start_threshold - перед стартом воспроизведения, ALSA не должна начитать вычитывать данные, пока в циклическом буфере не накопится start_threshold сэмплов;
  • avail_min - во время воспроизведения, ALSA не должна вычитывать данные, пока в циклическом буфере не накопится avail_min сэмплов.
Как выбирать значения для избежания buffer underrun:
  • period_size надо  установить равным размеру буферов, которые софт будет отправлять в pcm за одну запись; чем больше, тем меньше вероятность underrun и больше latency;
  • buffer_size надо установить кратным period_size и в несколько раз больше;
  • start_threshold разумно установить раным buffer_size; в этом случае, чем больше buffer_size, тем меньше вероятность underrun и больше latency;
  • avail_min разумно установить равным period_size.

libsndfile


sndfile_decode

  • открывает входной файл и получет его параметры;
  • если входной формат (количество каналов, частота сэмплирования) отличается от выходного, завершается с ошибкой;
  • читает сэмплы из входного файла и пишет их в stdout.

libsndfile очень компактная библиотека с простым API, но поддерживает только простые форматы, вроде WAV и FLAC. Возможности ограничиваются чтением/записью файлов, но для ресемплинга можно использовать libresample (SRC) от того же автора.

Замечания


SoX может использовать libsndfile как бэкенд. FFmpeg может использовать SoX для ресемплинга. И SoX, и FFmpeg поддерживают ALSA и pulseaudio, но утилиты FFmpeg выводят звук не через них, а через SDL.

Другие  библиотеки, для которых нет примеров:

Все библиотеки (и для которых есть примеры, и для которых нет) кроссплатформенные.

Icons made by Anton Saputro from www.flaticon.com is licensed by CC BY 3.0

Комментариев нет:

Отправить комментарий