Как осуществляется кодирование в MP3 - О музыке и т.п. - Каталог статей

Добро пожаловать, Гость!

Регистрация недоступна • Вход

Меню

Понедельник, 25.08.2025

ARM-программисту требуется чайник с телефоном для тестирования эльфа с вирусом.

Меню сайта

Новости [Форум]
FAQ-ЧаВо Видеоуроки
Статьи Файлы Обои
Библиотека функций
Патчи Kibab Патчи e71.ru
Прошивки и сервис
Центр Данных
Комментарии Зал славы
Дневник Гостевая книга
О сайте О команде

Категории каталога

Хитрости и тюнинг [16]

Разное [5]

Мобильные технологии [14]

О музыке и т.п. [4]

FAQ'и [19]

История компании Siemens [5]

Наш опрос

Каталог статей

Начало » Статьи » О музыке и т.п.

Как осуществляется кодирование в MP3

Сначала исходный звуковой файл, например, формата PCM 16 бит @ 44 100 Гц, разбивается на множество равных частей - фреймов (секунда звука состоит из 77 фреймов для постоянных битрейтов), каждый из которых затем кодируется отдельно. Потоковость формата обеспечивается тем, что каждый фрейм абсолютно самодостаточен - для начала воспроизведения нужно получить первый. Оставшиеся можно создать по ходу дела, что удобно, например, для передачи компрессированной речи по узким каналам связи.

Такой процесс - когда фреймы передаются потоком - называется streaming. В наиболее же распространенном случае фреймы хранятся все сразу в одном MP3-файле, при этом в конце последовательности может добавляться специальный блок ID3, содержащий тэги (текстовую информацию об исполнителе, названии композиции, жанре произведения и т. д. В последней спецификации лирику и картинки например диска, исполнителя и тд.).

После того как исходный материал разбит на фреймы, каждый из них кодируется отдельно и, возможно, с разными параметрами (они прописываются в заголовке фрейма). В пределах каждого фрейма звуковой сигнал разбивается (с помощью фильтров) на несколько составляющих, лежащих в разных частотных диапазонах. Это аналогично тому, как мы представляем произвольный вектор, лежащий в трехмерном пространстве, в виде трех линейно независимых координат (X, Y, Z). В случае MP3 частотных диапазонов больше.

Далее сигнал каждого диапазона анализируется: если оказывается, что он маскируется сигналом предыдущего фрейма или сигналом соседнего частотного диапазона, то он не кодируется - им можно пренебречь (ключевое слово - "маскируется". Именно здесь и лежит весь смысл психоакустической модели, позволяющей осуществлять впечатляющую компрессию звука (в 5-10 раз) без заметной потери качества. Дело в том, что слух человека устроен таким образом, что мы попросту не услышим слабый звук скрипки, если рядом с ней в этот же момент выдаст мощное соло саксофон. Хотя в честно оцифрованной записи на компакт-диске будут присутствовать оба звука).

Далее, оставшиеся значимые сигналы анализируются на предмет того, сколькими битами на сэмпл можно пожертвовать при описании каждого из них, чтобы уровень потерь от этого дополнительного преобразования (удаление каждого бита приводит к увеличению шума квантования на ~ 6 дБ) не превышал бы максимально допустимого (опять же, с учетом маскирующего эффекта).

Итого, от исходной, явно избыточной информации остается только значимая, та, которая и формирует окончательный образ музыкального произведения в голове слушателя. Уровень приближения к оригиналу задается при кодировании - указанием битрейта. Если вы ужимаете звук до 32 кбит/с, алгоритм используется такой же, как и при кодировании в 320 кбит/с.

Не стоит забывать еще об одном параметре записи - частоте дискретизации.
Можно из PCM 16 бит @ 44 100 Гц получить файл MP3 с частотой дискретизации 32000 Гц, или 22050 Гц, и это здорово сэкономит место на диске. Но нужно учитывать тот факт, что понижение этого параметра соответствующим образом сжимает частотный диапазон и, кроме того, такая передискретизация сама по себе не идет на пользу качеству звука - дополнительные преобразования вносят и дополнительные искажения (относительно небольшие, но все же).

Кодирование стереозаписей
Теоретически, MP3 (в своем варианте MPEG 2 layer 3) позволяет записывать в одном файле и пятиканальное звуковое сопровождение (например, к DVD-фильму), но подавляющее большинство существующих записей представлены в виде традиционного стерео.

Существует несколько вариантов записи двухканального звука в MP3.

Dual Channel. Варианты: Dual Stereo, 2 Channel. Каналы полностью независимы. Каждый использует ровно половину битрейта. Рекомендуется, когда левый и правый каналы несут абсолютно независимую информацию (например, в левом - звуковое сопровождение фильма, а в правом - речь переводчика). Также это бескомпромиссный по качеству вариант для сложных музыкальных произведений на самых высоких битрейтах (320 кбит/с).
Stereo. В целом аналогично предыдущему случаю - каждый канал кодируется отдельно, но битрейт может расходоваться динамически. То есть, если в какой-то момент времени левый канал несет скудную звуковую информацию, часть его битрейта может быть отдана правому каналу, наполненному сложной музыкальной партией "под завязку". Выбор профессионала на битрейтах порядка 256 кбит/с. Возможно использование режима Stereo и на более низких битрейтах (128-160 кбит/с), особенно это оправдано в случаях заметных фазовых расхождений между каналами, когда Joint Stereo пасует.
Joint Stereo (MS Stereo). Из стереосигнала выделяется некий средний (Mid) сигнал, кодируемый большей частью битрейта, и разностный между каналами (Side) - для него отводится меньшая часть битрейта. Иногда это очень обоснованный метод, позволяющий максимально эффективно использовать емкость кодированного потока. Однако в случае фазового сдвига между каналами (который чаще всего встречается на оригиналах, изначально записанных на магнитофонную ленту), Joint Stereo MS резко сдает свои позиции - своеобразные фазовые искажения начинают просто резать слух. Вообще, даже при самых благоприятных условиях Joint Stereo, прямо скажем, не улучшает стереопанорамы.
Joint Stereo (MS/IS Stereo)Еще более упрощенный вариант предыдущего метода. Все также из исходного стереосигнала выделяется средний для обоих каналов. Но в некоторых частотных диапазонах вычисляется уже не разностный сигнал, а просто соотношение мощностей каналов (IntenSive). Это еще больше экономит место, но при этом полностью теряется фазовая информация, так как сигналы обоих каналов приводятся к одной фазе. Рекомендуется использовать в крайне тяжелых условиях низких битрейтов (64-96 кбит/с), в тех случаях, когда можно пожертвовать стереопанорамой в пользу общего качества звука.

Битрейт и качество
Многочисленными тестами с привлечением широкого круга экспертов было доказано следующее: человек в большинстве случаев не может заметить ухудшения качества при переходе от оригинала формата WAV (PCM, 16 бит @ 44 100 Гц) к копии, сжатой в MP3, 256 кбит/с, Stereo (это компрессия в 5,5 раз. Потому что 256 кбит/с - это 128 000 бит/с на один канал, а оригинал - 44 100 х 16 = 705 600 бит/сек. В данном случае килобит = 1000 бит. Максимально же доступный битрейт для формата MP3, обеспечивающий наибольшее приближение к оригиналу, равен 320 кбит/с, что означает компрессию в четыре с половиной раза).

Разумеется, прослушивания производились на аппаратуре самого высокого качества в специально приспособленных для этого условиях. Кодирование, естественно, производилось программами-кодерами, обеспечивающими максимально достижимое качество в рамках заданного битрейта. Правда, все это - с многочисленными оговорками. Если предоставить для прослушивания одновременно оригинал и сжатую копию, причем с возможностью переключаться между ними, опытный эксперт, скорее всего, найдет отличия (например, на струнных инструментах, которые, кстати говоря, немало теряют в качестве и при переходе с мастер-ленты на CD).

Однако если не говорить ему, какая из записей является оригиналом, он вряд ли сможет это определить - отличия не всегда означают ухудшение качества. И, наконец, если сравнивать не с чем, вряд ли хоть один эксперт сможет назвать формат хранения звука MP3, 256-320 кбит/с ущербным с точки зрения качества.

Просто при кодировании, за счет вмешательства психоакустической модели, звук немного меняется - можно сравнить это с изменением фотографии на мониторе при изменении цветовой температуры в меню с 9300 до 9000 К. Различия между этими режимами есть - однако поди ж ты скажи, что во втором случае картинка стала хуже. И попробуй, подойдя к другому монитору, определить, какой режим сейчас на нем стоит - 9300 или 9000 К.

Отличия от оригинала в сжатой копии всегда будут. Но вся соль психоакустики как раз состоит в том, что для человека они абсолютно несущественны (на высоких битрейтах). И все отличия, о которых говорится в предыдущем абзаце, настолько малы и настолько некритичны для восприятия, что представляют скорее теоретический интерес. Смена колонок на другую модель, например, даст куда большую разницу в звучании, чем переход от CD-Audio к MP3, 256 кбит/с, Stereo, сжатому хорошим кодером.

На средних битрейтах (диапазон от 160 до 192 кбит/с) ряд экспертов отмечает уже заметное на слух ухудшение качества.

При этом основные претензии высказываются вовсе не к частотному диапазону, и не к появлению каких-то шумов. В первую очередь страдает динамический диапазон записи и мелкие детали, находящиеся на грани слышимости. Это приводит к потере "кристальной чистоты звука" и "ощущения пространства" - термины трудно определимые, но очень точные. Одновременно с этим слегка ухудшается стереопанорама, что приводит к менее точной локализации источников звука и к общей смазанности звуковой сцены.

Наконец, на низких битрейтах (диапазон 96-128 кбит/с) начинается полный кошмар для уха аудиофила. Режим Joint Stereo, применение которого на данных битрейтах вполне оправдано, приводит либо к фазовым искажениям (своеобразная металлизированная "шепелявость", "мутации звука"), либо к смазанности стереопанорамы вместе с другими артефактами сильной компрессии (неестественность, "роботизированность" звука). При использовании режимов Stereo или Dual Channel на таких низких битрейтах уже элементарно не хватает информационной емкости потока для сохранения более-менее значимых сигналов из исходной записи. В результате качество хуже, чем при использовании Joint Stereo.

Сверхнизкие битрейты (32-64 кбит/с) годятся лишь для записи речи в монофоническом формате. С этой задачей они справляются неплохо.

Другие материалы по теме

Источник: http://www.computery.ru

Категория: О музыке и т.п. | Добавлено: tiano (15.05.2007) | Автор: Степан

Просмотров: 11579 | Рейтинг: 0.0

Всего комментариев: 0

Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]

Использование материалов сайта возможно только при согласовании с администрацией

Форма входа

Информация

Online-конференция сайта
siemensx85@ conference.jabber.ru

Последние версии
Библиотеки функций:
E71: 27.08.2010,
EL71: 10.06.2010

Мини-чат

Статистика

Онлайн всего: 1

Гостей: 1

Пользователей: 0

Новости: 322
Заметки: 30
Отзывы: 157
FAQ: 55 Статьи: 62
Файлы: 1373 Обои: 1286
Комментарии: 2696
Форум: 44356/1139