кодирование звука и видео информатика
Урок 10
§14. Кодирование звука и видео
Содержание урока
Оцифровка звука
Оцифровка звука
Ключевые слова:

Как вы знаете, современные компьютеры обрабатывают только дискретные сигналы (двоичные коды). Поэтому для работы со звуком необходима звуковая карта — специальное устройство, которое полученный с микрофона аналоговый сигнал превращает в двоичный код. Это называется оцифровкой звукового сигнала.

Ситуация напоминает ту, с которой мы столкнулись при кодировании рисунка — любая линия состоит из бесконечного числа точек, поэтому, чтобы её закодировать, нужна бесконечная память. Здесь тоже придётся использовать дискретизацию — представить аналоговый сигнал в виде набора чисел, т. е. записать в память только значения сигнала в отдельных точках, взятых с некоторым шагом Т по времени (рис. 2.31).

Чем больше частота дискретизации, тем точнее мы записываем сигнал, тем меньше информации теряем и тем лучше будет качество звучания. Однако при этом возрастает количество данных и увеличивается объём файла, в котором хранится закодированный звук.
Как же выбрать оптимальную частоту при кодировании? Учёные установили, что частоту дискретизации нужно брать в два раза больше, чем максимальная частота колебаний сигнала, который мы хотим записывать.
Известно, что человек в среднем слышит только звуки (колебания воздуха или другой среды) с частотами от 16 Гц до 20 кГц, поэтому все частоты выше 20 кГц можно «потерять» практически без ухудшения качества звука (человек не почувствует разницу!). Поэтому достаточно использовать частоту дискретизации около 40 кГц, повышать её дальше нет смысла. Более низкие частоты дискретизации применяют тогда, когда важно всячески уменьшать объём звуковых данных (например, для трансляции радиопередач через Интернет), даже ценой ухудшения качества.
С помощью оцифровки можно закодировать любой звук, который принимает микрофон. Это единственный способ кодирования человеческого голоса и различных природных звуков (шума прибоя, шелеста листвы и т. п.).
Однако у этого метода есть и недостатки:
• при оцифровке звука всегда есть потеря информации (из-за дискретизации);
• звуковые файлы, полученные с помощью оцифровки, имеют, как правило, большой размер.
Используя дополнительные источники, выясните, какая частота дискретизации используется:
а) для того чтобы можно было распознать речь человека;
б) на звуковых компакт-дисках;
в) в фильмах формата DVD;
г) для высококачественного кодирования звука в формате DVD-audio.
Следующая страница 
Cкачать материалы урока
Информатика. 10 класс
Конспект урока
Информатика, 10 класс. Урок № 17.
Тема — Кодирование графической и звуковой информации
Большую часть информации человек получает с помощью зрения и слуха. Важность этих органов чувств обусловлена развитием человека как биологического вида, поэтому человеческий мозг с большой скоростью способен обрабатывать огромное количество графической и звуковой информации.
С появлением компьютеров возникла огромная потребность научить их обрабатывать такую информацию. Как же такую информацию может обработать компьютер?
Итак, кодирование графической информации осуществляется двумя различными способами: векторным и растровым
Программы, работающие с векторной графикой, хранят информацию об объектах, составляющих изображение в виде графических примитивов: прямых линий, дуг окружностей, прямоугольников, закрасок и т.д.
Достоинства векторной графики:
— Преобразования без искажений.
— Маленький графический файл.
— Рисовать быстро и просто.
— Независимое редактирование частей рисунка.
— Высокая точность прорисовки.
— Редактор быстро выполняет операции.
Недостатки векторной графики:
— Векторные изображения выглядят искусственно.
— Ограниченность в живописных средствах.
Программы растровой графики работают с точками экрана (пикселями). Это называется пространственной дискретизацией.
КОДИРОВАНИЕ РАСТРОВОЙ ГРАФИКИ
Давайте более подробно рассмотрим растровое кодирование информации.
Компьютер запоминает цвет каждой точки, а пользователь из таких точек собирает рисунок.
При этом зная количество пикселей по вертикале и горизонтали, мы сможем найти — разрешающую способность изображения.
Разрешающая способность находится по формуле:
где n, m — количество пикселей в изображении по вертикали и горизонтали.
В процессе дискретизации каждый пиксель может принимать различные цвета из палитры цветов. При этом зная количество цветов, которые можно использовать в палитре и воспользовавшись формулой Хартли, мы сможем найти количество информации, которое используется для кодирования цвета точки, что мы будем называть глубиной цвета.
где N — количество цветов в палитре;
Таким образом, чтобы найти вес изображения достаточно перемножить разрешающую способность изображения на глубину цвета: L=P*i.
Каким именно образом возможно закодировать пиксель? Для этого используются кодировочные палитры.
КОДИРОВОЧНАЯ ПАЛИТРА RGB
Когда художник рисует картину, цвета он выбирает по своему вкусу. Но цвет в компьютере надо стандартизировать, чтобы его можно было распознать. Поэтому надо определить, что такое каждый цвет.
В экспериментах по производству цветных стекол М. В. Ломоносов показал, что получить любой цвет возможно, используя три различных цвета.
Этот факт был обобщен Германом Грассманом в виде законов аддитивного синтеза цвета.
Давайте рассмотрим два из этих законов:
— Закон трехмерности. С помощью трех независимых цветов можно, смешивая их в однозначно определенной пропорции, выразить любой цвет.
— Закон непрерывности. При непрерывном изменении пропорции, в которой взяты компоненты цветовой смеси, получаемый цвет также меняется непрерывно.
Из биологии вы знаете, что рецепторы человеческого глаза делятся на две группы: палочки и колбочки. Палочки более чувствительны к интенсивности поступаемого света, а колбочки — к длине волны.
Если посмотреть, как распределяется количество колбочек по тому, на какую длину волны они «настроены», то количество колбочек «настроенных» на синий, красный и зеленый цвета окажется больше.
Поэтому такие цвета были взяты основными для построения цветовой модели, которая получила название RGB (Red, Green, Blue). То есть задавая количество любого из этих трех цветов, можно получить любой другой. Для кодирования каждого цвета было выделено 8 бит (режим True-Color). Таким образом, количество каждого цвета может изменяться от 0 до 255, часто это количество выражается в шестнадцатеричной системе счисления (от 0 до FF).
Так как описание цвета происходит определением трех величин, то это наводит на мысль считать их координатами точки в пространстве. Получается, что координаты цветов заполняют куб.
При этом яркость цвета определяется тем насколько близка к максимальному значению хотя бы одна координата из трех.
КОДИРОВАНИЕ ЗВУКОВОЙ ИНФОРМАЦИИ
Давайте перейдем к кодированию звуковой информации.
Из курса физики вам всем известно, что звук — это непрерывная волна с изменяющейся амплитудой и частотой.
Для того, чтобы компьютер мог обрабатывать непрерывный звуковой сигнал, он должен быть дискретизирован, т. е. превращен в последовательность электрических импульсов (двоичных нулей и единиц).
Для этого звуковая волна разбивается на отдельные временные участки.
Гладкая кривая заменяется последовательностью «ступенек». Каждой «ступеньке» присваивается значение громкости звука. Чем больше количество уровней громкости, тем больше количество информации будет нести значение каждого уровня и более качественным будет звучание. Причем, чем больше будет количество измерений уровня звукового сигнала в единицу времени, тем качественнее будет звучание. Эта характеристика называется частотой дискретизации Данная характеристика измеряется в Гц.
При этом на каждое измерение выделяется одинаковое количество бит. Такая характеристика называется — глубина кодирования.
Таким образом, чтобы подсчитать вес звуковой волны достаточно перемножить частоту дискретизации, глубины кодирования и времени звучания такого звука. При этом, рассматривая современное звучание, количество звуковых волн может быть различное, например, для стереозвука — это 2, а для квадрозвука — 4.
Кодирование звуковой информации
Звук – непрерывный сигнал. При двоичном кодировании аналогового звукового сигнала непрерывный сигнал дискретизируется, т.е. заменяется серией отдельных выборок с заданной периодичностью. Качество двоичного кодирования зависит от двух параметров: количества распознаваемых дискретных уровней сигнала и количества выборок в секунду. Периодичность выборок определяется частотой дискретизации. Оцифрованный звуковой сигнал соответствует исходному аналоговому сигналу в том случае, если частота дискретизации не меньше удвоенной частоты наивысшей гармоники этого исходного сигнала. Человек слышит звуки в диапазоне от 20 Гц до 20 кГц, поэтому максимальная частота дискретизации должна быть не менее 40 кГц.
Одновременно с дискретизацией осуществляется квантование отсчетов по амплитуде – измерение мгновенных значений амплитуды и преобразование их в цифровой код. Точность измерения зависит от количества разрядов кодового слова. При длине кодового слова 8 бит количество градаций амплитуды составляет 256, при 16 битах – 65 536. На рис. 1.2 показан процесс дискретизации и квантования аналогового сигнала 3-разрядными числами.
Для стереозвука дискретизация и квантование выполняются отдельно и независимо для левого и правого каналов. Для записи и воспроизведения звука в компьютерах исполь-
Рис. 1.2. Дискретизация по времени и квантование по уровню аналогового сигнала
зуются звуковые карты, которые обеспечивают 8- или 16-битные выборки.
Качество звука в дискретной форме может быть плохим (качество радиотрансляции) при 8 битах и 5,5 кГц и достаточно высоким (качество аудио-CD) при 16 битах и 44 кГц. Объем аудиофайла с длительностью звучания 1 с при хорошем качестве звука составит V = 16 бит • 44 000 = 88 Кбайт. Для уменьшения объема хранения аудиоинформации применяют методы компрессии (сжатия), уменьшающие объем без ухудшения качества до 20% первоначального.
При генерировании звучания различных музыкальных инструментов используются синтезаторы, применяющие такие методы, как метод частотной модуляции (FM-синтез) и таблицы волн (WT-синтез).
Кодирование видеоинформации
Видеоинформация формируется в результате организации потокового видео – последовательности «движущихся изображений». Оцифровка видеофрагмента связана с проблемами обеспечения очень больших скорости обмена и объема данных. Проблема повышения скорости обмена решается путем разработки быстродействующих накопителей данных. Для уменьшения объема данных, содержащихся в видеопотоке (до 9 Мб/с), для записи информации в ЭВМ обычно применяют кодирование со сжатием потока данных. Размер файла сжатого дискретного неподвижного изображения зависит от четырех параметров: площади изображения, разрешения, числа битов, необходимых для представления пикселя, и коэффициента сжатия. В видеофильме к этому еще добавляется число образующих его неподвижных изображений. Выбор коэффициента сжатия – компромисс между пропускной способностью системы и качеством восстанавливаемого изображения. Чем выше коэффициент сжатия, тем ниже качество изображения. Поэтому выбор указанных параметров обосновывается технико-экономическим анализом и алгоритмом сжатия.
Существует немало технологий сжатия/восстановления изображений. Наиболее популярная предложена объединенной группой экспертов в области фотографии (Joint Photographic Experts Group, JPEG) и позволяет сократить размеры графического файла в 10–12 раз. Для сжатия видеоинформации применяют технологию стандарта MPEG
(Motion Picture Expert Group). Алгоритм MPEG преобразует изображение η поток сжатых данных, учитывая то, что человек, видящий движущийся объект, сосредоточивает внимание на нем, а неподвижный фон воспринимает в меньшей степени. Это позволяет выделять меняющиеся и «замороженные» фрагменты в кадре: актер движется, а декорация не меняется, что позволяет экономить на размере информации, основную картинку оцифровать один раз, а далее фиксировать и передавать только изменения. Видеоформат MPEG-1, созданный в конце 1980-х гг. и использовавшийся в Video-CD, уступил место более качественному MPEG-2, а новый стандарт MPEG-4, разработанный фирмой Microsoft в 1999 г., и его модификация DivX позволили размещать видеофильм хорошего качества на обычном компакт-диске.
Мультимедиаинформация – сочетание текстовой, звуковой, графической, видеоинформации, представляемой на экране компьютера или мультимедиапроектора. Мультимедиаинформация обладает огромными объемами, поэтому сжимается программами сжатия, а перед воспроизведением восстанавливается, как говорят, «на лету» по мере поступления потока данных. Мультимедийные компьютерные программы позволяют формировать параллельные потоки информации: текстовой, визуальной и звуковой.
Кодирование для чайников, ч.1
Не являясь специалистом в обозначенной области я, тем не менее, прочитал много специализированной литературы для знакомства с предметом и прорываясь через тернии к звёздам набил, на начальных этапах, немало шишек. При всём изобилии информации мне не удалось найти простые статьи о кодировании как таковом, вне рамок специальной литературы (так сказать без формул и с картинками).
Статья, в первой части, является ликбезом по кодированию как таковому с примерами манипуляций с битовыми кодами, а во второй я бы хотел затронуть простейшие способы кодирования изображений.
0. Начало
Давайте рассмотрим некоторые более подробно.
1.1 Речь, мимика, жесты
1.2 Чередующиеся сигналы
В примитивном виде кодирование чередующимися сигналами используется человечеством очень давно. В предыдущем разделе мы сказали про дым и огонь. Если между наблюдателем и источником огня ставить и убирать препятствие, то наблюдателю будет казаться, что он видит чередующиеся сигналы «включено/выключено». Меняя частоту таких включений мы можем выработать последовательность кодов, которая будет однозначно трактоваться принимающей стороной.
1.3 Контекст
2. Кодирование текста
Текст в компьютере является частью 256 символов, для каждого отводится один байт и в качестве кода могут быть использованы значения от 0 до 255. Так как данные в ПК представлены в двоичной системе счисления, то один байт (в значении ноль) равен записи 00000000, а 255 как 11111111. Чтение такого представления числа происходит справа налево, то есть один будет записано как 00000001.
Итак, символов английского алфавита 26 для верхнего и 26 для нижнего регистра, 10 цифр. Так же есть знаки препинания и другие символы, но для экспериментов мы будем использовать только прописные буквы (верхний регистр) и пробел.
Тестовая фраза «ЕХАЛ ГРЕКА ЧЕРЕЗ РЕКУ ВИДИТ ГРЕКА В РЕЧКЕ РАК СУНУЛ ГРЕКА РУКУ В РЕКУ РАК ЗА РУКУ ГРЕКУ ЦАП».
2.1 Блочное кодирование
Информация в ПК уже представлена в виде блоков по 8 бит, но мы, зная контекст, попробуем представить её в виде блоков меньшего размера. Для этого нам нужно собрать информацию о представленных символах и, на будущее, сразу подсчитаем частоту использования каждого символа:
Кодирование изображений, звуковой и видеоинформации
Вы будете перенаправлены на Автор24
Кодирование изображений
Как и все виды информации, изображения в компьютере закодированы в виде двоичных последовательностей. Используют два принципиально разных метода кодирования, каждый из которых имеет свои достоинства и недостатки.
И линия, и область состоят из бесконечного числа точек. Цвет каждой из этих точек нам нужно закодировать. Техника формирования изображений из мелких точек является наиболее распространенной и называется растровой.
Представим себе, что на изображение наложена сетка, которая разбивает его на квадратики. Такая сетка называется растром. Теперь для каждого квадратика определим цвет.
У нас получился так называемый растровый рисунок, состоящий из квадратиков-пикселей.
Пиксель (англ. pixel = picture element, элемент рисунка) – это наименьший элемент рисунка, для которого можно задать свой цвет.
Разбив «обычный» рисунок на квадратики, мы выполнили его дискретизацию – разбили единый объект на отдельные элементы. Действительно, у нас был единый и неделимый рисунок. В результаты мы получили дискретный объект – набор пикселей.
Чтобы уменьшить потери информации, нужно уменьшать размер пикселя, то есть увеличивать разрешение.
Разрешение – это количество пикселей, приходящихся на дюйм размера изображения.
Готовые работы на аналогичную тему
Векторные изображения создаются только при помощи компьютера и формируются не из пикселей, а из графических примитивов (линий, многоугольников, окружностей и др.).
Например, чтобы записать на запоминающем устройстве векторное изображение круга, компьютеру достаточно в двоичный код закодировать тип объекта (окружность), координаты его центра на холсте, длину радиуса, толщину и цвет линии, цвет заливки.
В растровой системе пришлось бы кодировать цвет каждого пикселя. И если размер изображения большой, для его хранения понадобилось бы значительно больше места на запоминающем устройстве.
Тем не менее, векторный способ кодирования не позволяет записывать в двоичном коде реалистичные фото. Поэтому все фотокамеры работают только по принципу растровой графики. Рядовому пользователю иметь дело с векторной графикой в повседневной жизни приходится не часто.
Кодирование звуковой информации
Схему работы компьютера со звуком в общих чертах можно описать так. Микрофон превращает колебания воздуха в аналогичные по характеристикам электрических колебаний.
Динамики акустической системы или наушников имеют противоположное микрофону действие. Они превращают электрические колебания в колебания воздуха.
Принцип разделения звуковой волны на мелкие участки лежит в основе двоичного кодирования звука. Аудиокарта компьютера разделяет звук на очень мелкие временные участки и кодирует степень интенсивности каждого из них в двоичный код. Такое дробление звука на части называется дискретизацией.
В процессе кодирования звуковой информации непрерывный сигнал заменяется дискретным, то есть преобразуется в последовательность электрических импульсов, состоящих из двоичных нулей и единиц.
Качество записи зависит также от количества битов, используемых компьютером для кодирования каждого участка звука, полученного в результате дискретизации. Количество битов, используемых для кодирования каждого участка звука, полученного при дискретизации, называется глубиной звука.
Кодирование видеозаписи
Поскольку видеоинформация состоит из звуковой и графической компоненты, то и для обработки видеоматериалов требуется очень мощный персональный компьютер. Под обработкой видеоматериалов понимается процесс оцифровки, то есть кодирования видеоинформации.
Представим, что в нашем распоряжении есть какая-либо видеоинформация. Любую видеоинформацию можно дифференцировать, то есть разложить на две ключевые составляющие: звуковую и графическую. Следовательно, операция кодирования видеоинформации будет заключаться в сочетании операций кодирования звуковой информации и кодирования графической информации.
Кодирование звуковой дорожки видеофайла в двоичный код осуществляется по тем же алгоритмам, что и кодирование обычных звуковых данных. Принципы кодирования видеоизображения схожи с кодированием растровой графики, хотя и имеют некоторые особенности.
Учитывая эту особенность, алгоритмы кодирования видео, как правило, предусматривают запись лишь первого (базового) кадра. Каждый же последующий кадр формируются путем записи его отличий от предыдущего.
После проведения операции цифрования звука и изображений на выходе получается бинарный, двоичный код, который будет понятен процессору персонального компьютера. Именно в формате двоичного кода наша видеоинформация и будет храниться на электронных носителях.
Если мы захотим проиграть видеоконтент на нашем персональном компьютере или другом устройстве, то нам придется провести операцию восстановления информации, то есть осуществить преобразование информации, записанной в двоичном коде в формат понятный человеку.
Единственное, на чем хотелось бы акцентировать внимание, это на том, что при просмотре видеоинформации мы одновременно и видим «картинку» и слышим звук.
Чтобы добиться синхронного исполнения звука и смены графических изображений, процессор персонального компьютера выполняет эти операции в различных потоках. За счет этого происходит запараллеливание двух сигналов: звукового и графического, которые в совокупности образуют видеопоток.










