кодирование текстовой информации кодовые таблицы

Кодирование текстовой информации кодовые таблицы

Кодирование текстовой информации

Двоичное кодирование – один из распространенных способов представления информации. В вычислительных машинах, в роботах и станках с числовым программным управлением, как правило, вся информация, с которой имеет дело устройство, кодируется в виде слов двоичного алфавита.

Начиная с конца 60-х годов, компьютеры все больше стали использоваться для обработки текстовой информации, и в настоящее время основная доля персональных компьютеров в мире (и большая часть времени) занята обработкой именно текстовой информации. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется алфавит мощностью два (всего два символа 0 и 1). Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1).

С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа «=», «(«, «&» и т.п. и даже (обратите особое внимание!) пробелы между словами.

Тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные нам буквы, цифры, знаки препинания и другие символы. В оперативную память они попадают в двоичном коде. Это значит, что каждый символ представляется 8-разрядным двоичным кодом.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

В процессе вывода символа на экран компьютера произ­водится обратный процесс — декодирование, то есть преоб­разование кода символа в его изображение. Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой табли­це.

Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу. Понятно, что это дело условное, можно придумать множество способов кодировки.

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.

Виды таблиц кодировок

Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.

Для разных типов ЭВМ используются различные таблицы кодировки.

Таблица кодов ASCII делится на две части.

Международным стандартом является лишь первая половина таблицы, т.е. символы с номерами от 0 (00000000), до 127 (01111111).

Структура таблицы кодировки ASCII

Символы с номерами от 0 до 31 принято называть управляющими.

Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п.

Стандартная часть таблицы (английский). Сюда входят строчные и прописные буквы латинского алфавита, десятичные цифры, знаки препинания, всевозможные скобки, коммерческие и другие символы.

Все остальные отражаются определенными знаками.

Альтернативная часть таблицы (русская).

Вторая половина кодовой таблицы ASCII, называемая кодовой страницей (128 кодов, начиная с 10000000 и кончая 11111111), может иметь различные варианты, каждый вариант имеет свой номер.

Кодовая страница в первую очередь используется для размещения национальных алфавитов, отличных от латинского. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Обращается внимание на то, что в таблице кодировки буквы (прописные и строчные) располагаются в алфавитном порядке, а цифры упорядочены по возрастанию значений. Такое соблюдение лексикографического порядка в расположении символов называется принципом последовательного кодирования алфавита.

Для букв русского алфавита также соблюдается принцип последовательного кодирования.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

К сожалению, в настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows. MS-DOS, Macintosh и ISO). Из-за этого часто возникают проблемы с переносом русского текста с одного компьютера на другой, из одной программной системы в другую.

Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 («Код обмена информацией, 8-битный»). Эта кодировка применялась еще в 70-е годы на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

От начала 90-х годов, времени господства операционной системы MS DOS, остается кодировка CP866 («CP» означает «Code Page», «кодовая страница»).

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251. Введена компанией Microsoft; с учетом широкого распространения операционных систем (ОС) и других программных продуктов этой компании в Российской Федерации она нашла широкое распространение.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

Внутреннее представление слов в памяти компьютера

с помощью таблицы ASCII

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Таким образом, каждая кодировка задается своей собственной кодовой таблицей. Как видно из таблицы, одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы.

Н апример, последовательность числовых кодов 221, 194, 204 в кодировке СР1251 образует слово «ЭВМ» (Рис. 10), тогда как в других кодировках это будет бессмысленный набор символов.

К счастью, в большинстве случаев пользователь не должен заботиться о перекодировках текстовых документов, так как это делают специальные программы-конверторы, встроенные в приложения.

Источник

Информатика. 10 класс

Конспект урока

Информатика, 10 класс. Урок № 14.

Тема — Кодирование текстовой информации

Цели и задачи урока:

— познакомиться со способами кодирования и декодирования текстовой информации с помощью кодовых таблиц и компьютера;

— познакомиться со способом определения информационного объема текстового сообщения;

— познакомиться с алгоритмом Хаффмана.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Вся информация в компьютере хранится в двоичном коде. Поэтому надо научиться преобразовывать символы в двоичный код.

Формула Хартли определяет количество информации в зависимости от количества возможных вариантов:

N — это количество вариантов,

i — это количество бит, не обходимых для кодирования.

Если же мы преобразуем эту формулу и примем за N — количество символов в используемом алфавите (назовем это мощностью алфавита), то мы поймем, сколько памяти потребуется для кодирования одного символа.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

i — кол-во бит, потребуемых для кодирования

Итак, если в нашем алфавите будет присутствовать только 32 символа, то каждый из них займет только 5 бит.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

И тогда каждому символу мы дадим уникальный двоичный код. Такую таблицу мы будем назвать кодировочной.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Первая широко используемая кодировочная таблица была создана в США и называлась ASCII, что в переводе означало American standard code for information interchange. Как вы видите, в таблице присутствуют не только латинские буквы, но и цифры, и даже действия. Каждому символу отводится 7 бит, а значит, всего было закодировано 128 символов.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Но так как этого количества было недостаточно, стали создаваться другие таблицы, в которых можно было закодировать и другие символы. Например, таблица Windows-1251, которая, по сути, являлась изменением таблицы ASCII, в которую добавили буквы кириллицы. Таких таблиц было создано множество: MS-DOS, КОИ-8, ISO, Mac и другие:

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Проблема использования таких различных таблиц приводила к тому, что текст, написанный на одном компьютере, мог некорректно читаться на другом. Например:

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Поэтому была разработана международная таблица кодировки Unicode, включающая в себя как символы английского, русского, немецкого, арабского и других языков. На каждый символ в такой таблице отводится 16 бит, то есть она позволяет кодировать 65536 символов. Однако использование такой таблицы сильно «утяжеляет» текст. Поэтому существуют различные алгоритмы неравномерной кодировки текста, например, алгоритм Хаффмана.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Идея алгоритма Хаффмана основана на частоте появления символа в последовательности. Символ, который встречается в последовательности чаще всего, получает новый очень маленький код, а символ, который встречается реже всего, получает, наоборот, очень длинный код.

Пусть нам дано сообщение aaabcbeeffaabfffedbac.

Чтобы узнать наиболее выгодный префиксный код для такого сообщения, надо узнать частоту появления каждого символа в сообщении.

Подсчитайте и внесите в таблицу частоту появления каждого символа в сообщении:

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

У вас должно получиться:

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Расположите буквы в порядке возрастания их частоты.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Теперь возьмем два символа с наименьшей чистотой и представим их листьями в дереве, частота которого будет равна сумме частот этих листьев.

Символы d и c превращаются в ветку дерева:

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Проделываем эти шаги до тех пор, пока не получится дерево, содержащее все символы.

Итак, сортируем таблицу:

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Объединяем символ e и символ cd в ветку дерева:

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Получился префиксный код. Теперь осталось расставить 1 и 0. Пусть каждая правая ветвь обозначает 1, а левая — 0.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Составляем код буквы, идя по ветке дерева от буквы к основанию дерева.

Тогда код для каждой буквы будет:

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Закодируйте ASCII кодом слово MOSCOW.

Составим таблицу и поместим туда слово MOSCOW. Используя таблицу ASCII кодов, закодируем все буквы слова:

Источник

Краткое объяснение кодирования текстовой информации. Информатика

Содержание:

Кодирование текстовой информации — очень распространенное явление. Один и тот же текст может быть закодирован в нескольких форматах. Принято считать, что кодирование текстовой информации появилось с приходом компьютеров. Это и так и не так одновременно. Кодировка в том виде, в котором мы ее знаем, действительно к нам пришла с приходом компьютеров. Но над самим процессом кодирования люди бьются уже много сотен лет. Ведь, по большому счету, сама письменность уже является способом закодировать человеческую речь, для ее дальнейшего использования. Вот и получается, что любая окружающая нас информация никогда не бывает представленной в чистом виде, потому что она уже каким-то образом закодирована. Но сейчас не об этом.

Кодирование текстовой информации

Самый распространенный способ кодирования текстовой информации — это ее двоичное представление, которое сплошь и рядом используется в каждом компьютере, роботе, станке и т. д. Все кодируется в виде слов в двоичном представлении.

Сама технология двоичного представления информации зародилась еще задолго до появления первых компьютеров. Среди первых устройств, которые использовали двоичный метод кодирования, был аппарат Бодо — телеграфный аппарат, который кодировал информацию в 5 битах в двоичном представлении. Суть кодировки заключалась в простой последовательности электрических импульсов:

В компьютерный мир такая кодировка пришла вместе с персонализацией самих компьютеров. То есть в первых компьютерах не было такой кодировки. Но как только компьютеры стали уходить «в массы», то резко обнаружилась потребность обрабатывать компьютерами большое количество именно текстовой информации, которую нужно было как-то кодировать. Тенденция обрабатывать большое количество текстовой информации сохранилась и в современных устройствах.

Так получилось, что двоичное кодирование в компьютерах связано только с двумя символами «0» и «1», которые выстраиваются в определенной логической последовательности. А сам язык подобной кодировки стал называться машинным.

Кодирование текстовой информации и компьютеры

Для справки. Есть уникальный язык программирования, который в качестве своих операторов использует только пробелы, табуляции и переносы строки. Практического применения этот язык не имеет, но он есть.

Мы вводим текст в компьютер при помощи клавиатуры, символы которой мы прекрасно понимаем. Нажимая на какую-то букву, мы отправляем в оперативную память компьютера двоичное представление нажатых клавиш. Каждый отдельный символ будет представлен 8-битной кодировкой. Например буква «А» — это «11000000». Получается, что один символ — это 1 байт или 8 бит. При такой кодировке, путем нехитрых подсчетов можно посчитать, что мы можем зашифровать 256 символов. Для кодирования текстовой информации данного количества символов более чем предостаточно.

Кодирование текстовой информации в компьютерных устройствах сводится к тому, что каждому отдельному символу присваивается уникальное десятичное значение от 0 и до 255 или его эквивалент в двоичной форме от 00000000 и до 11111111. Люди могут различать символы по их внешнему виду, а компьютерное устройство только по их уникальному коду.

Рассмотрите, как происходит процесс. Мы нажимаем нужный нам символ на клавиатуре, ориентируясь на их внешний вид. В оперативную память компьютера он попадает в двоичном представлении, а когда компьютер его выводит нам на экран, то происходит процесс декодирования, чтобы мы увидели знакомый нам символ.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Кодирование текстовой информации и таблицы кодировок

Таблица кодировки — это место, где прописано какому символу какой код относится. Все таблицы кодировки являются согласованными — это нужно, чтобы не возникало путаницы между документами, закодированными по одной таблице, но на разных устройствах.

На сегодняшний день существует множество таблиц кодировок. Из-за этого часто возникают проблемы с переносом текстовых документов между устройствами. Так получается, что если текстовая информация была закодирована по одной какой-то таблице, то и раскодирована она может быть только по этой таблице. Если попытаться раскодировать другой таблицей, то в результате получим только набор непонятных символов, но никак не читабельный текст.

Источник

Глава 3

Кодирование текстовой и графической информации

3.1. Кодирование текстовой информации

При вводе текстовой информации в компьютер символы (буквы, цифры, знаки) кодируются с помощью различных кодовых систем, которые состоят из набора кодовых таблиц, размещенных на соответствующих страницах стандартов для кодирования текстовой информации. В таких таблицах каждому символу присваивается определенный числовой код в шестнадцатеричной или десятичной системе счисления, т. е. кодовые таблицы отражают соответствие между изображениями символов и числовыми кодами и предназначены для кодирования и декодирования текстовой информации. При вводе текстовой информации с помощью клавиатуры компьютера каждый вводимый символ подвергается кодированию, т. е. преобразуется в числовой код, при выводе текстовой информации на устройство вывода компьютера (дисплей, принтер или плоттер) по числовому коду символа строится его изображение. Присвоение символу определенного числового кода является результатом соглашения между соответствующими организациями разных стран. В настоящее время нет единой универсальной кодовой таблицы, удовлетворяющей буквам национальных алфавитов разных стран.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Рис 3.1. Международная часть кодовой таблицы (стандарт ASCII) с номерами ячеек, представленных в десятичной (а) и шестнадцатеричной (б) системе счисления

Национальная часть кодовых таблиц содержит коды национальных алфавитов, которую называют также таблицей наборов символов (charset).

В настоящее время для поддержки букв русского алфавита (кириллицы) существует несколько кодовых таблиц (кодировок), которые используются различными операционными системами, что является существенным недостатком и в ряде случаев приводит к проблемам, связанным с операциями декодирования числовых значений символов. В табл. 3.1 приведены названия кодовых страниц (стандартов), на которых размещены кодовые таблицы (кодировки) кириллицы.

Таблица 3.1кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Одним из первых стандартов кодирования кириллицы на компьютерах был стандарт КОИ8-Р. Национальная часть кодовой таблицы этого стандарта приведена на рис. 3.2.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Рис. 3.2. Национальная часть кодовой таблицы стандарта КОИ8-Р

В настоящее время применяется и кодовая таблица, размещенная на странице СР866 стандарта кодирования текстовой информации, которая используется в операционной системе MS DOS или сеансе работы MS DOS для кодирования кириллицы (рис. 3.3, а).

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Рис. 3.3. Национальная часть кодовой таблицы, размещенная на странице СР866 (а) и на странице СР1251 (б) стандарта кодирования текстовой информации

В настоящее время для кодирования кириллицы наибольшее распространение получила кодовая таблица, размещенная на странице СР1251 соответствующего стандарта, которая используется в операционных системах семейства Windows фирмы Microsoft (рис. 3.2, б). Во всех представленных кодовых таблицах, кроме таблицы стандарта Unicode, для кодирования одного символа отводится 8 двоичных разрядов (8 бит).

В конце прошлого века появился новый международный стандарт Unicode, в котором один символ представляется двухбайтовым двоичным кодом. Применение этого стандарта – продолжение разработки универсального международного стандарта, позволяющего решить проблему совместимости национальных кодировок символов. С помощью данного стандарта можно закодировать 2 16 = 65536 различных символов. На рис. 3.4 приведена кодовая таблица 0400 (русский алфавит) стандарта Unicode.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Рис. 3.4. Кодовая таблица 0400 стандарта Unicode

Поясним сказанное, касающееся кодирования текстовой информации, на примере.

Закодировать слово «Компьютер» в виде последовательности десятичных и шестнадцатеричных чисел, используя кодировку СР1251. Какие символы будут отображены в кодовых таблицах СР866 и КОИ8-Р при использовании полученного кода.

Последовательности шестнадцатеричного и двоичного кода слова «Компьютер» на основе кодировочной таблицы СР1251 (см. рис. 3.3, б) будут выглядеть следующим образом:

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Данная кодовая последовательность в кодировках СР866 и КОИ8-Р приведет к отображению следующих символов:

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Для преобразования русскоязычных текстовых документов из одного стандарта кодирования текстовой информации в другой используются специальные программы – конверторы. Конверторы обычно встраиваются в другие программы. Примером может служить программа браузер – Internet Explorer (IE), которая имеет встроенный конвертор. Программа браузер – это специальная программа для просмотра содержимого Web-страниц в глобальной компьютерной сети Интернет. Воспользуемся этой программой для подтверждения полученного в примере 3.1 результата отображения символов. Для этого выполним следующие действия.

1. Запустим программу Блокнот (NotePad). Программа Блокнот в операционной системе Windows ХР запускается с помощью команды: [Кнопка Пуск – Программы – Стандартные – Блокнот]. В открывшемся окне программы Блокнот напечатаем слово «Компьютер» с использованием синтаксиса языка разметки гипертекстовых документов – HTML (Hyper Text Markup Language). Этот язык используется для создания документов в Интернете. Текст должен выглядеть следующим образом:

Компыотер

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Рис. 3.5. Отображение текста в окне Блокнот

Сохраним этот текст, выполнив команду: [Файл – Сохранить как…] в соответствующей папке компьютера, при сохранении текста файлу присвоим имя – Прим, с расширением файла. html.

2. Запустим программу Internet Explorer, выполнив команду: [Кнопка Пуск – Программы – Internet Explorer]. При запуске программы появится окно, представленное на рис. 3.6

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Рис. 3.6. Окно доступа в автономный режим

Выберем и активизируем кнопку Автономно при этом не произойдет подключение компьютера к глобальной сети Интернет. Появится основное окно программы Microsoft Internet Explorer, представленное на рис. 3.7.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Рис. 3.7. Основное окно Microsoft Internet Explorer

Выполним следующую команду: [Файл – Открыть], появится окно (рис. 3.8), в котором необходимо указать имя файла и нажать кнопку ОК или нажать кнопку Обзор… и найти файл Прим.html.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Рис. 3.8. Окно «Открыть»

Основное окно программы Internet Explorer примет вид, показанный на рис. 3.9. В окне отобразится слово «Компьютер». Далее, используя верхнее меню программы Internet Explorer, выполним следующую команду: [Вид – Кодировка – Кириллица (DOS)]. После выполнения этой команды в окне программы Internet Ехplorer отобразятся символы, показанные на рис. 3.10. При выполнении команды: [Вид – Кодировка – Кириллица (KOI8-R) ] в окне программы Internet Explorer отобразятся символы, показанные на рис. 3.11.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Рис. 3.9. Символы, отображаемые при кодировке СР1251

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Рис. 3.10. Символы, отображаемые при включении кодировки СР866 для кодовой последовательности, представляемой в кодировке СР1251

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Рис. 3.11. Символы, отображаемые при включении кодировки КОИ8-Р для кодовой последовательности, представляемой в кодировке СР1251

Таким образом, полученные с помощью программы Internet Explorer последовательности символов совпадают с последовательностями символов, полученных с помощью кодовых таблиц СР866 и КОИ8-Р в примере 3.1.

3.2. Кодирование графической информации

Графическая информация, представленная в виде рисунков, фотографий, слайдов, подвижных изображений (анимация, видео), схем, чертежей, может создаваться и редактироваться с помощью компьютера, при этом она соответствующим образом кодируется. В настоящее время существует достаточно большое количество прикладных программ для обработки графической информации, но все они реализуют три вида компьютерной графики: растровую, векторную и фрактальную.

Если более пристально рассмотреть графическое изображение на экране монитора компьютера, то можно увидеть большое количество разноцветных точек (пикселов – от англ. pixel, образованного от picture element – элемент изображения), которые, будучи собраны вместе, и образуют данное графическое изображение. Из этого можно сделать вывод: графическое изображение в компьютере определенным образом кодируется и должно быть представлено в виде графического файла. Файл является основной структурной единицей организации и хранения данных в компьютере и в данном случае должен содержать информацию о том, как представить этот набор точек на экране монитора.

Файлы, созданные на основе векторной графики, содержат информацию в виде математических зависимостей (математических функций, описывающих линейные зависимости) и соответствующих данных о том, как построить изображение объекта с помощью отрезков линий (векторов) при выводе его на экран монитора компьютера.

Файлы, созданные на основе растровой графики, предполагают хранение данных о каждой отдельной точке изображения. Для отображения растровой графики не требуется сложных математических расчетов, достаточно лишь получить данные о каждой точке изображения (ее координаты и цвет) и отобразить их на экране монитора компьютера.

В процессе кодирования изображения производится его пространственная дискретизация, т. е. изображение разбивается на отдельные точки и каждой точке задается код цвета (желтый, красный, синий и т. д.). Для кодирования каждой точки цветного графического изображения применяется принцип декомпозиции произвольного цвета на основные его составляющие, в качестве которых используют три основных цвета: красный (английское слово Red, обозначают буквой К), зеленый (Green, обозначают буквой G), синий (Blue, обозначают букой В). Любой цвет точки, воспринимаемый человеческим глазом, можно получить путем аддитивного (пропорционального) сложения (смешения) трех основных цветов – красного, зеленого и синего. Такая система кодирования называется цветовой системой RGB. Файлы графических изображений, в которых применяется цветовая система RGB, представляют каждую точку изображения в виде цветового триплета – трех числовых величин R, G и В, соответствующих интенсивностям красного, зеленого и синего цветов. Процесс кодирования графического изображения осуществляется с помощью различных технических средств (сканера, цифрового фотоаппарата, цифровой видеокамеры и т. д.); в результате получается растровое изображение. При воспроизведении цветных графических изображений на экране цветного монитора компьютера цвет каждой точки (пикселя) такого изображения получается путем смешения трех основных цветов R,G и B.

Качество растрового изображения определяется двумя основными параметрами – разрешением (количеством точек по горизонтали и вертикали) и используемой палитрой цветов (количеством задаваемых цветов для каждой точки изображения). Разрешение задается указанием числа точек по горизонтали и по вертикали, например 800 на 600 точек.

Между количеством цветов, задаваемых точке растрового изображения, и количеством информации, которое необходимо выделить для хранения цвета точки, существует зависимость, определяемая соотношением (формула Р. Хартли) :

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

где I – количество информации; N – количество цветов, задаваемых точке.

Количество информации, необходимое для хранения цвета точки, называют также глубиной цвета, или качеством цветопередачи.

Так, если количество цветов, задаваемых для точки изображения, N = 256, то количество информации необходимое для ее хранения (глубина цвета) в соответствии с формулой (3.1) будет равно I = 8 бит.

В компьютерах для отображения графической информации используются различные графические режимы работы монитора. Здесь необходимо отметить, что кроме графического режима работы монитора есть также текстовый режим, при котором экран монитора условно разбивается на 25 строк по 80 символов в строке. Эти графические режимы характеризуются разрешением экрана монитора и качеством цветопередачи (глубиной цвета). Для установки графического режима экрана монитора в операционной системе MS Windows ХР необходимо выполнить команду: [Кнопка Пуск – Настройка – Панель управления – Экран]. В появившемся диалоговом окне «Свойства: Экран» (рис. 3.12) необходимо выбрать вкладку «Параметры» и с помощью ползунка «Разрешение экрана» выбрать соответствующее разрешение экрана (800 на 600 точек, 1024 на 768 точек и т. д.). С помощью раскрывающегося списка «Качество цветопередачи» можно выбрать глубину цвета – «Самое высокое (32 бита)», «Среднее (16 бит)» и т. д., при этом количество цветов, задаваемых каждой точке изображения, будет соответственно равно 2 32 (4294967296), 2 16 (65536) и т. д.

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

Рис. 3.12. Диалоговое окно «Свойства: Экран»

Для реализации каждого из графических режимов экрана монитора необходим определенный информационный объем видеопамяти компьютера. Необходимый информационный объем видеопамяти (V) определяется из соотношения

кодирование текстовой информации кодовые таблицы. Смотреть фото кодирование текстовой информации кодовые таблицы. Смотреть картинку кодирование текстовой информации кодовые таблицы. Картинка про кодирование текстовой информации кодовые таблицы. Фото кодирование текстовой информации кодовые таблицы

где К – количество точек изображения на экране монитора (К = А · В); А – количество точек по горизонтали на экране монитора; В – количество точек по вертикали на экране монитора; I – количество информации (глубина цвета).

Так, если экран монитора имеет разрешающую способность 1024 на 768 точек и палитру, состоящую из 65 536 цветов, то глубина цвета в соответствии с формулой (3.1) составит I = log265 538 = 16 бит, количество точек изображения будет равно: К = 1024 х 768 = 786432, и требуемый информационный объем видеопамяти в соответствии с (3.2) будет равен

V = 786432 · 16 бит = 12582912 бит = 1572864 байт = 1536 Кбайт = 1,5 Мбайт.

В заключение необходимо заметить, что кроме перечисленныхарактеристик важнейшими характеристиками монитора являются геометрические размеры его экрана и точки изображения. Геометрические размеры экрана задаются величиной диагонали монитора. Величина диагонали мониторов задается в дюймах (1 дюйм = 1″ = 25,4 мм) и может принимать значения, равные: 14″, 15″, 17″, 21″ т. д. Современные технологии производства мониторов могут обеспечить размер точки изображения равный 0,22 мм.

Таким образом, для каждого монитора существует физически максимально возможная разрешающая способность экрана, определяемая величиной его диагонали и размером точки изображения.

Упражнения для самостоятельного выполнения

1. С помощью программы MS Excel преобразовать кодовые таблицы ASCII, СР866, СР1251, КОИ8-Р к таблицам вида: в ячейки первого столбца таблиц записать в алфавитном порядке заглавные, а затем строчные буквы латиницы и кириллицы, в ячейки второго столбца – соответствующие буквам коды в десятичной системе счисления, в ячейки третьего столбца – соответствующие буквам коды в шестнадцатеричной системе счисления. Значения кодов необходимо выбрать из соответствующих кодовых таблиц.

2. Закодировать и записать в виде последовательности чисел в десятичной и шестнадцатеричной системе счисления следующие слова:

a) Internet Explorer, б) Microsoft Office; в) CorelDRAW.

Кодирование произвести с помощью модернизированной кодировочной таблицы ASCII, полученной в предыдущем упражнении.

3. Декодировать с помощью модернизированной кодировочной таблицы КОИ8-Р последовательности чисел записанных в шестнадцатеричной системе счисления:

а) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

б) EB CF CE C6 CF D2 CD C9 DA CD;

в) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. Как будет выглядеть слово «Кибернетика», записанное в кодировке СР1251, при использовании кодировок СР866 и КОИ8-Р? Проверить полученные результаты с помощью программы Internet Explorer.

5. Используя кодовую таблицу, приведенную на рис. 3.1а, декодировать следующие кодовые последовательности, записанные в двоичной системе счисления:

а) 01010111 01101111 01110010 01100100;

б) 01000101 01111000 01100011 01100101 01101100;

в) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Определить информационный объем слова «Экономика», закодированного с помощью кодовых таблиц СР866, СР1251, Unicode и КОИ8-Р.

7. Определить информационный объем файла, полученного в результате сканирования цветного изображения размером 12×12 см. Разрешающая способность сканера, используемого при сканировании данного изображения, равна 600 dpi. Сканер задает глубину цвета точки изображения равной 16 бит.

Разрешающая способность сканера 600 dpi (dotper inch – точек на дюйм) определяет возможность сканера с такой разрешающей способностью на отрезке длиной 1 дюйм различить 600 точек.

8. Определить информационный объем файла, полученного в результате сканирования цветного изображения размером А4. Разрешающая способность сканера, используемого при сканировании данного изображения, равна 1200 dpi. Сканер задает глубину цвета точки изображения равной 24 бит.

9. Определить количество цветов в палитре при глубине цвета 8, 16, 24 и 32 бита.

10. Определить требуемый объем видеопамяти для графических режимов экрана монитора 640 на 480, 800 на 600, 1024 на 768 и 1280 на 1024 точек при глубине цвета точки изображения 8, 16, 24 и 32 бита. Результаты свести в таблицу. Разработать в MS Excel программу для автоматизации расчетов.

11. Определить максимальное число цветов, которое допустимо использовать для хранения изображения размером 32 на 32 точки, если в компьютере выделено под изображение 2 Кбайт памяти.

12. Определить максимально возможную разрешающую способность экрана монитора, имеющего длину диагонали 15″ и размер точки изображения 0,28 мм.

13. Какие графические режимы работы монитора может обеспечить видеопамять объемом 64 Мбайт?

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *