кодирование и декодирование текста

20.07.202222.07.2022 admin 0 Comments

Информатика. 10 класс

Конспект урока

Информатика, 10 класс. Урок № 14.

Тема — Кодирование текстовой информации

Цели и задачи урока:

— познакомиться со способами кодирования и декодирования текстовой информации с помощью кодовых таблиц и компьютера;

— познакомиться со способом определения информационного объема текстового сообщения;

— познакомиться с алгоритмом Хаффмана.

Вся информация в компьютере хранится в двоичном коде. Поэтому надо научиться преобразовывать символы в двоичный код.

Формула Хартли определяет количество информации в зависимости от количества возможных вариантов:

N — это количество вариантов,

i — это количество бит, не обходимых для кодирования.

Если же мы преобразуем эту формулу и примем за N — количество символов в используемом алфавите (назовем это мощностью алфавита), то мы поймем, сколько памяти потребуется для кодирования одного символа.

i — кол-во бит, потребуемых для кодирования

Итак, если в нашем алфавите будет присутствовать только 32 символа, то каждый из них займет только 5 бит.

И тогда каждому символу мы дадим уникальный двоичный код. Такую таблицу мы будем назвать кодировочной.

Первая широко используемая кодировочная таблица была создана в США и называлась ASCII, что в переводе означало American standard code for information interchange. Как вы видите, в таблице присутствуют не только латинские буквы, но и цифры, и даже действия. Каждому символу отводится 7 бит, а значит, всего было закодировано 128 символов.

Но так как этого количества было недостаточно, стали создаваться другие таблицы, в которых можно было закодировать и другие символы. Например, таблица Windows-1251, которая, по сути, являлась изменением таблицы ASCII, в которую добавили буквы кириллицы. Таких таблиц было создано множество: MS-DOS, КОИ-8, ISO, Mac и другие:

Проблема использования таких различных таблиц приводила к тому, что текст, написанный на одном компьютере, мог некорректно читаться на другом. Например:

Поэтому была разработана международная таблица кодировки Unicode, включающая в себя как символы английского, русского, немецкого, арабского и других языков. На каждый символ в такой таблице отводится 16 бит, то есть она позволяет кодировать 65536 символов. Однако использование такой таблицы сильно «утяжеляет» текст. Поэтому существуют различные алгоритмы неравномерной кодировки текста, например, алгоритм Хаффмана.

Идея алгоритма Хаффмана основана на частоте появления символа в последовательности. Символ, который встречается в последовательности чаще всего, получает новый очень маленький код, а символ, который встречается реже всего, получает, наоборот, очень длинный код.

Пусть нам дано сообщение aaabcbeeffaabfffedbac.

Чтобы узнать наиболее выгодный префиксный код для такого сообщения, надо узнать частоту появления каждого символа в сообщении.

Подсчитайте и внесите в таблицу частоту появления каждого символа в сообщении:

У вас должно получиться:

Расположите буквы в порядке возрастания их частоты.

Теперь возьмем два символа с наименьшей чистотой и представим их листьями в дереве, частота которого будет равна сумме частот этих листьев.

Символы d и c превращаются в ветку дерева:

Проделываем эти шаги до тех пор, пока не получится дерево, содержащее все символы.

Итак, сортируем таблицу:

Объединяем символ e и символ cd в ветку дерева:

Получился префиксный код. Теперь осталось расставить 1 и 0. Пусть каждая правая ветвь обозначает 1, а левая — 0.

Составляем код буквы, идя по ветке дерева от буквы к основанию дерева.

Тогда код для каждой буквы будет:

Закодируйте ASCII кодом слово MOSCOW.

Составим таблицу и поместим туда слово MOSCOW. Используя таблицу ASCII кодов, закодируем все буквы слова:

Источник

Кодирование и декодирование текста

В процессах восприятия, передачи и хранения информации живыми организмами, человеком и техническими устройствами происходит кодирование информации. В этом случае информация, представленная в одной знаковой системе, преобразуется в другую. Каждый символ исходного алфавита представляется конечной последовательностью символов кодового алфавита. Эта результирующая последовательность называется информационным кодом (кодовым словом, или просто кодом).

Примерами кодов являются последовательность букв в тексте, цифр в числе, двоичный компьютерный код и др.

Код состоит из определенного количества знаков (имеет определенную длину), которое называется длиной кода. Например, текстовое сообщение состоит из определенного количества букв, число — из определенного количества цифр.

Преобразование знаков или групп знаков одной знаковой системы в знаки или группы знаков другой знаковой системы называется перекодированием.

При кодировании один символ исходного сообщения может заменяться одним или несколькими символами нового кода, и наоборот — несколько символов исходного сообщения могут быть заменены одним символом в новом коде. Примером такой замены служат китайские иероглифы, которые обозначают целые слова и понятия.

Кодирование может быть равномерным и неравномерным. При равномерном кодировании все символы заменяются кодами равной длины; при неравномерном кодировании разные символы могут кодироваться кодами разной длины (это затрудняет декодирование). Неравномерный код называют еще кодом переменной длины.

Примером неравномерного кодирования является код азбуки Морзе. Длительное время он использовался для передачи сообщений по телеграфу. Кодовый алфавит включал точку, тире и паузу. При передаче по телеграфу точка означала кратковременный сигнал, тире — сигнал в 3 раза длиннее. Между сигналами букв одного слова делалась пауза длительностью одной точки, между словами — длительностью трех точек, между предложениями — длительностью семи точек.

Вначале код Морзе был создан для букв английского алфавита, цифр и знаков препинания. Принцип этого кода заключался в том, что часто встречающиеся буквы кодировались более простыми сочетаниями точек и тире. Это делало код компактным. Позже код был разработан и для символов других алфавитов, включая русский.

Коды Морзе для некоторых букв.

Чтобы избежать неоднозначности, код Морзе включает также паузы между кодами разных символов.

Декодирование информации

В зависимости от системы кодирования информационный код может или не может быть декодирован однозначно. Равномерные коды всегда могут быть декодированы однозначно.

Для однозначного декодирования неравномерного кода важно, имеются ли в нем кодовые слова, которые являются одновременно началом других, более длинных кодовых слов.

Закодированное сообщение можно однозначно декодировать с начала, если выполняется условие Фано: никакое кодовое слово не является началом другого кодового слова.

Закодированное сообщение можно однозначно декодировать с конца, если выполняется обратное условие Фано: никакое кодовое слово не является окончанием другого кодового слова.

Неравномерные коды, для которых выполняется условие Фано, называются префиксными. Префиксный код — такой неравномерный код, в котором ни одно кодовое слово не является началом другого, более длинного слова. В таком случае кодовые слова можно записывать друг за другом без разделительного символа между ними.

Например, код Морзе не является префиксным — для него не выполняется условие Фано. Поэтому в кодовый алфавит Морзе, кроме точки и тире, входит также символ–разделитель — пауза длиной в тире. Без разделителя однозначно декодировать код Морзе в общем случае нельзя.

Конспект урока по информатике «Кодирование и декодирование информации».

Источник

Кодирование и декодирование информации

Вы будете перенаправлены на Автор24

Кодирование информации

Для осуществления полноценного процесса передачи информации, при котором сам процесс должен успешно завершиться, а сообщение дойти от отправителя до получателя в полном объеме, который, в свою очередь, его правильно трактует, информацию необходимо закодировать.

Кодирование — это преобразование информации из одной ее формы представления в другую, наиболее удобную для её хранения, передачи или обработки.

Способы кодирования информации бывают различные и зависят они, в первую очередь, от целей кодирования.

Наиболее распространенными из которых являются:

Чаще всего кодированию подвергаются тексты на естественных языках (русском, английском и пр.).

Цели кодирования заключаются в доведении идеи отправителя до получателя, обеспечении такой интерпретации полученной информации получателем, которая соответствует замыслу отправителя. Для этого используются специальные системы кодов, состоящие из символов и знаков. Код представляет собой систему условных знаков (символов), предназначенных для представления информации по определенным правилам. В настоящее время понятие «код» трактуется по-разному.

Некоторые авторы (Р. Бландел, А. Б. Зверинцев, В. Г. Корольке и др.) понимают коды как любую форму представления информации или же как набор однозначных правил, используя которые сообщение можно представить в той или иной форме. Согласно этому определению человеческая речь может выступать в качестве одного из кодов. Это может означать, что в результате кодирования сообщение преобразуется в последовательность, состоящую из произносимых слов.

Готовые работы на аналогичную тему

Другим вариантом трактовки термина «код», сформированного в технической среде под влиянием «математической теории связи (коммуникации)» и использования технических средств коммуникации, является условное преобразование, как правило, взаимно однозначное и обратимое, используя которое сообщения преобразовываются из одной системы знаков в другую. К примерам такого преобразования относят азбуку Морзе, семафорный код и жесты глухонемых. Для данного определения характерно четкое различие языка, который развивался вместе с человеком на протяжении всего этапа эволюции, и кодов, разработанных людьми для определенных целей и подчиняющихся четко сформулированным правилам.

В теории коммуникации кодирование представляют как соответствующую переработку исходной идеи сообщения с целью ее доведения до адресата. При этом в разных конкретных случаях формы передачи информации могут быть различными, например: брошюры, листовки, рекламные ролики па заданную тему и т.д.

Декодирование информации

Декодирование — процесс восстановления изначальной формы представления информации, т. е. обратный процесс кодирования, при котором закодированное сообщение переводится на язык, понятный получателю. В более широком плане это:

а) процесс придания определенного смысла полученным сигналам;

б) процесс выявления первоначального замысла, исходной идеи отправителя, понимания смысла его сообщения.

Если получатель правильно воспримет смысл сообщения, то его реакция будет именно такой, какую и ожидал от него отправитель сообщения. То, каким образом получатель будет расшифровывать сообщение, зависит, как правило, от его индивидуальных особенностей восприятия информации. Так как каждый человек в той или иной степени предвзято и субъективно оценивает события, то, соответственно разные люди воспринимают и понимают одни и те же события по-разному. И это непременно необходимо учитывать при трансляции информации и при коммуникации между людьми.

Модель кодирования/декодирования С. Холла

Особенности системы кодирования-декодирования, которая включает в себя обработку информационного сообщения с целью его передачи и осмысления потребителем, лучше всего рассмотреть на примере коммуникационной модели С. Холла. В основу его теории положены базовые принципы семиотики структурализма, которые предполагают, что любое смысловое сообщение можно сконструировать из знаков, имеющих как явные, так и подразумеваемые смыслы в зависимости от выбора, осуществляемого кодировщиком, т.е. коммуникатором. Согласно основному положению семиотики многообразие смыслов зависит от природы языка, являющегося инструментарием информационной системы, и от смысловых значений, которые заключены в комбинациях знаков и символов в рамках определенной социальной культуры, к которой принадлежат отправитель (кодировщик) и получатель (декодировщик).

Семиотика подчеркивает семантическую силу закодированного текста, рассматривает смысл информационного сообщения прочно внедренного в текст. С. Холл принимал базовые положения этого подхода, но, в свою очередь, внес в него ряд дополнений.

Согласно Холлу коммуникаторы часто кодируют сообщения, придерживаясь идеологических и пропагандистских целей, а для этого манипулируют языком и медиасредствами (сообщения приобретают «предпочтительный» смысл).

Получатели согласно Холлу не всегда обязаны принимать и декодировать сообщения в том виде, в котором они отправлены. Получатели оказывать сопротивление идеологическому влиянию, применяя при этом альтернативные оценки в соответствии со своим мировоззрением, опытом и взглядами на окружающую систему бытия.

Свою теорию С. Холл сформулировал, используя в качестве примера работу телевидения, но ее можно применить к любым видам средств массовой информации. Суть теории заключается в том, что медиасообщение, проходя на своем пути от источника до получателя, претерпевает ряд преобразований. В результате средства медиакоммуникации передают сообщения, конформные или оппозиционные по отношению к правящим властям, различным общественным, политическим и экономическим социальным институтам. Эти сообщения кодируются зачастую в форме устоявшихся содержательных жанров (к ним можно отнести новости политического, спортивного, экономического содержания; музыкальные передачи, сериалы и пр., в общем все то, что смотрят обыватели), имеющих очевидный содержательный смысл, актуализированную направленность и встроенные руководства для их интерпретации заинтересованной целевой аудиторией. Зрители же, в свою очередь, подходят к содержанию, предлагаемому СМИ, с другими «смысловыми структурами», которые строятся на их собственном здравом смысле, идеях и опыте.

Различные группы людей (или так называемые субкультуры) занимают разные социальные и культурные ниши этнопространства и по-разному воспринимают сообщения СМИ. В результате своих исследований С. Холл пришел к выводу, что декодированный смысл сообщения не обязательно должен совпадать с первоначальным смыслом, который был закодирован, хотя он и был опосредован уже сложившимися медиажанрами и общей языковой системой. Важным является и то, что декодирование может принимать направления, отличные от предполагаемого, т.е. получатели, образно говоря, могут читать между строк и даже сознательно искажать изначально заложенный смысл сообщения.

Теория Холла содержит ряд принципиальных положений, это:

Таким образом, мы пришли к определению того, кто такой получатель.

Получатель — это лицо, для которого предназначена передаваемая информация, и которое может интерпретировать ее. Получателю, чтобы понять смысл передаваемого сообщения, нужно его раскодировать (декодировать). В качестве получателя могут выступать как один человек, так и группа лиц, общество в целом или любая его часть. Когда в качестве получателя выступает более одного человека, то это называют аудиторией коммуникации.

Получатель информационного сообщения должен обладать определенными характеристиками, которые представляю собой важные факторы, влияющие на эффективность коммуникации. Главным условием при этом становится способность получателя воспринимать и декодировать отправленное ему сообщение. Эта способность зависит от профессиональной компетентности получателя, его жизненного опыта, принадлежности к той или иной группе, ценностных ориентаций, общей культуры, образовательного и интеллектуального уровня, а также обусловлена социокультурными рамками коммуникативного процесса. Реакция получателя представляет собой основной индикатор эффективности коммуникации.

Мы подробно с вами разобрали непосредственно саму теорию кодирования и декодирования информационных сообщений, в частности модель Холла, которая в большей степени ориентируется на социум.

Однако эти два процесса широко используются во всех сферах жизнедеятельности человека: медицине, технике, образовании и т.д. И каждый из нас ежедневно с ними сталкивается независимо от того, что происходит в окружающей нас жизни.

Источник

Кодирование для чайников, ч.1

Не являясь специалистом в обозначенной области я, тем не менее, прочитал много специализированной литературы для знакомства с предметом и прорываясь через тернии к звёздам набил, на начальных этапах, немало шишек. При всём изобилии информации мне не удалось найти простые статьи о кодировании как таковом, вне рамок специальной литературы (так сказать без формул и с картинками).

Статья, в первой части, является ликбезом по кодированию как таковому с примерами манипуляций с битовыми кодами, а во второй я бы хотел затронуть простейшие способы кодирования изображений.

0. Начало

Давайте рассмотрим некоторые более подробно.

1.1 Речь, мимика, жесты

1.2 Чередующиеся сигналы

В примитивном виде кодирование чередующимися сигналами используется человечеством очень давно. В предыдущем разделе мы сказали про дым и огонь. Если между наблюдателем и источником огня ставить и убирать препятствие, то наблюдателю будет казаться, что он видит чередующиеся сигналы «включено/выключено». Меняя частоту таких включений мы можем выработать последовательность кодов, которая будет однозначно трактоваться принимающей стороной.

1.3 Контекст

2. Кодирование текста

Текст в компьютере является частью 256 символов, для каждого отводится один байт и в качестве кода могут быть использованы значения от 0 до 255. Так как данные в ПК представлены в двоичной системе счисления, то один байт (в значении ноль) равен записи 00000000, а 255 как 11111111. Чтение такого представления числа происходит справа налево, то есть один будет записано как 00000001.

Итак, символов английского алфавита 26 для верхнего и 26 для нижнего регистра, 10 цифр. Так же есть знаки препинания и другие символы, но для экспериментов мы будем использовать только прописные буквы (верхний регистр) и пробел.

Тестовая фраза «ЕХАЛ ГРЕКА ЧЕРЕЗ РЕКУ ВИДИТ ГРЕКА В РЕЧКЕ РАК СУНУЛ ГРЕКА РУКУ В РЕКУ РАК ЗА РУКУ ГРЕКУ ЦАП».

2.1 Блочное кодирование

Информация в ПК уже представлена в виде блоков по 8 бит, но мы, зная контекст, попробуем представить её в виде блоков меньшего размера. Для этого нам нужно собрать информацию о представленных символах и, на будущее, сразу подсчитаем частоту использования каждого символа:

Источник

Кодирование и декодирование текста

Кодирование текстовой информации

Двоичное кодирование – один из распространенных способов представления информации. В вычислительных машинах, в роботах и станках с числовым программным управлением, как правило, вся информация, с которой имеет дело устройство, кодируется в виде слов двоичного алфавита.

Начиная с конца 60-х годов, компьютеры все больше стали использоваться для обработки текстовой информации, и в настоящее время основная доля персональных компьютеров в мире (и большая часть времени) занята обработкой именно текстовой информации. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется алфавит мощностью два (всего два символа 0 и 1). Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1).

С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа «=», «(«, «&» и т.п. и даже (обратите особое внимание!) пробелы между словами.

Тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные нам буквы, цифры, знаки препинания и другие символы. В оперативную память они попадают в двоичном коде. Это значит, что каждый символ представляется 8-разрядным двоичным кодом.

В процессе вывода символа на экран компьютера производится обратный процесс — декодирование, то есть преобразование кода символа в его изображение. Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой таблице.

Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу. Понятно, что это дело условное, можно придумать множество способов кодировки.

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.

Виды таблиц кодировок

Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.

Для разных типов ЭВМ используются различные таблицы кодировки.

Таблица кодов ASCII делится на две части.

Международным стандартом является лишь первая половина таблицы, т.е. символы с номерами от 0 (00000000), до 127 (01111111).

Структура таблицы кодировки ASCII

Символы с номерами от 0 до 31 принято называть управляющими.

Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п.

Стандартная часть таблицы (английский). Сюда входят строчные и прописные буквы латинского алфавита, десятичные цифры, знаки препинания, всевозможные скобки, коммерческие и другие символы.

Все остальные отражаются определенными знаками.

Альтернативная часть таблицы (русская).

Вторая половина кодовой таблицы ASCII, называемая кодовой страницей (128 кодов, начиная с 10000000 и кончая 11111111), может иметь различные варианты, каждый вариант имеет свой номер.

Кодовая страница в первую очередь используется для размещения национальных алфавитов, отличных от латинского. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.

Обращается внимание на то, что в таблице кодировки буквы (прописные и строчные) располагаются в алфавитном порядке, а цифры упорядочены по возрастанию значений. Такое соблюдение лексикографического порядка в расположении символов называется принципом последовательного кодирования алфавита.

Для букв русского алфавита также соблюдается принцип последовательного кодирования.

К сожалению, в настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows. MS-DOS, Macintosh и ISO). Из-за этого часто возникают проблемы с переносом русского текста с одного компьютера на другой, из одной программной системы в другую.

Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 («Код обмена информацией, 8-битный»). Эта кодировка применялась еще в 70-е годы на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.

От начала 90-х годов, времени господства операционной системы MS DOS, остается кодировка CP866 («CP» означает «Code Page», «кодовая страница»).

Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.

Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.

Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251. Введена компанией Microsoft; с учетом широкого распространения операционных систем (ОС) и других программных продуктов этой компании в Российской Федерации она нашла широкое распространение.

С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode.

Это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

Внутреннее представление слов в памяти компьютера

с помощью таблицы ASCII

Таким образом, каждая кодировка задается своей собственной кодовой таблицей. Как видно из таблицы, одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы.

Н апример, последовательность числовых кодов 221, 194, 204 в кодировке СР1251 образует слово «ЭВМ» (Рис. 10), тогда как в других кодировках это будет бессмысленный набор символов.

К счастью, в большинстве случаев пользователь не должен заботиться о перекодировках текстовых документов, так как это делают специальные программы-конверторы, встроенные в приложения.

Источник

Образовательно-развлекательный портал

кодирование и декодирование текста

Информатика. 10 класс

Конспект урока

Кодирование и декодирование текста

Декодирование информации

Кодирование и декодирование информации

Кодирование информации

Готовые работы на аналогичную тему

Декодирование информации

Модель кодирования/декодирования С. Холла

Кодирование для чайников, ч.1

0. Начало

1.1 Речь, мимика, жесты

1.2 Чередующиеся сигналы

1.3 Контекст

2. Кодирование текста

2.1 Блочное кодирование

Кодирование и декодирование текста

Добавить комментарий Отменить ответ

Информатика. 10 класс

Конспект урока

Кодирование и декодирование текста

Декодирование информации

Кодирование и декодирование информации

Кодирование информации

Готовые работы на аналогичную тему

Декодирование информации

Модель кодирования/декодирования С. Холла

Кодирование для чайников, ч.1

0. Начало

1.1 Речь, мимика, жесты

1.2 Чередующиеся сигналы

1.3 Контекст

2. Кодирование текста

2.1 Блочное кодирование

Кодирование и декодирование текста

Вам также понравится

к каким иконам нельзя прикладываться

помидоры по чешски на зиму с чесноком без болгарского перца

как делать оклад иконы

Добавить комментарий Отменить ответ