В технике (теория кодирования и передачи сообщений) под количеством информации понимают количество кодируемых, передаваемых или хранимых символов.
Байт – единица количества информации в системе СИ. Байт – это восьмиразрядный двоичный код, с помощью которого можно представить один символ.
При вводе в ЭВМ символа с клавиатуры машине передается 1 байт информации.
Единицы измерения информации в вычислительной технике
1 бит
1 байт
8 бит
1 Кбайт (килобайт)
2 10 байт=1024 байт
1 тыс. байт
1 Мбайт (мегабайт)
2 10 Кбайт=2 20 байт
1 млн. байт
1 Гбайт (гигабайт)
2 10 Мбайт=2 30 байт
Информационный объем сообщения (информационная емкость сообщения) – количество информации в сообщении, измеренное в битах, байтах или производных единицах (Кбайтах, Мбайтах и т.д.).
В теории информации количеством информации называют числовую характеристику сигнала, не зависящую от его формы и содержания и характеризующую неопределенность, которая исчезает после получения сообщения в виде данного сигнала. В этом случае количество информации зависит от вероятности получения сообщения о том или ином событии.
Для абсолютно достоверного события (события обязательно произойдет, поэтому его вероятность равна 1 количество вероятности в сообщении о нем равно 0. Чем невероятнее событие, тем большую информацию о нем несет сообщение.
Лишь при равновероятных ответах ответ «да» или «нет» несет 1 бит информации.
Задания для повторения
Технический аспект измерения информации
Страниц текста 50 000 или 150 романов
Цветных слайдов высочайшего качества 150
Аудиозапись речи 1,5 часа
Музыкальный фрагмент качества СD-стерео 10 минут
Фильм высокого качества записи 15 секунд
Протоколы операций с банковским счетом за 1000 лет
Информация как снятая неопределенность
Интересный факт
На памятнике немецкому ученому Л. Больцману высечена формула, выведенная в 1977г. и связывающая вероятность состояния физической системы и величину энтропии этой системы. Энтропия (грек. en- в, внутрь + trope- превращение, буквальный перевод: то, что внутри, неопределенно)- физическая величина, характеризующая тепловое состояние тела и системы, мера внутренней неупорядоченности системы. Так вот, формула для энтропии Больцмана совпадает с формулой, предложенной Шенноном для среднего количества информации, приходящейся на один символ в сообщении. Совпадение это произвело столь сильное впечатление, что Шеннон назвал количество информации энтропией. С тех пор слово «энтропия» стало, чуть ли не синонимом слова «информация».
Чем больше энтропия системы, тем больше степень ее неопределенности. Поступающее сообщение полностью или частично снимает эту неопределенность. Следовательно, количество информации можно измерять тем, насколько понизилась энтропия системы после поступления сообщения. За меру количества информации принимается та же энтропия, но с обратным знаком.
Уменьшая неопределенность, мы получаем информацию, в этом весь смысл научного познания.
Различные подходы к определению и измерению информации.
Подход к определению
Подход к измерению
В быту
Разнообразные сведения, сообщения, их новизна
Новизна не измеряется
В технике
Сообщение, передаваемые в форме знаков и сигналов
Информационная емкость равна количеству символов
В теории связи
Снятая неопределенность (К. Шеннон)
Количество информации
В теории информации
Увеличение объема знаний
В данном курсе не рассматривается
В теории принятия решений
Увеличение вероятности достижения цели
В кибернетике (теория управления)
Часть знания, используемая в управлении
В теории отражения
Результат отражения, отраженное разнообразие
Информационные процессы
Информация не существует сама по себе. Она проявляется в информационных процессах.
Если обратиться в далекое прошлое, то жалобы на обилие информации мы сможем найти тысячелетия назад. На глиняной дощечке (шумерское письмо IV тысячелетия до нашей эры.) начертано: «Настали тяжелые времена. Дети перестали слушаться родителей, и каждый норовит написать книгу». Особенно модным стало жаловаться на непереносимость информационного бремени с XVII в. В ХХ в. заговорили об информационной катастрофе. Информационный кризис – это возрастающее противоречие между объемами накапливаемой информации и ограниченными возможностями ее переработки отдельно взятой личностью. Количество информации, циркулирующей в обществе, удваивается примерно каждые 8-12 лет. Появилась уверенность в том, что справиться с такой лавиной информации человек не сможет. Для этого нужны специальные средства и методы обработки информации, ее хранения и использования. Сформировалась новая научная дисциплина – информатика, поставившая своей целью изучение закономерностей информационных процессов. Основными информационными процессами являются: поиск – сбор – хранение – передача – обработка – использование – защита. Познакомимся теперь с каждым из этих процессов в отдельности.
Поиск информации
Итак, цель определена: выяснить автора и название пьесы. Как будет решаться поставленная задача?
Вы затратили много время и энергию, а задачу не решили. Это результат неэффективно организованного поиска информации.
F Вы задумались о том, какую профессию выбрать, и решили, что она должна быть связана с производством и использованием компьютеров. Какие это профессии, в каком учебном заведении, и на каком, факультете можно приобрести такую специальность, вы пока не знаете.
Что вы можете предпринять?
Ожидаемый результат
Этапы поиска
Поговорить с родителями
Получение совета, с чегоначать и что для этого сделать, + психологическая поддержка
В теории кодирования и передачи сообщений под количеством информации в сообщении понимают
1. Понятие информации с точки зрения различных наук
В любой науке основные понятия определить достаточно сложно. Так и понятие «информация» невозможно определить через другие, более «простые» понятия. В каждой науке оно связано с различными системами понятий. Например, в определении понятия «информация» необходимо отразить, что она:
1. существует в неживой природе;
2. существует в биологических системах;
3. не всегда может быть выражена словами;
4. возникает в процессе общения;
5. хранится, обрабатывается, передается, и т.д.
В зависимости от области знания существуют различные подходы к определению понятия «информация».
Впервые как научное понятие термин «информация» стал применяться в теории журналистики в 30-х годах ХХ века, хотя в исследованиях по библиотечному делу он появился еще раньше. Под информацией понимались различные сведения, сообщения. Что соответствует переводу с латинского языка informatio – сведение, разъяснение, ознакомление.
В физике понятие информация рассматривается как антиэнтропия или энтропия с обратным знаком. Поскольку мерой беспорядка термодинамической системы является энтропия системы, то информация (антиэнтропия) является мерой упорядоченности и сложности системы. По мере увеличения сложности системы величина энтропии уменьшается, и величина информации увеличивается. Процесс увеличения информации характерен для открытых, обменивающихся веществом и энергией с окружающей средой, саморазвивающихся систем живой природы (белковых молекул, организмов, популяций животных и т.д.).
Под информацией в технике понимают сообщение, передаваемое с помощью знаков и символов. В теории связи, например, под информацией принято понимать любую последовательность символов, не учитывая их смысл. В основанной американским ученым Клодом Шенноном математической теории информации под информацией понимались не любые сведения, а лишь те, которые снимают полностью или уменьшают существующую до их получения неопределенность (неизвестность). Каждому сигналу в теории Шеннона соответствует вероятность его появления. Например, при передаче текста телеграммы вероятность появления буквы «т» равна 1/33. Чем меньше вероятность появления того или иного сигнала, тем больше информации он несет для потребителя. В обыденном понимании, чем неожиданнее новость, тем больше ее информативность.
Математическая теория информации не охватывает всего богатства содержания понятия информация, поскольку отвлекается от содержательной (смысловой, семантической) стороны сообщения. С точки зрения этой теории фраза из 100 слов, взятая из газеты, пьесы Шекспира или теории относительности Эйнштейна имеют приблизительно одинаковое количество информации.
Наш соотечественник математик Ю.А. Шрейдер оценивал информацию по увеличению объема знаний у человека под воздействием информационного сообщения. Академик А.А. Харкевич измерял содержательность сообщения по увеличению вероятности достижения цели после получения информации человеком или машиной. Таким образом, под информацией в семантической теории понимают сведения обладающие новизной.
В кибернетике – науке об управлении в живых, неживых и искусственных системах – понятие информации связывают воедино с понятием управления (Норберт Винер, Б.Н. Петров). Жизнедеятельность любого организма или нормальное функционирование технического устройства зависит от процессов управления, благодаря которым поддерживаются в необходимых пределах значения их параметров. Процессы управления включают в себя получение, хранение, преобразование и передачу информации. Информация является обозначением содержания, полученного из внешнего мира в процессе приспособления к нему наших чувств. Информацию составляет та часть знания, которая используется для ориентирования, принятия решений, активного действия, управления, т.е. в целях сохранения, совершенствования и развития системы.
Данная концепция отрицает существование информации в неживой природе, не дает ответа на вопросы: являются ли информацией неиспользованные знания, являются ли информацией неосмысленная информация?
Для преодоления этих противоречий академик В.П. Афанасьев ввел понятие информационных данных. Информационные данные – это всякие сведения, сообщения, знания, которые могут храниться, перерабатываться, передаваться, но характер информации они приобретут лишь тогда, когда получат содержание и форму пригодную для управления и используются в управлении.
Дальнейшим развитием математического подхода к феномену информация послужили работы Р. Карнапа, И. Бар-Хиллела, А.Н. Колмогорова и многие др.
В этих теориях понятие информации не связано с содержанием сообщений, передаваемых по каналу связи. Информация – абстрактная величина, не существующая в физической реальности, подобно тому, как не существует мнимое число или не имеющая линейных размеров материальная точка.
В биологии, которая изучает живую природу, понятие «информация» связано с целесообразным поведением живых организмов. Такое поведение строится на основе получения и использования организмом информации об окружающей среде.
Понятие информация используется в связи с исследованием механизмов наследственности. В генетике сформулировано понятие генетической информации, которое определяется как программа (код) биосинтеза белков, представленных цепочками ДНК. Реализуется эта информация в ходе развития особи. Последнее обстоятельство позволило проводить научные эксперименты по клонированию, т.е. созданию точных копий организмов их одной клетки.
В социальных науках (социологии, психологии, политологии и др.) под информацией понимают сведения, данные, понятия, отраженные в нашем сознании и изменяющие наши представления о реальном мире. Эту информацию, передающуюся в человеческом обществе и участвующую в формировании общественного сознания, называют социальной информацией.
Под информацией в документолистике понимают все то, что так или иначе зафиксировано в знаковой форме в виде документов.
С точки зрения индивидуального человеческого сознания информация – это то, что поступает в наш мозг из многих источников в разных формах и, взаимодействуя там, образует структуру нашего знания. Под информацией в быту (житейский аспект) понимают сведения об окружающем мире и протекающем в нем процессах, воспринимаемые человеком или специальными устройствами. Информацией для человека являются не только сухие факты, строгие инструкции, но и то, что радует нас, волнует, печалит, заставляет переживать, восторгаться, презирать, негодовать. Более половины общего объема сведений, полученных в процессе разговора, приходится на так называемую несмысловую информацию. Эту информации говорящий по своему желанию, а иногда и непроизвольно, сообщает нам своей тональностью разговора, своей возбужденностью, жестикуляцией, выражением лица, глаз и т.д.
Все знания об окружающем мире человек получает с помощью органов чувств. Насколько мы им можем доверять?
Информация нам нужна для того, чтобы принимать правильные решения. Поэтому необходимо, чтобы она обладала следующими свойствами или качественными признаками
Пример. а) На улице тепло. б) Температура воздуха 22 ºС (если термометр исправен).
1) преднамеренное искажение (дезинформация);
2) искажение в результате действия помех;
3) когда значение отдельного факта или ряда фактов преуменьшается или преувеличивается (слухи, рыбацкие истории).
4. Актуальность (своевременность) информации – важность, существенность для настоящего времени. Только вовремя полученная информация может принести пользу. Неактуальной может быть информация по двум причинам:
1) она может быть устаревшей (прошлогодняя газета);
2) незначимой, ненужной (сообщение, что цены в Италии снижены на 5%).
5. Ценность (полезность или бесполезность) информации оценивается применительно к задачам, которые можно решить с ее помощью.
Самая ценная информация – это достаточно полезная, полная, объективная, достоверная и новая.
Самая достоверная информация не может быть новой.
6. Ясность, понятность. Информация понятна, если она выражена на языке, доступном для получателя.
Некоторые представления о разнообразии информации может дать следующее определение (энциклопедический словарь). Информация – общенаучное понятие, включающее обмен сведениями между людьми, человеком и автоматом, обмен сигналами в животном и растительном мире; передачу признаков от клетки к клетки, от организма к организму. Из этого определения следует существование 4 видов информации:
Кодирование информации в простейшей форме зародилось при общении людей в виде жестовых кодов, а позднее в виде речи, суть которой кодовые слова для передачи наших мыслей собеседнику, далее наступил новый этап развития такого кодирования – письменность, которая позволяла хранить и передавать информацию с наименьшими потерями от писателя к читателю. Иероглифы – есть конечный алфавит, обозначающий понятия, предметы или действия, элементы которого в каком-то виде заранее оговорены людьми для однозначного «декодирования» записанной информации. Фонетическое письмо использует буквенный алфавит для внутреннего кодирования слов речи и так же служит для однозначного воспроизведения записанной информации. Цифры позволяют использовать кодовое представление вычислений. Но данные типы кодирования служили скорее для непосредственного общения, но людям требовалось так же передавать информацию на расстояние и достаточно быстро, как следствие появились простейшие системы телекоммуникаций.
Важнейшим скачком в истории развития передачи информации стало использование цифровых систем передачи данных. Использование аналоговых сигналов требует большой избыточности информации, передаваемой в системе, а так же обладает таким существенным недостатком как накапливание помех. Различные формы кодирования для преобразования аналоговых сигналов в цифровые, их хранения, передачи и преобразования обратно в аналоговую форму начали своё бурное развитие во второй половине XX века, и к началу XXI практически вытеснили аналоговые системы.
Основная проблема, которую необходимо решить при построении системы коммуникации, была впервые сформулирована Клодом Шенноном в 1948 году:
Главное свойство системы связи заключается в том, что она дольно точно или приближенно воспроизвести в определенной точке пространства и времени некоторое сообщение, выбранное в другой точке. Обычно, это сообщение имеет какой-то смысл, однако это совершенно не важно для решения поставленной инженерной задачи. Самое главное заключается в том, что посылаемое сообщение выбирается из некоторого семейства возможных сообщений.
Такая точная и ясная постановка проблемы коммуникации оказала огромное воздействие на развитие средств связи. Возникла новая научная отрасль, которая стала называться теорией информации. Главная идея, обоснованная Шенноном, заключается в том, что надежные коммуникации должны быть цифровыми, т.е. задачу связи следует рассматривать как передачу двоичных цифр (битов). Появилась возможность однозначно сравнить переданную и принятую информацию.
Заметим, что любой физический канал передачи сигналов не может быть абсолютно надежным. Например, шум, который портит канал и вносит ошибки в передаваемую цифровую информацию. Шеннон показал, что при выполнении некоторых достаточно общих условий имеется принципиальная возможность использовать ненадежный канал для передачи информации со сколь угодно большой степенью надежности. Поэтому нет необходимости пытаться очистить канал от шумов, например, повышая мощность сигналов (это дорого и зачастую невозможно). Вместо этого следует разрабатывать эффективные схемы кодирования и декодирования цифровых сигналов.
Задача кодирования канала (выбор сигнально-кодовой конструкции) заключается в построении на основе известных характеристик канала кодера, посылающего в канал входные символы, которые будут декодированы приемником с максимальной степенью надежности. Это достигается с помощью добавления в передаваемую цифровую информацию некоторых дополнительных проверочных символов. На практике каналом может служить телефонный кабель, спутниковая антенна, оптический диск, память компьютера или еще что-то. Задачей кодирования источника является создание кодера источника, который производит компактное (укороченное) описание исходного сигнала, который необходимо передать адресату. Источником сигналов может служить текстовый файл, цифровое изображение, оцифрованная музыка или телевизионная передача. Это сжатое описание сигналов источника может быть неточным, тогда следует говорить о расхождении между восстановленным после приема и декодирования сигналом и его оригиналом. Это обычно происходит при преобразовании (квантовании) аналогового сигнала в цифровую форму.
Если скорость передачи сообщений меньше пропускной способности канала связи, то существуют коды и методы декодирования такие, что средняя и максимальная вероятности ошибки декодирования стремятся к нулю, когда длина блока стремится к бесконечности Иными словами: Для канала с помехами всегда можно найти такую систему кодирования, при которой сообщения будут переданы со сколь угодно большой степенью верности, если только производительность источника не превышает пропускной способности канала.
Если скорость передачи больше пропускной способности, то есть, то не существует таких способов передачи, при которых вероятность ошибки стремится к нулю при увеличении длины передаваемого блока.
Для аддитивного белого гауссова шума Шеннон получил следующее выражение: , где C — пропускная способность канала, бит/с; W — ширина полосы канала, Гц; S — мощность сигнала, Вт; N — мощность шума, Вт.
(График для наглядности, зависимость C(W,P) при N0=const; значения с потолка, попрошу на них не смотреть) Т.к. мощность АБГШ растёт линейно с шириной полосы канала, имеем, что пропускная способность канала имеет предел Cmax=(S/N0)log(2), при бесконечно широкой частотной полосе (который растёт линейно по мощности).
, где η — эффективность использования спектра, бит/с/Гц; TR — скорость передачи информации, бит/с; W — ширина полосы канала, Гц.
Тогда, , используя значение энергии бита (для сигналов со сложными сигнально кодовыми конструкциями я понимаю среднее значение энергии на бит) и , где k — количество бит на символ, передаваемый в канал; T — длительность символа, с; R — скорость передачи в канале, бит/с; Eb — энергия на передачу одного бита в канале; N0 — спектральная плотность мощности шума, Вт/Гц; получим или .
Предел Шеннона будет иметь вид:
Данный предел имеет смысл для каналов без кодеков (R = TR), для достижения такой эффективности принимаемое слово должно быть бесконечной длины. Для каналов с использованием кодеков помехоустойчивого кодирования под Eb следует понимать энергию на передачу одного информационного, а не канального бита (тут возможны разночтения и я готов выслушать альтернативные версии) => Eb/N0 в канале отлично от этого значения в зависимости от скорости кода (1/2, 3/4, 7/8… )
Таким образом видим, что существует предел отношения сигнал/шум в канале (Eb/N0) такой, что невозможно построить систему передачи данных, в которой можно добиться сколь угодно малой вероятности ошибки, при большем уровне шума (может существовать система с просто малой вероятностью ошибки, при предельном отношении!).
Литература
Галлагер Р. «Теория информации и надёжная связь» – М.: «Советское радио», 1974. Сэломон Д. «Сжатие данных, изображений и звука» – М.: «Техносфера», 2004
Спасибо за внимание, в качестве продолжения, если интересно, могу написать статью с иллюстрациями и сравнением эффективности сигнально-кодовых конструкций по отношению к границе Шеннона.