какое количество символов можно закодировать восьмиразрядным двоичным кодом

Какое количество символов можно закодировать восьмиразрядным двоичным кодом

Кодирование текстовой информации

Двоичное кодирование – один из распространенных способов представления информации. В вычислительных машинах, в роботах и станках с числовым программным управлением, как правило, вся информация, с которой имеет дело устройство, кодируется в виде слов двоичного алфавита.

Начиная с конца 60-х годов, компьютеры все больше стали использоваться для обработки текстовой информации, и в настоящее время основная доля персональных компьютеров в мире (и большая часть времени) занята обработкой именно текстовой информации. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется алфавит мощностью два (всего два символа 0 и 1). Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1).

С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа «=», «(«, «&» и т.п. и даже (обратите особое внимание!) пробелы между словами.

Тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные нам буквы, цифры, знаки препинания и другие символы. В оперативную память они попадают в двоичном коде. Это значит, что каждый символ представляется 8-разрядным двоичным кодом.

какое количество символов можно закодировать восьмиразрядным двоичным кодом

В процессе вывода символа на экран компьютера произ­водится обратный процесс — декодирование, то есть преоб­разование кода символа в его изображение. Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой табли­це.

Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу. Понятно, что это дело условное, можно придумать множество способов кодировки.

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.

Виды таблиц кодировок

Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.

Для разных типов ЭВМ используются различные таблицы кодировки.

Таблица кодов ASCII делится на две части.

Международным стандартом является лишь первая половина таблицы, т.е. символы с номерами от 0 (00000000), до 127 (01111111).

Структура таблицы кодировки ASCII

Символы с номерами от 0 до 31 принято называть управляющими.

Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п.

Стандартная часть таблицы (английский). Сюда входят строчные и прописные буквы латинского алфавита, десятичные цифры, знаки препинания, всевозможные скобки, коммерческие и другие символы.

Все остальные отражаются определенными знаками.

Альтернативная часть таблицы (русская).

Вторая половина кодовой таблицы ASCII, называемая кодовой страницей (128 кодов, начиная с 10000000 и кончая 11111111), может иметь различные варианты, каждый вариант имеет свой номер.

Кодовая страница в первую очередь используется для размещения национальных алфавитов, отличных от латинского. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.

какое количество символов можно закодировать восьмиразрядным двоичным кодом

Обращается внимание на то, что в таблице кодировки буквы (прописные и строчные) располагаются в алфавитном порядке, а цифры упорядочены по возрастанию значений. Такое соблюдение лексикографического порядка в расположении символов называется принципом последовательного кодирования алфавита.

Для букв русского алфавита также соблюдается принцип последовательного кодирования.

какое количество символов можно закодировать восьмиразрядным двоичным кодом

К сожалению, в настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows. MS-DOS, Macintosh и ISO). Из-за этого часто возникают проблемы с переносом русского текста с одного компьютера на другой, из одной программной системы в другую.

Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 («Код обмена информацией, 8-битный»). Эта кодировка применялась еще в 70-е годы на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.

какое количество символов можно закодировать восьмиразрядным двоичным кодом

От начала 90-х годов, времени господства операционной системы MS DOS, остается кодировка CP866 («CP» означает «Code Page», «кодовая страница»).

какое количество символов можно закодировать восьмиразрядным двоичным кодом

Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.

какое количество символов можно закодировать восьмиразрядным двоичным кодом

Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.

какое количество символов можно закодировать восьмиразрядным двоичным кодом

Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251. Введена компанией Microsoft; с учетом широкого распространения операционных систем (ОС) и других программных продуктов этой компании в Российской Федерации она нашла широкое распространение.

какое количество символов можно закодировать восьмиразрядным двоичным кодом

С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode.

какое количество символов можно закодировать восьмиразрядным двоичным кодом

Это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

Внутреннее представление слов в памяти компьютера

с помощью таблицы ASCII

какое количество символов можно закодировать восьмиразрядным двоичным кодом

Таким образом, каждая кодировка задается своей собственной кодовой таблицей. Как видно из таблицы, одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы.

Н апример, последовательность числовых кодов 221, 194, 204 в кодировке СР1251 образует слово «ЭВМ» (Рис. 10), тогда как в других кодировках это будет бессмысленный набор символов.

К счастью, в большинстве случаев пользователь не должен заботиться о перекодировках текстовых документов, так как это делают специальные программы-конверторы, встроенные в приложения.

Источник

Кодирование текстовой информации

С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа «=», «(«, «&» и т.п. и даже (обратите особое внимание!) пробелы между словами. Да, не удивляйтесь: пустое место в тексте тоже должно иметь свое обозначение.

Вспомним некоторые известные нам факты:

Множество символов, с помощью которых записывается текст, называется алфавитом.

Число символов в алфавите – это его мощность.

где N – мощность алфавита (количество символов),

b – количество бит (информационный вес символа).

В алфавит мощностью 256 символов можно поместить практически все необходимые символы. Такой алфавит называется достаточным.

Единице измерения 8 бит присвоили название 1 байт:

Двоичный код каждого символа в компьютерном тексте занимает 1 байт памяти.

Каким же образом текстовая информация представлена в памяти компьютера?

Тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные нам буквы, цифры, знаки препинания и другие символы. В оперативную память они попадают в двоичном коде. Это значит, что каждый символ представляется 8-разрядным двоичным кодом.

Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу.

Понятно, что это дело условное, можно придумать множество способов кодировки.

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.

Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.

Для разных типов ЭВМ используются различные таблицы кодировки.

Международным стандартом для ПК стала таблица ASCII (читается аски) (Американский стандартный код для информационного обмена).

Таблица кодов ASCII делится на две части.

Международным стандартом является лишь первая половина таблицы, т.е. символы с номерами от 0 (00000000), до 127 (01111111).

Структура таблицы кодировки ASCII


Порядковый номер


Символ

Символы с номерами от 0 до 31 принято называть управляющими.
Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п.

Альтернативная часть таблицы (русская).
Вторая половина кодовой таблицы ASCII, называемая кодовой страницей (128 кодов, начиная с 10000000 и кончая 11111111), может иметь различные варианты, каждый вариант имеет свой номер.
Кодовая страница в первую очередь используется для размещения национальных алфавитов, отличных от латинского. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.

Первая половина таблицы кодов ASCII

Обращаю ваше внимание на то, что в таблице кодировки буквы (прописные и строчные) располагаются в алфавитном порядке, а цифры упорядочены по возрастанию значений. Такое соблюдение лексикографического порядка в расположении символов называется принципом последовательного кодирования алфавита.

Для букв русского алфавита также соблюдается принцип последовательного кодирования.

Вторая половина таблицы кодов ASCII

К сожалению, в настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows. MS-DOS, Macintosh и ISO). Из-за этого часто возникают проблемы с переносом русского текста с одного компьютера на другой, из одной программной системы в другую.

Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 («Код обмена информацией, 8-битный»). Эта кодировка применялась еще в 70-ые годы на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.

От начала 90-х годов, времени господства операционной системы MS DOS, остается кодировка CP866 («CP» означает «Code Page», «кодовая страница»).

Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.

Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.

Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251.

С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode. Это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

Источник

Кодирование символьной информации

Символьная (алфавитно-цифровая) информация в компьютере представляется посредством восьмиразрядных двоичных кодов. Полное число кодовых комбинаций нулей и единиц определяется длиной (разрядностью) кода и составляет 2 8 = 256. То есть, используя восьмиразрядный двоичный код (восемь битов) можно закодировать 256 символов. Каждому символу (цифре, букве, знаку) ставится в соответствие единственный код из числа кодовых комбинаций. С помощью восьмиразрядного кода можно закодировать строчные и прописные буквы как латинского, так и русского алфавитов, цифры, знаки препинания, знаки математических операций и некоторые специальные символы (например, §, /).

Каждому символу алфавита сопоставляется определенное целое число из диапазона от 0 до 255 – это его порядковый номер, код. Если “открыть” память ЭВМ, то можно увидеть коды букв. Обычный текст представляется в компьютере последовательностью кодов, иначе говоря, вместо каждой буквы текста хранится ее номер по кодовой таблице. При выводе букв на бумагу или экран дисплея производится формирование их зрительных образов по кодам.

Другая распространенная кодировка носит название КОИ-8 (код обмена информацией, восьмизначный) – ее происхождение относится ко временам действия Совета Экономической Взаимопомощи государств Восточной Европы. Сегодня эта кодировка имеет широкое распространение в компьютерных сетях на территории России и в российском секторе Интернета. В связи с изобилием систем кодирования текстовых данных, действующих в России, возникает задача межсистемного преобразования данных – это одна из распространенных задач информатики. Выход представляется в использовании кодирования не восьмиразрядными двоичными числами, а числами с большим количеством разрядов. Такая система, основанная на 16-разрядном (16 бит) кодировании символов, получила название универсальной – UNICODE. Шестнадцать разрядов позволяют обеспечить уникальные коды для 65536 различных символов – этого поля достаточно для размещения в одной таблице символов большинства языков планеты. Переход на данную систему долгое время сдерживался из-за недостаточных ресурсов средств вычислительной техники (в этой системе все текстовые документы автоматически становятся вдвое длиннее). В настоящее время происходит постепенный перевод документов и программных средств на универсальную систему кодирования.

Кодирование чисел в ЭВМ

Таким образом, при кодировании целых чисел в два байта помещается, по крайней мере, четырехзначное число со знаком, а в четыре байта – девятизначное. Если бы в каждый байт заносили только по одной цифре числа (как буквы или другие символы), то в два байта помещались бы числа в диапазоне от 0 до 99.

Число +15 в машине будет иметь вид 00000000 00001111, а число 257 будет иметь вид 00000001 00000001. Как видно коды чисел представлены в двоичной системе счисления. Как переводятся числа из десятичной в двоичную систему счисления и наоборот?

где xi = 0 или 1; n – число разрядов (позиций) в целой части числа. Например, 1710 = 100112, 100112 = 1 × 2 4 + 0 × 2 3 + 0 × 2 2 + 0 × 2 1 + 1 × 2 0 = 16 + 1 = 1710.

Для представления служебной информации – программ при подготовке задач к решению на ЭВМ – применяют вспомогательные системы счисления – восьмеричную и шестнадцатеричную. Обе системы используются для более короткой и удобной записи двоичных кодов. Это связано с понятием байта – 8 двоичных разрядов или 2 шестнадцатеричных. Например, 197210 = 111101101002 = 36648 = 7В416.

73,28 = 73,28× 10 0 = 7,328 × 10 1 = 0,7328× 10 2 = 0,07328 × 10 3 = …

Кодирование графической и

Звуковой информации в ЭВМ

Кодирование графической информации имеет свои особенности [6, c. 24 – 25]. Если рассмотреть с помощью увеличительного стекла черно-белое графическое изображение, то можно увидеть, что оно состоит из мельчайших точек, образующих характерный узор, называемый растром. Поскольку линейные координаты и яркость каждой точки можно выразить с помощью целых чисел, то растровое кодирование позволяет использовать двоичный код для представления графических данных. Любой оттенок серого цвета (от белого до черного) можно закодировать восьмиразрядным двоичным числом из диапазона от 0 до 255. Кодирование цветных графических изображений осуществляется аналогично, но технология кодирования зависит от количества двоичных разрядов, используемых для кодирования цвета каждой точки. При кодировании информации о цвете с помощью 8 бит данных можно передать только 256 цветовых оттенков. Такой метод кодирования называется индексным. Но этого количества оттенков совершенно недостаточно, чтобы передать весь диапазон цветов, доступных человеческому глазу. Режим представления цветной графики с использованием 24 двоичных разрядов называется полноцветным и обеспечивает однозначное определение 16,5 млн различных цветов, что близко к чувствительности человеческого глаза.

Приемы и методы кодирования звуковой информации пришли в вычислительную технику наиболее поздно [6, c. 26]. Множество различных компаний разработали свои корпоративные стандарты для кодирования звуковой информации двоичным кодом. В настоящее время можно выделить два основных направления в этой области. Метод FM (Frequency Modulation) основан на том, что теоретически любой сложный звук можно разложить на последовательность простейших гармонических сигналов разных частот, каждый из которых представляет собой правильную синусоиду, а следовательно, может быть описан числовыми параметрами, т.е. кодом. Звуковые сигналы имеют непрерывный спектр, но их представление в машине возможно в виде дискретных цифровых сигналов. При таких преобразованиях неизбежны потери информации. Качество звукозаписи обычно получается не вполне удовлетворительным и имеет окрас, характерный для электронной музыки. Метод таблично-волнового (Wave-Table) синтеза лучше соответствует современному уровню развития техники. Примерно принцип работы состоит в следующем. Где-то в заранее подготовленных таблицах хранятся образцы звуков для множества различных музыкальных инструментов и не только для них. Числовые коды выражают тип инструмента, номер его модели, высоту тона, продолжительность и интенсивность звука, динамику его изменения и т.п. Поскольку в качестве образцов используются “реальные” звуки, то качество звука получается очень высоким, приближается к звучанию реальных музыкальных инструментов.

Заключение

Информацию по-разному измеряют в технике, в быту и в теории информации.

Измерение информации в быту произвести очень сложно. Рассмотрим пример. Пусть Вы получили какое-то сообщение. В этом сообщении содержится какое-то количество информации. Как оценить, сколько информации Вы получили? Другими словами как измерить информацию? Разные люди, получившие одно и то же сообщение, по-разному оценивают количество информации, содержащееся в нем. Это происходит оттого, что знания людей об этих событиях до получения сообщения были различными. Те, кто знал мало, сочтут, что они получили много информации. Те, кто знал больше, сочтут, что они не получили информации вовсе. Таким образом, количество информации в сообщении зависит от того, насколько ново это сообщение для получателя. При таком подходе непонятно, по каким критериям можно ввести единицу измерения информации. Следовательно, с точки зрения информации как новизны мы не можем оценить количество информации, содержащейся в научном открытии, новом музыкальном стиле и т.п.

Измерение информации в технике. В технике используют способ определения количества информации, который основан на подсчете числа символов в сообщении, т.е. связан с длиной сообщения и не учитывает содержания. Длина сообщения зависит от числа различных символов, употребляемых для записи сообщения. Например, слово “мир” в русском алфавите записывается тремя знаками, в английском – пятью (“peace”), а в КОИ-8 – 24 битами (111011011110100111110010). Каждый символ, как известно, кодируется 8-битным кодом. Но измерять с помощью бит неудобно, получаются громадные числа. Поэтому была введена более “крупная” единица измерения информации – байт. 1байт = 8 бит. Можно заметить, что при измерении в байтах подсчитать количество информации легче – оно совпадает с количеством символов в нем. Действительно, слово “мир” занимает 3 байта. Фраза “миру мир!” содержит 72 бита или 9 байт информации. Позднее были введены и более крупные единицы измерения информации в вычислительной технике, к которым все уже привыкли:

1 Кбайт (килобайт) = 2 10 байт = 1024 байт » 1 тыс. байт.

1 Мбайт (мегабайт) = 2 10 Кбайт = 2 20 байт » 1 млн. байт.

1 Гбайт (гигабайт) = 2 10 Мбайт = 2 30 байт » 1 млрд. байт

1 Тбайт (терабайт) = 2 10 Гбайт » 10 12 байт.

Было введено понятие информационной емкости сообщения или информационного объема сообщения. “Информационный объем сообщения – количество информации в сообщении, измеренное в битах, байтах или производных единицах (Кбайтах, Мбайтах и т.д.)” [1, c. 51].

Рассмотрим измерение информации в теории информации. В теории информации “количеством информации называют числовую характеристику сигнала, не зависящую от его формы и содержания и характеризующую неопределенность, которая исчезает после получения сообщения в виде данного сигнала” [1, c. 51]. В этом случае количество информации зависит от вероятности получения сообщения о том или ином событии. Для абсолютно достоверного события (событие обязательно произойдет, поэтому его вероятность равна 1) количество вероятности в сообщении о нем равно 0. Чем невероятнее событие, тем большую информацию о нем несет сообщение. Лишь при равновероятных ответах ответ “да” или “нет” несет 1 бит информации.

Поясним все сказанное следующим примером [1, c. 50]. Пусть имеется колода из 32 игральных карт (от семерок до тузов). Задумывается одна из карт Необходимо, задавая вопросы, на которые будут даны ответы “да” или “нет”, угадать задуманную карту. Первый вопрос: “Задумана карта черной масти?” Ответ: “Нет”. Ответ уменьшает неопределенность вдвое и приносит отгадывающему 1 бит информации. Второй вопрос: “Задумана карта бубновой масти?” Ответ: “Да”. Это еще один бит информации, исходная неопределенность уменьшилась в 4 раза. Третий вопрос: “Задумана карта – картинка?” Ответ: “Нет”. Третий бит информации, первоначальная неопределенность уменьшилась в 8 раз. Четвертый вопрос: “Задуманная карта младше девятки?” Ответ: “Да”. Еще один бит информации, первоначальная неопределенность уменьшилась в 16 раз. Пятый вопрос: “Задумана восьмерка бубновая?” Ответ: “Нет”. Отгадывающий получил пятый бит информации, исходная неопределенность уменьшилась в 32 раза. Последний ответ позволяет с уверенность сказать, что была задумана бубновая семерка. Неопределенности не осталось.

Очень приближенно можно считать, что количество информации в сообщении о каком-то событии совпадает с количеством вопросов, которые необходимо задать. Чтобы получить ту же информацию, ответ на эти вопросы может быть лишь “да” или “нет”. Причем событие, о котором идет речь, должно иметь равновероятностные исходы (задуманной может оказаться любая из 32 карт – 32 равновероятностных исхода).

Можно рассмотреть общий случай вычисления количества информации в сообщении об одном из N событий, но уже неравновероятных. Этот подход был предложен К. Шенноном в 1948 г. Поясним этот метод на следующем примере.

Пусть имеется строка текста, содержащая 1000 букв. Буква “о” в тексте встречается примерно 90 раз, буква “р” – 40 раз, буква “ф” – 2 раза, буква “а” – 200 раз. Средняя частота, с которой в рассматриваемом тексте встречается буква “а”, равна 0,2. Вероятность появления буквы “а” в тексте pa можно считать приблизительно равной 0,2. Аналогично, pp = 0,04, pф = 0,002, po = 0,09. Таким образом, появление выбранных букв в тексте неравновероятные события. Далее поступают согласно К.Шеннону. Берут логарифм по основанию 2 от величины 0,2 и называют то, что получилось, количеством информации, которую переносит одна единственная буква “а” в рассматриваемом тексте. Точно такие же операции проделывают для каждой буквы. Тогда количество собственной информации, переносимой одной буквой, равно

Рассмотрим, какое количество информации приходится на один знак (букву) в сообщениях, написанных на русском языке. Будем считать, что в алфавит входят 34 символа (33 буквы и пробел для разделения слов). Если бы появление всех символов было равновероятно, то pi =1/34 и количество информации, связанной с появлением каждого символа, hi = log2 (1/(1/34)) = log2 34 » 5 бит. Но в словах русского языка различные буквы встречаются неодинаково часто. Если учесть вероятности появления каждой буквы и воспользоваться формулой (*), то получим Н » 4,72 бит. Но и эта оценка является еще сильно завышенной. Дело в том, что в словах русского языка отдельные буквы не являются независимыми. Кроме того, необходимо учитывать вероятности появления троек букв, четверок и т.д. При учете всех этих фактов получается следующая оценка количества информации, приходящейся на один знак в русскоязычном сообщении: Н » 1,2 бит. Для любого другого языка этот показатель будет другим. Например, для немецкого языка Н » 1,6 бит [4, c. 10-11].

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *