Информатика

Дискретное представление информации

3.5.2022

33838

На этой странице вы узнаете

Почему в килобайте 1024 байт?
Как закодировать то, что закодировать по факту невозможно?

Приезжают к вам дальние родственники с гостинцами. Вот они уже стоят у вашего подъезда и звонят с просьбой помочь поднять вещи. Говорят, у них там только один пакет, просто в руки уже не влезает. Вы, как хороший человек, конечно, спускаетесь к ним и понимаете: хотелось бы заранее узнать, что «один пакет» — это абсолютно неподъемный мешок яблок.

Попасть впросак с информацией так тоже можно. Преподаватель по физике говорит, что хочет скинуть вам пару файлов для домашнего задания. А «пара файлов» — это 4 фильма и два огромных документа PDF. Хотелось бы, чтобы он заранее сказал, сколько это дело будет весить. Но как вообще взвесить информацию?

Измерение информации

Для начала вспомним, что вся информация в компьютере хранится в виде двоичного кода – определенной последовательности нулей и единиц. Подробнее об этом мы рассказывали в статье «Основные понятия об информации». Храня информацию, компьютер выделяет ей место в памяти, в которое и будут записаны двоичные коды закодированных файлов.

В чем измеряется информация?

Бит — наименьшая единица измерения объема информации. Ему соответствует одна цифра двоичного кода.

И по той же причине, почему нам неудобно измерять расстояние от Москвы до Владивостока линейкой, которая влезает в пенал, для измерения размера больших файлов мы будем использовать не биты, а увеличенные единицы измерения (как километры для метров):

1 байт = 8 бит
1 килобайт (кбайт) = 1024 байт
1 мегабайт (мбайт) = 1024 кбайт
1 гигабайт (гбайт) = 1024 мбайт
1 терабайт (тбайт) = 1024 гбайт

Перевод между ними происходит посредством деления и умножения. Например:

5 гбайт = 5 * 1024 мбайт = 5120 мбайт;
2048 кбайт = 2048 / 1024 мбайт = 2 мбайт;
800 бит = 800 / 8 байт = 100 байт.

Почему в килобайте 1024 байт?

Мы привыкли, что, например, в 1 килограмме – ровно 1000 грамм, а в 1 метре – ровно 100 сантиметров и так далее. При измерении информации берется не ровно 1000, а 1024. Почему так?

Причина в различиях систем счисления. Наша родная система счисления – десятичная, потому что нам удобно считать 10 пальцев на руках. А родная система счисления для компьютера – двоичная. Он знает всего две цифры и ему удобнее выделять в своей памяти количество места, равное степени двойки: \(2^{10}=1024\).

Поэтому нам, информатикам, неплохо бы знать степени двойки, как таблицу умножения, хотя бы до 10 степени. Это поможет избавить себя от постоянных перерасчетов одного и того же. А понадобятся они нам еще не раз:

2⁰ = 1	2¹ = 2	2² = 4	2³ = 8
2⁴ = 16	2⁵ = 32	2⁶ = 64	2⁷ = 128
2⁸ = 256	2⁹ = 512	2¹⁰ = 1024	2¹¹ = 2048

Зная эти степени, мы можем гораздо удобнее оформлять промежуточные расчеты в задачах, где надо перевести большие значения величины информации в биты.

Например, 25 гбайт в битах можно представить двумя способами:

25 гбайт = 25 * 1024 мбайт = 25 * 1024 * 1024 кбайт = 25 * 1024 * 1024 * 1024 байт = 25 * 1024 * 1024 * 1024 * 8 бит = 214748364800 бит;
25 гбайт = 25 * 2¹⁰ мбайт = 25 * 2¹⁰ * 2¹⁰ кбайт = 25 * 2¹⁰ * 2¹⁰ * 2¹⁰ байт = 25 * 2¹⁰ * 2¹⁰ * 2¹⁰ * 2³ бит = 25 * 2³³ бит.

Когда это лишь промежуточная запись при решении задачи, второй вариант, очевидно, удобнее, так как со степенями работать проще, чем с огромными числами.

Дискретизация информации

Каким образом мы можем закодировать какую-то информацию с помощью всего двух символов? Из физики мы знаем, что звук – непрерывная волна, которая меняет свою высоту в разные моменты времени. Цвет также может плавно меняться, например, в радуге мы выделяем 7 цветов и можем при виде радуги найти отдельные цвета, но вот четкой границы между синей областью радуги и фиолетовой выделить нельзя.

Такая информация называется аналоговой – представленная в непрерывном виде с плавным изменением ее параметров — высоты звуковой волны, громкости для звуковой информации, яркости или оттенка цвета для визуальной информации.

Как закодировать то, что закодировать по факту невозможно?

Ответ: никак. В аналоговом виде даже сложно представить, что именно кодировать. Например, абсолютно любая точка на радуге будет иметь свой оттенок, который будет отличаться от любого другого. Даже если разница будет практически незаметна человеческому глазу. А закодировать бесконечное количество различных оттенков мы не можем.

Но мы, мечту свою лелея, решим проблему гениально.
Мы избавимся от непрерывности, используя только то, что нам надо. Мы будем разбивать всю информацию, что у нас есть, на небольшие «кусочки». И с этим уже можно будет работать.

Изображение можно разбить на отдельные маленькие точки и составить свою палитру. Например, можно сказать, что код 0000 будет черным цветом, код 1111 – белым, а все коды между этими числами – оттенки серого. Причем сделать так можно с несколькими цветами, которые потом между собой можно еще и «перемешивать».
Для звука – кодировать только определенные частоты, которые будут различаться настолько незначительно, что мы не будем замечать резких переходов, только плавные.
С текстом все совсем просто. Кодируем отдельно те символы, которые используем, и составляем закодированные фразы из закодированных букв.

Такое представление информации – в виде отдельных «кусочков» – называется дискретным, а процесс «разбиения» аналогового сигнала – дискретизацией.

Теперь вместо абсолютно непрерывного сигнала у нас есть набор конкретных величин, закодировать которые уже не так трудно.

Где это все применяется?

Разберем на конкретном примере. В номере 1 ОГЭ вам может встретиться задача со следующим условием:

Нина записала текст в документ, где используется двухбайтовая кодировка (1 символ = 2 байта). В тексте нет лишних пробелов. У нее получилось:

Снег лежал везде: на домах, на деревьях, на кустах, на скамейках, на тротуарах, на земле.

Затем подумав, ученица удалила одно словосочетание – место, где лежал снег, а также лишние знаки. Получившийся текст в данной кодировке оказался на 208 бит меньше, чем размер исходного текста. Напишите в ответе текст, который был удален Ниной.

Как такое решать? Применим знания, полученные из этой статьи. Для начала, приведем все величины в задаче к одной единице измерения, например, к байтам.

По условию один символ занимает 2 байта, а всего размер файла изменился на 208 бит, то есть на 208/8 = 26 байт. Тогда можно вычислить количество символов, удаленных из файла, это 26/2 = 13 символов. Внимательно посмотрим на изначальный текст: среди удаленных символов в любом случае должны были быть запятая, пробел перед предлогом, предлог «на», пробел и само слово. Значит, на слово приходится 8 букв. Это слово — «деревьях». Получается, что удаленный текст — «на деревьях».

Понимание процесса дискретизации также нужно для решения задач на хранение изображений и аудиофайлов, которые встречаются в задаче 7 ЕГЭ и в задании 1 ОГЭ. Разные хранимые данные требуют разных подходов. Подробнее про решение задач на кодирование разных типов информации мы рассказали в других статьях:
— Однозначное декодирование
— Кодирование звука
— Кодирование изображения

Фактчек

Бит — наименьшая единица измерения информации, ему соответствует одна цифра двоичного кода.
При переводе из больших единиц измерения информации в меньшие и наоборот используются единицы измерения информации, разность между которыми является степенью двойки (1 байт равен 8 бит, все последующие единицы измерения больше предыдущей в 1024 раза).
Аналоговая информация не представляется в цифровом виде.Для ее кодирования информация должна быть представлена в дискретном виде, где кодироваться будет каждый отдельный элемент информации.

Проверь себя

Задание 1.
1 байту соответствует…

10 бит
9 бит
8 бит
7 бит

Задание 2.
Выберите верные варианты, чему соответствует 6 кбайт:

0.6 мбайт
6144 байт
6000 байт
\(6*2^{13}\) бит
\(6*2^{20}\) бит

Задание 3.
Дискретизация – это …

Процесс разбиения сигнала на составляющие элементы.
Случайное нарушение целостности информации.
Процесс преобразования дискретного сигнала в аналоговый.

Задание 4.
Для записи в цифровой вид используется дискретная информация, потому что …

она прикольная
это бесплатно
важно сохранить исходную целостность информации
проще кодировать отдельные составляющие

Ответы: 1. — 3; 2. — 2, 4; 3. — 1; 4. — 4.

Дискретизация Измерение информации Информатика

Понравилась статья? Оцени: