Информационная энтропия

Из Википедии, бесплатной энциклопедии

Теория информации

Информацио́нная энтропи́я — мера неопределённости некоторой системы (в статистической физике или теории информации), в частности, непредсказуемость появления какого-либо символа первичного алфавита. Энтропия дискретного источника равна среднему количеству информации, приходящейся на один символ сообщения[1][2][3].

Например, в последовательности букв, составляющих какое-либо предложение на русском языке, разные буквы появляются с разной частотностью, поэтому неопределённость появления для некоторых букв меньше, чем для других. Если же учесть, что некоторые сочетания букв (в этом случае говорят об энтропии -го порядка, см. ниже) встречаются очень редко, то рассчитанная энтропия языка уменьшается ещё сильнее[4].

Формальные определения

[править | править код]

В случае равновероятных символов источника информационная энтропия рассчитывается по формуле Хартли:

,

где  — мощность (основание, объём) алфавита (количество различных символов алфавита),  — количество информации в каждом символе сообщения. В общем случае, основание логарифма в определении энтропии может быть любым, большим 1 (так как алфавитом, состоящим только из одного символа, нельзя передавать информацию). Выбор основания логарифма определяет единицу измерения информации. Для информационных систем, основанных на двоичной системе счисления, единицей информации является двоичный символ — бит и основание логарифма . В этом случае энтропия называется двоичной энтропией. В задачах математической статистики более удобным может оказаться применение натурального логарифма (), в этом случае единицей измерения информации является нат.

Для случайной величины , принимающей независимых случайных значений с вероятностями (), для энтропии используется формула Шеннона:

Здесь

означает измеряемое в битах количество информации, содержащейся в том событии, что случайная величина приняла значение (для предложений на русском языке — количество информации, содержащейся в конкретной букве, имеющей номер в русском алфавите, ),
 — среднее количество информации, приходящейся на один символ сообщения (для предложений на русском языке — количество информации на одну букву). Эта величина также называется средней энтропией сообщения. Величина называется частной энтропией, характеризующей только -e состояние.

Таким образом, энтропия системы является суммой с противоположным знаком всех вероятностей появления состояния (события) с номером , умноженных на их же двоичные логарифмы. Это определение для дискретных случайных событий можно формально расширить для непрерывных распределений, заданных плотностью распределения вероятностей, однако полученный функционал будет обладать несколько иными свойствами (см. дифференциальная энтропия).

В случае марковского источника -го порядка, когда условная вероятность появления текущего символа зависит только от предыдущих символов сообщения, то есть при наличия вероятностных связей между символами сообщения (что имеет место в текстовом сообщении), энтропия источника сообщения определяется по формуле[5][6]:

где — вероятность -го состояния источника, которое определяется символами сообщения, предшествующих текущему символу , — число состояний, — условная вероятность выбора источником символа в -ом состоянии, -ая последовательность из символов, предшествующая символу , — вероятность появления последовательности и .

Клодом Шенноном было уcтановлено, что энтропия английского текста при равна 0.6—1.3 бит/символ[7]. Также с помощью экспериментальных оценок установлено, что энтропия русского языка с учетом вероятностных связей между элементами равна 1.4 бит/символ для разговорной речи, 1.19 бит/символ для литературного текста, 0.83 бит/символ для делового текста. Энтропия французского языка с учетом вероятностных связей между элементами равна 1.5, 1.38, 1.22 бит/символ соответственно[4].

Определение по Шеннону

[править | править код]

Клод Шеннон задал требования к измерению энтропии:

  1. функция должна быть непрерывной относительно ; то есть изменение значения величины вероятности на малую величину должно вызывать малое результирующее изменение функции;
  2. в случае, когда все события равновероятны (), увеличение количества событий должно увеличивать значение функции, то есть функция должна быть монотонно возрастающей при увеличении ;
  3. Если выбор распадается на два последовательных выбора, то первоначальное значение функции должна быть взвешенной суммой индивидуальных значений функции[8].

Эти требования к энтропии можно записать в виде:

  1. определена и непрерывна для всех , где для всех и . (Эта функция зависит только от распределения вероятностей, но не от алфавита.)
  2. Для целых положительных , должно выполняться следующее неравенство:
  3. Для целых положительных , где , должно выполняться равенство

Шеннон показал, что единственная функция, удовлетворяющая этим требованиям, имеет вид[9]:

где  — положительная константа (и в действительности нужна только для выбора единицы измерения энтропии; изменение этой константы равносильно изменению основания логарифма).

Шеннон определил, что измерение энтропии (), применяемое к источнику информации, может определить требования к пропускной способности канала, необходимой для надёжной передачи информации в виде закодированных двоичных чисел.

Определение энтропии Шеннона связано с понятием термодинамической энтропии. Больцман и Гиббс проделали большую работу по статистической термодинамике, которая способствовала принятию слова «энтропия» в информационную теорию. Существует связь между термодинамической и информационной энтропией. Например, демон Максвелла также противопоставляет термодинамическую энтропию информации, и получение какого-либо количества информации равно потерянной энтропии.

Определение с помощью собственной информации

[править | править код]

Также можно определить энтропию случайной величины, предварительно введя понятие распределения случайной величины , имеющей конечное число значений[10]:

и собственной информации:

Тогда энтропия определяется как математическое ожидание этой величины:

Единицы измерения информационной энтропии

[править | править код]

От основания логарифма зависит единица измерения количества информации и энтропии: бит, нат, трит или хартли.

Энтропия является количеством, определённым в контексте вероятностной модели для источника информации. Например, бросание монеты имеет энтропию:

бит на одно кидание (при условии его независимости), а количество возможных состояний равно: возможных состояния (значения) («орёл» и «решка»).

У источника, который генерирует строку, состоящую только из букв «А», энтропия равна нулю: , а количество возможных состояний равно: возможное состояние (значение) («А») и от основания логарифма не зависит.

Примером запоминающих устройств, в которых используются разряды с энтропией, равной нулю, но с количеством информации, равным одному возможному состоянию, то есть не равным нулю, являются разряды данных записанных в ПЗУ, в которых каждый разряд имеет только одно возможное состояние.

Математические свойства

[править | править код]

Свойствами энтропии являются[11]:

  1. Неотрицательность: . Энтропия равна нулю, когда все вероятности , кроме одной, равны нулю, и эта вероятность равна единице.
  2. Максимальное значение энтропии равно и достигается в случае, когда все символы алфавита равновероятны, где — основание алфавита.
  3. Энтропия — выпуклая вверх функция распределения вероятностей элементов[12].
  4. Если имеют одинаковое распределение вероятностей элементов, то .

Избыточность

[править | править код]

Избыточностью алфавита (языка, сообщения) называется степень неодинаковости распределения вероятностей различных элементов алфавита, а также степень взаимной зависимости элементов алфавита, проявляющиеся в уменьшении его энтропии по сравнению с максимальным значением. Таким образом, если алфавит имеет вероятностное распределение, отличное от равномерного, то его энтропия , рассчитанная с учетом вероятностных связей между его элементами[5], отлична от максимального значения, равного , где — основание алфавита.

Избыточность языка (избыточность сообщения) определяется по формуле[4][13]:

Избыточность можно уменьшить с помощью сжатия сообщения. В случае, когда сообщение не имеет избыточности (), то есть вероятности всех символов сообщения одинаковы, оптимальным кодированием является равномерное кодирование, при котором каждый символ сообщения кодируется одинаковым числом битов, равным . В случае, когда сообщение имеет избыточность, и равномерное кодирование не является оптимальным, так как требует битов для кодирования каждого символа. Однако избыточность может быть уменьшена полностью или частично, если при кодировании представлять наиболее вероятные символы сообщения короткими последовательностями битов, а менее вероятные — более длинными. В этом случае среднее количество битов, приходящихся на один символ сообщения, окажется меньшей, чем в случае равномерного кодирования[14]. Поэтому сообщение будет занимать меньший размер, и оно может быть передано по каналу связи более быстро.

Основная теорема кодирования гласит, что сообщение с основанием алфавита , имеющее энтропию , можно так закодировать посредством кодовых символов с основанием алфавита , что среднее число кодовых символов на один элемент сообщения удовлетворяет неравенству[15]:

Таким образом, среднее число кодовых символов на один элемент сообщения не может быть сделано меньше, чем . В противном случае, сообщение нельзя достоверно восстановить.

Если кодирование производится двоичными кодовыми символами , то это означает, что при кодировании без потерь среднее число битов, приходящихся на символ сообщения, не может быть меньше энтропии сообщения, которая и является средним количеством информации (битов), приходящееся на символ сообщения, но может быть сделано меньше, чем энтропия плюс 1. Такое кодирование устраняет избыточность без потери информации.

Сжатие без потерь может быть реализовано с помощью кодирования Хаффмана, кодирования Лемпеля — Зива — Велча или арифметического кодирования.

Вариации и обобщения

[править | править код]

b-арная энтропия

[править | править код]

В общем случае b-арная энтропия (где b равно 2, 3, …) источника с исходным алфавитом и дискретным распределением вероятности где является вероятностью символа (), определяется формулой:

В частности, при , мы получаем обычную двоичную энтропию, измеряемую в битах. При , мы получаем тринарную энтропию, измеряемую в тритах (один трит имеет источник информации с тремя равновероятными состояниями). При мы получаем информацию, измеряемую в натах.

Условная энтропия

[править | править код]

Если следование символов алфавита не независимо (например, во французском языке после буквы «q» почти всегда следует «u», а после слова «передовик» в советских газетах обычно следовало слово «производства» или «труда»), количество информации, которую несёт последовательность таких символов (а, следовательно, и энтропия) меньше. Для учёта таких фактов используется условная энтропия.

Условной энтропией (для марковской модели) называется энтропия для алфавита, где известны вероятности появления одного символа после известной последовательности из предыдущих символов :

где — основание алфавита, -ая последовательность из символов, предшествующая символу , — совместная вероятность появления последовательности и , — условная вероятность появления символа после последовательности [6][16].

Например, для русского текста без буквы «ё» [17].

При эта условная энтропия называется энтропией текста.

Условную энтропию можно использовать при определении информационных потерь при передаче данных в канале с помехами. Для этого применяются так называемые канальные матрицы. Для описания потерь со стороны источника (то есть известен посланный символ) рассматривают условную вероятность получения приёмником символа при условии, что был отправлен символ . При этом канальная матрица имеет следующий вид:

Вероятности, расположенные по диагонали, описывают вероятность правильного приёма, а сумма всех элементов любой строки даёт 1. Потери, приходящиеся на передаваемый символ , описываются через частную условную энтропию (условная энтропия сообщения из принятых символов при фиксированном переданном символе ):

Для вычисления потерь при передаче всех символов используется средняя условная энтропия[18]:

означает энтропию со стороны источника, аналогично рассматривается  — энтропия со стороны приёмника: вместо всюду указывается .

Свойства условной энтропии[19]:

  1. ,
  2. ,
  3. , в случае, когда символы сообщений и независимы.
  4. , в случае, когда символы сообщений и полностью зависимы[20].
  5. ,
  6. .

Энтропия объединения

[править | править код]

Энтропия объединения[21] (совместная энтропия, энтропия произведения) предназначена для расчёта энтропии взаимосвязанных систем (энтропии совместного появления сообщений) и обозначается , где характеризует передатчик, а  — приёмник.

Взаимосвязь переданных и полученных сигналов описывается вероятностями совместных событий , и для полного описания характеристик канала требуется только одна матрица:

Для более общего случая, когда описывается не канал, а в целом взаимодействующие системы, матрица необязательно должна быть квадратной. Сумма всех элементов столбца с номером даёт , сумма строки с номером есть , а сумма всех элементов матрицы равна 1. Совместная вероятность событий и вычисляется как произведение исходной и условной вероятности:

Условные вероятности производятся по формуле Байеса. Таким образом, имеются все данные для вычисления энтропий источника и приёмника[11]:

Энтропия объединения вычисляется последовательным суммированием по строкам (или по столбцам) всех вероятностей матрицы, умноженных на их логарифм[11]:

где — совместная вероятность того, что символ алфавита примет значение , а символ алфавита примет значение .

Путём несложных преобразований также получаем:

Энтропия объединения обладает свойством информационной полноты — из неё можно получить все рассматриваемые величины.

Свойства энтропии объединения[19]:

  1. ,
  2. , в случае когда символы сообщений и независимы.
  3. , в случае когда символы сообщений и полностью зависимы[22].

Взаимная информация

[править | править код]

Средняя взаимная информация (взаимная энтропия)[23] определяется через энтропию и условную энтропию как[24]:

Средняя взаимная информация представляет собой среднее количество информации в сообщении , содержащейся в сообщении [25].

Величина называется средней условной собственной информацией, то есть средним количеством информации в сообщении после получения сообщения [26].

Средняя взаимная информация вычисляется по формуле[25][27]:

.

Теорема Шеннона

[править | править код]

Скоростью передачи информации по дискретному каналу связи называется величина[28]:

где

— среднее время, затрачиваемое на передачу одного символа,
— производительность источника сообщений,
— ненадежность, отнесённая к единице времени, — ненадежность, то есть среднее количество информации, теряемой при передаче информации и являющейся мерой неопределённости принятого символа[29][30].

Теорема Шеннона для дискретного канала без шума гласит, что сообщение источника с производительностью , можно закодировать так, чтобы передавать его сколь угодно точно по дискретному каналу без шума, при условии что . Это невозможно, если [31].

В 1948 году, исследуя проблему рациональной передачи информации через зашумлённый коммуникационный канал, Клод Шеннон предложил революционный вероятностный подход к пониманию коммуникаций и создал первую, истинно математическую, теорию энтропии. Его идеи послужили основой разработки двух основных направлений: теории информации, которая использует понятие вероятности и эргодическую теорию для изучения статистических характеристик данных и коммуникационных систем, и теории кодирования, в которой используются главным образом алгебраические и геометрические инструменты для разработки эффективных кодов.

Понятие энтропии как меры случайности введено Шенноном в его статье «Математическая теория связи» (англ. A Mathematical Theory of Communication), опубликованной в двух частях в Bell System Technical Journal в 1948 году.

Примечания

[править | править код]
  1. Шеннон К. Работы по теории информации и кибернетике, 1963. — С. 264.
  2. Усенко О. А. Приложения теории информации и криптографии в радиотехнических системах, 2017. — С. 26.
  3. Финк Л. М. Теория передачи дискретных сообщений, 1970. — С. 23.
  4. 1 2 3 Лось А. Б., Нестеренко А. Ю., Рожков М. И. Криптографические методы защиты информации, 2016. — С. 64.
  5. 1 2 Варгаузин В. А., Цикин И. А. Методы повышения энергетической и спектральной эффективности цифровой радиосвязи, 2013. — С. 18.
  6. 1 2 C. E. Shannon. Prediction and Entropy of Printed English, 1951. — P. 51.
  7. Angelo Vulpiani, Roberto Livi. The Kolmogorov Legacy in Physics, 2003. — P. 98.
  8. Шеннон К. Работы по теории информации и кибернетике, 1963. — С. 260.
  9. Shannon, Claude E. A Mathematical Theory of Communication // Bell System Technical Journal[англ.]. — 1948. — Июль (т. 27, № 3). — С. 419. — doi:10.1002/j.1538-7305.1948.tb01338.x. Архивировано 1 августа 2016 года.
  10. Габидулин Э. М., Пилипчук Н. И. Лекции по теории информацииМФТИ, 2007. — С. 16. — 214 с. — ISBN 978-5-7417-0197-3
  11. 1 2 3 Шеннон К. Работы по теории информации и кибернетике, 1963. — С. 262.
  12. Фомичёв В. М. Элементы теории информации в защите информации, 2021. — С. 56.
  13. Финк Л. М. Теория передачи дискретных сообщений, 1970. — С. 27.
  14. Финк Л. М. Теория передачи дискретных сообщений, 1970. — С. 70.
  15. Фано Р. М. Передача информации. Статистическая теория связи, 1965. — С. 90.
  16. Cover, T., King, R. A. convergent gambling estimate of the entropy of English, 1978. — P. 413.
  17. Лебедев Д. С., Гармаш В. А. О возможности увеличения скорости передачи телеграфных сообщений. — М.: Электросвязь, 1958. — № 1. — С. 68—69.
  18. Фомичёв В. М. Элементы теории информации в защите информации, 2021. — С. 60.
  19. 1 2 Фомичёв В. М. Элементы теории информации в защите информации, 2021. — С. 61.
  20. Усенко О. А. Приложения теории информации и криптографии в радиотехнических системах, 2017. — С. 33.
  21. Усенко О. А. Приложения теории информации и криптографии в радиотехнических системах, 2017. — С. 32.
  22. Усенко О. А. Приложения теории информации и криптографии в радиотехнических системах, 2017. — С. 32—33.
  23. Усенко О. А. Приложения теории информации и криптографии в радиотехнических системах, 2017. — С. 36.
  24. Кудряшов В. Д. Теория информации, 2009. — С. 107.
  25. 1 2 Фомичёв В. М. Элементы теории информации в защите информации, 2021. — С. 168.
  26. Фано Р. М. Передача информации. Статистическая теория связи, 1965. — С. 61.
  27. Фано Р. М. Передача информации. Статистическая теория связи, 1965. — С. 65.
  28. Финк Л. М. Теория передачи дискретных сообщений, 1970. — С. 49.
  29. Финк Л. М. Теория передачи дискретных сообщений, 1970. — С. 47.
  30. Фано Р. М. Передача информации. Статистическая теория связи, 1965. — С. 66.
  31. Финк Л. М. Теория передачи дискретных сообщений, 1970. — С. 67.

Литература

[править | править код]
  • Шеннон К. Работы по теории информации и кибернетике. — М.: Издательство иностранной литературы, 2002.
  • Волькенштейн М. В. Энтропия и информация. — М.: Наука, 2006.
  • Цымбал В. П. Теория информации и кодирование. — Киев: Вища Школа, 2003.
  • Martin, Nathaniel F.G. & England, James W. Mathematical Theory of Entropy. — Cambridge University Press, 2011. — ISBN 978-0-521-17738-2.
  • Шамбадаль П. Развитие и приложение понятия энтропии. — М.: Наука, 1967. — 280 с.
  • Мартин Н., Ингленд Дж. Математическая теория энтропии. — М.: Мир, 1988. — 350 с.
  • Хинчин А. Я. Понятие энтропии в теории вероятностей // Успехи математических наук. — Российская академия наук, 1953. — Т. 8, вып. 3(55). — С. 3—20.
  • Брюллюэн Л. Наука и теория информации. — М., 1960.
  • Винер Н. Кибернетика и общество. — М., 1958.
  • Винер Н. Кибернетика или управление и связь в животном и машине. — М., 1968.
  • Петрушенко Л. А. Самодвижение материи в свете кибернетики. — М., 1974.
  • Эшби У. Р. Введение в кибернетику. — М., 1965.
  • Яглом А. М., Яглом И. М. Вероятность и информация. — М., 1973.
  • Волькенштейн М. В. Энтропия и информация. — М.: Наука, 1986. — 192 с.
  • Верещагин Н. К., Щепин Е. В. Информация, кодирование и предсказание. — М.: ФМОП, МЦНМО, 2012. — 238 с. — ISBN 978-5-94057-920-5.