"Проблема кодировок": стечение обстоятельств или стратегический замысел?
В данном материале будет рассказано об одной из наиболее обсуждаемых как среди специалистов в области ИТ, так среди и рядовых пользователей компьютерной техники, тем – о проблеме представления (кодирования) символов естественных языков в машинно-читаемом виде. В кругах ИТ-общественности она получила название «проблемы кодировок».
Эта проблема состоит в том, что для решения задачи кодирования символов естественных языков в машинно-читаемом виде было предложено и принято множество стандартов, в том числе международных, которые несовместимы между собой и противоречат друг другу. В результате, как несложно догадаться, при работе с компьютерной техникой возникают многочисленные проблемы при обработке текстовой информации на ряде языков. Эти проблемы в значительной степени препятствуют и свободному обмену такой информацией, в том числе через сеть Internet.
В современном мире сложилась ситуация, когда положение той или иной страны в мировом сообществе напрямую зависит от того, какое положение она занимает в мировой сфере ИТ. И понятно, что поскольку участие страны в существующей мировой сфере ИТ в огромной степени определяется тем, как в этой сфере реализована поддержка работы с информацией на национальном языке, на котором говорит народ этой страны, «проблема кодировок» является чрезвычайно, даже стратегически, важной, как будет показано ниже.
К сожалению, в подавляющем большинстве материалов на тему «проблемы кодировок» их авторы (как русские, так и зарубежные) погружаются исключительно в одну тему – в описание многочисленных технических «внутренностей» различных стандартов, из-за которых при работе с тем или иным языком возникают проблемы. Если даже они и предлагают свои собственные варианты решения данной проблемы, то делают это, «не видя за деревьями леса» и не поднимая ряда
нетехнических
вопросов, которые имеют более глобальный характер. В результате ничего не меняется – несовместимые стандарты лишь продолжают множиться, и «проблема кодировок» остаётся нерешённой.
Для того, чтобы на практике приблизиться к решению «проблемы кодировок», нужно иметь представление о том,
Приложение #1. Предыстория «проблемы кодировок».
Первой системой кодирования, в которой для представления символов естественных языков применялись двоичные последовательности (а в современной компьютерной технике используется тот же самый принцип), была система, которую в 1874-м году реализовал француз Ж. Бодо в своём «печатающем телеграфе». Заметим, что в то время телеграф был ничуть не менее передовым изобретением в сфере ИТ, чем в наше время – компьютер.
Система Ж. Бодо широко применялась и в XX веке, до тех пор, пока телеграф как средство связи окончательно не уступил свои позиции телефону. В 1932-м году CCITT (ныне – ITU-T) зарегистрировал её в качестве международного стандарта под названием «International Telegraphic Alphabet №2», т.е. «Международный алфавит №2 для телеграфа».
Обратим внимание на следующие немаловажные обстоятельства:
Несмотря на то, что на Земле насчитывается более 2500 естественных языков, система, предложенная Ж. Бодо, обеспечивала работу с буквами только одного языка. Заметим, что это был не французский язык, так как в оригинальной версии системы Ж. Бодо не был предусмотрен ряд букв, используемых во французском языке (например, «É»), и даже не латинский – это был английский язык; как известно, в латинском алфавите, в отличие от английского, нет буквы «W», а в системе Ж. Бодо она была предусмотрена.
Из-за технических ограничений, существовавших в XIX веке, в системе Ж. Бодо был использован метод кодирования, при котором каждый символ представлялся с помощью двоичной последовательности длиною в 5 бит, а в таблице символов было всего 64 позиции (как
минимум
4 из которых
обязательно
приходились на долю управляющих последовательностей). Производство более сложно сконструированных технических устройств, на которых можно было бы реализовать более совершенные методы – для представления большего числа символов, – было невыгодно тогдашней промышленности, так как не позволяло ей удерживать более-менее разумные цены на устройства и снимать сверхприбыли одновременно.
Приложение #2. Международные организации по стандартизации
UN (United Nations)
– собственно ООН, Организация Объединённых Наций. Создана в США в 1945-м году. Штаб-квартира, как известно, находится в Нью-Йорке.
Безусловно, у ООН имеются положительные заслуги в части правозащитных и некоторых миротворческих инициатив. В числе наиболее существенных, например, Всеобщая декларация прав человека (1948) и программа World Health Organization (WHO, или ВОЗ – дочерняя структура ООН) по искоренению натуральной оспы (1977).
С помощью своих дочерних структур ООН охватывает и регулирует практически все аспекты жизнедеятельности мирового сообщества. Однако в последнее время большая часть наиболее общественно полезных инициатив ООН носит преимущественно декларативный характер.