Опыт построения по для локализации ос windows 9x/2000

Вид материалаДокументы

Содержание


Идеология полной и "мягкой" поддержки языков на примере операционной системы (ОС) Windows
К вопросу о стан­дар­ти­за­ции применения кыр­гыз­ско­го языка в ИКТ
Современное состояние процесса компьютеризация кыргызского языка
На сегодня это единственное ПО такого рода в Кыргызстане.
Какое ПО не­об­хо­ди­мо нам сейчас для даль­ней­ше­го раз­вития кыргызского язы­ка и ИКТ на кыргызском язы­ке
Заключение и выводы
Подобный материал:

Опыт построения ПО для локализации ОС Windows 9x/2000

(на примере ПО для кыргызского языка).


Асанов Э.Д., эксперт по ИКТ, Национальная комиссия по госязыку
при Президенте Кыргызской Республики


Введение в проблему.


Широкое внедрение достижений современной компьютерной техники и информационных технологий в нашу повседневную жизнь диктует необходимость более полного использования национальных языков и обеспечение их функционирования в сфере информационно-коммуникационных технологий (ИКТ) наравне с ос­новными мировыми языками, для которых существуют свои национальные версии общемиро­вых операционных систем и программного обеспечения (ПО). Это позволит новым независимым странам, в том числе и Кыргызстану, более активно интегрироваться в новое информационное сообщество путем вовлечения широких слоев населения в процесс усвоения и применения всех достижений мировой цивилизации, не теряя при этом своих на­циональных и культурных особенностей.


Идеология полной и "мягкой" поддержки языков на примере операционной системы (ОС) Windows.


Корпорация Майкрософт, мировой лидер в производстве ПО для персональных компьютерных систем, при разработке ОС Windows для поддержки языков при­держивается следующей идеологии:

  1. Для языков, уже имеющих свои версии Windows, обеспечивается полная поддержка этих языков средствами самой ОС, а именно системные сообщения, меню, справочные системы, правила сортировки, обозначения дат, названия валют, шрифты, тесктообработка на этих языках (проверки орфографии и грамматики) и т.д. Это принцип полной поддержки языка;
  2. Для языков, еще не имеющих полной поддержки, по мере добавления новых языков в саму Windows используется, так называемая, "мягкая" поддержка, включающая средства для ввода и отображения текстов на этих языках, а также сред­ства поддержки правил сортировки по алфавиту и корректное отображение атри­бутов языка (названия дат, валют и т.д.).


К вопросу о стан­дар­ти­за­ции применения кыр­гыз­ско­го языка в ИКТ.


О кодировках. Краткий ис­то­рический экскурс.

Кириллические кодировки появились исторически.

  1. Первая широко используемая кириллическая кодировка называлась KOI-8. Она появилась в результате адаптации к русскому языку системы UNIX. Это было еще в семидесятых годах - до появления персональных компьютеров. Кстати, до сих пор в системе UNIX KOI-8 считается основной кодировкой.
  2. Потом появились первые персональные компьютеры, и началось победное шествие DOS. Вместо того чтобы воспользоваться KOI-8 кодировкой, Microsoft решила сделать свою, ни с чем не совместимую. Так появилась DOS-кодировка (или 866 кодовая страница Microsoft).
  3. Параллельно с IBM-совместимыми развивались и Macintosh-совместимые компьютеры. Несмотря на то, что их доля была очень мала, тем не менее, потребность в русификации существовала и, разумеется, была придумана еще одна кодировка - MAC.
  4. Время шло, и 1990 году Microsoft явила на свет первую успешную версию Windows 3.0-3.11. А вместе с ней и поддержку национальных языков. И снова был проделано то же самое, что и с DOS, а именно корпорация Microsoft не поддержала ни одну из уже существовавших ранее кодировок, а предложила новую Win-кодировку (или кодовая страница 1251 Microsoft). Де-факто, в связи с тотальным распространением самой Windows, кодовая таблица 1251 стала самой распространенной в СНГ.
  5. Наконец, пятый вариант кодировки связан уже не с конкретной фирмой, а с попытками стандартизации кодировок на уровне всей планеты. Занималась этим ISO - международная организация по стандартам. Вместо того чтобы принять за основу стандарта какую-нибудь из вышеописанных кодировок, была придумана еще одна (!), названная ISO-8859-5. Разумеется, кодировка тоже оказалась ни с чем не совместимой. И, как следствие, в настоящий момент эта кодировка практически нигде не применяется. Ее используют только в базе данных Oracle. Тем не менее, ее поддержка присутствует во всех браузерах.


Непростая ситуация сложилась и с кыргызским языком. Так, для системы Windows сегодня используются различные кодировки кыргызской кириллицы, что очень затрудняет, а порой и делает невозможным обмен документами. На настоящий момент существует четыре различных кодировки, каждая со своими шрифтами (назовем их условно по названию шрифтов, в которых они используются - это MENCHIK, KYRGYZ BALTIKA, UniToktom, тип "Q"). Авторы трех первых кодировок и шрифтов неизвестны. Особняком стоит кодировка типа "Q", автор которой известен (автор Асанов Э.Д.). Эта кодировка, в отличие от остальных, при работе с Windows на кыргызском языке позволяет корректно работать как с кодовой страницей 866 (DOS), так и с кодовой страницей 1251 (Windows). Поддержка этой кодировки обеспечена обширной библиотекой кыргызских шрифтов, а сама кодировка и шрифты с 1994 года успешно используется всеми кыргызскоязычными газетами и большинством полиграфических предприятий.

Сейчас во всем мире находится в стадии завершения работа над созданием новой универсальной кодировки (UNICODE), в которой предполагается в одной кодовой таблице разместить все языки мира. Кодировка Unicode была принята как стандарт лидерами компьютерной индустрии. Именно эта схема кодирования используется в современных информационных технологиях. Использование Unicode в многоуровневых приложениях или программных комплексах, построенных в рамках архитектуры клиент-сервер, а также при обменах данными в сети Интернет приводит к значительному снижению расходов на поддержку этих продуктов по сравнению с использования прежних систем кодирования. Кроме того, Unicode позволяет создавать единый программный продукт или сайт Интернет для любых платформ, языков и стран без каких-либо переделок и особых адаптаций.

Кстати, стандарт кыргызской кириллицы, реализованный Microsoft в Windows XP, основан на кодировке Unicode, а кодовые номера букв кыргызской кириллицы находятся в зоне Cyrillic Unicode. (диапазон шестнадцатеричных значений от 0400 до 04FF).

Что касается Кыргызстана, то на сегодняшний день у нас отсутствуют государственные стандарты кыргызского языка в ИКТ, что за­метно тормозит процесс ши­рокого внедрения уже наработанного языкового ПО. Думается, это можно отне­сти к болезням роста нашего общества, когда на повестке дня стоят гораздо более зна­чимые социально-экономические за­дачи. Тем не менее, про­блема существует и требует своего безотлагательного ре­шения.


Современное состояние процесса компьютеризация кыргызского языка: .


Процесс этот начался в основном с внедрением технологии настольных издательских систем в СССР в конце 80-х годов 20 века, а именно с внедрения программного комплекса "Ксерокс Вентура Паблишер 2.0". Процесс заметно ускорился с момента обретения Кыргызстаном независимости и, особенно с началом внедрения ОС Windows 3.1. В это время (1993-94 годы) появились программные компоненты Windows, позволяющие работать с кыргызскими текстами. Это, в первую оче­редь, разработанные и внедренные при моем личном участии, кыргызские компьютерные шрифты формата TrueType, основанные на модифицированной кодовой таблице ANSI/1251, и драйверы кыргызской клавиатуры.

Появления Windows 95, а затем 98 и текстового процессора Word 97 вызвали к жизни необходимость использования стандарта ANSI/Unicode 1.0 и нового поколения кыргызских шрифтов и программ для раскладок клавиатуры (1998-1999 годы). Следующее поколение ОС Windows версий NT/2000/XP позволили в полной мере использовать все достоинства коди­ровки Unicode 2.0 на­равне с кодировкой ANSI.

В данное время это наиболее удачное решение для функционирования кыргызского языка и работы с компьютерными технологиями в мульти-языковом режиме. Кро­ме того, в это же время в Windows XP корпорацией Майкрософт была включена "мягкая" поддержка кыргызского языка.

К 2001 году значительный опыт "кыргызификации" Windows, накопленный за предшествующие годы, позволил выпустить многофункциональный программный продукт «Тамга-Кит» и первый национальный текстовый редактор "Тамга" уровня MS Word со встроен­ными сред­ствами проверки кыргызской орфографии и работы с кыргызскими шрифтами в различных кодировках.


Программный продукт «Тамга-Кит» состоит из следующих компонентов:

  1. Кыргызификатор Windows 9x/ME «KGWin9x». Включает клавиатурные раскладки, системные и экранные шрифты и комплект шрифтов TTF- формата в стандарте ANSI. Основная система кодирования - также ANSI;
  2. Кыргызификатор Windows NT/2000/XP «KGWin2k» Это клавиатурные раскладки, системные и экранные шрифты и комплект шрифтов TTF- формата в стандарте Unicode. Кроме того, это модификатор системных настроек Windows 2k для совместного использования шрифтов в кодировках ANSI и Unicode, т.к. основной системой кодирования является система Unicode;
  3. Утилиты для работы с текстами на кыргызском языке (конвертор кыргызских шрифтов TTF- формата в стандарте ANSI и программа переносов);
  4. Библиотека кыргызских шрифтов формата TrueType, подготовленных для использования как в стандарте ANSI, так и в стандарте Unicode;
  5. Текстовый редактор «Тамга 2.0» с функциями проверки кыргызской орфографии, а также переносов и транслитерации;
  6. DLL-модуль для реализации функции проверки кыргызской орфографии при работе с программами MS Office 97/2000.


Программный продукт «Тамга-Кит» прошел апробацию и тестирование в Нацкомиссии по госязыку, в отделе ИСУО Министерства образования и фирме Areopag-IT. Получены положительные отзывы. Основные позиции, отмеченные в отзывах:
  • Полная работоспособность и отсутствие конфликтов при работе с Windows 95/98/ME и NT/2000/XP;
  • Интуитивно-понятный интерфейс;
  • Взаимосвязь всех компонентов программного продукта друг с другом, что дает возможность удобной и комфортной работы с кыргызскими текстами;
  • Реализованные функции взаимной перекодировки текстов в кодировках ANSIUnicodeDOS позволяют переносить тексты и документы на кыргызском языке как с компьютера на компьютер посредством магнитных носителей, так и через среду Интернет.
  • На сегодня это единственное ПО такого рода в Кыргызстане.
  • Программный продукт «Тамга-Кит» незаменим для пользователей, активно использующих кыргызский язык в таких областях как делопроизводство, офисные применения, разработка и сопровождение баз данных, Интернет и электронная почта, а также в сфере просвещения и науки.


Какое ПО не­об­хо­ди­мо нам сейчас для даль­ней­ше­го раз­вития кыргызского язы­ка и ИКТ на кыргызском язы­ке.


В первую очередь это:
  • Программы оптиче­ского распознавания текстов на кыр­гызском языке;
  • Разнообразные электрон­ные словари и справочники;
  • Обучающие программы на кыргызском языке и для кыр­гызского языка;
  • Про­граммы перевода на основные мировые языки.

Кроме перечисленного ПО, потребуется ещё подготовка специалистов по машинной лингвистике, т.е. на стыке языкознания и компьютерных технологий.

Появление вышеперечисленного ПО по­зволит внедрить в пол­ном объеме технологии "без­бу­мажного" документооборота и делопроизводства на кыр­гыз­ском языке. Это, в свою оче­редь, позволит скорее вне­дрить принципы "электрон­ного" правительства в жизнь нашего общества, сначала на региональном уровне Кыргызстана. Это даст толчок дальнейшему развитию образования и науки на кыргызском языке.


Заключение и выводы.


На основании сказанного, мне кажется, что по мере внедрения достижений ИКТ в нашу жизнь более отчетливо проявляет себя проблема разработки унифицированного ПО для применения в сферах образования и науки. В первую очередь это касается разработки "первичного", т.е. системного и инструментального ПО, на базе которого и будет разрабатываться "вторичное", т.е. прикладное ПО на кыргызском языке и для кыргызского языка. Все эти проблемы требуют своего решения и, конечно же, их надо решать, опираясь на общемировой опыт.