Модернизація китайської мови і писемності

Курсовой проект - Иностранные языки

Другие курсовые по предмету Иностранные языки

вживанні в байхуа буде порушене зорове сприйняття. У контексті такі слова буде складно відокремити від тих, які стоять перед і за ним, що ускладнить читання й розуміння тексту. У японському "Словнику китайської мови" Кураіси Такесіро ченъюі вэньяня пишуться разом в один суцільний ряд що також представляється занадто громіздким. В останні роки намітилася тенденція до компромісного рішення: писати слова або словосполучення з вэньяня через дефіс, що їх одночасно й зєднує, і розєднує, наприклад: ????Yugong-Yі- Shan Юй Гун пересуває гору, ???? chengqіan- bіhou щоб помилки минулого послужили уроком на майбутнє. Однак і тут виникає побоювання, що доведеться писати занадто багато дефісів. Як бути?

Під час відсутності затверджених правил написання слів в різних друкованих виданнях, які видаються на алфавіті піньінь цзиму написання 85% слів збігається, у написанні 15%, що залишилися є великі розбіжності. Потрібно прагнути до усунення цих розбіжностей за допомогою звичного "загальновживаного" написання, а цього не можна досягти за короткий час.

"Проект фонетичного алфавіту для китайської мови" дає норму запису складів. Орфографія дає норму запису слів і словосполучень. Зєднання "Проекту" з орфографією й стане добре розробленою системою алфавітного письма[10,68-71].

 

РОЗДІЛ 4

СИСТЕМА СПОЛУЧЕННЯ ДВОХ МЕТОДІВ МАШИННОЇ ОБРОБКИ КИТАЙСЬКИХ ТЕКСТІВ

 

4.1 Початок дослідження методів обробки китайських текстів

 

Деякі говорять, що, коли можлива машинна обробка ієрогліфічних текстів, алфавіт більше не потрібний. Але все навпаки. Без алфавіту ЕОМ не могло стати знаряддям підвищення культури широких мас. ЕОМ, що обробляли ієрогліфічні тексти, потребували значних коштів, у них застосовувалися складні операції, одній людині важко було працювати на такій машині. Масове впровадження ЕОМ можливе було тільки у випадку використання машин, що обробляли тексти, записані алфавітом. Це також вигідно й з боку встановлення звязку з міжнародною інформаційною системою. Це так само вірно, як і те, що алфавітні друкарські машинки мали масове застосування, а ієрогліфічні могли експлуатуватися не широким колом людей, а лише спеціально підготовленими друкарками в установах. Для того щоб машинна обробка китайських текстів ішла в ногу з часом , необхідно було використовувати систему, що сполучала два методи: обробляла на ЕОМ і ієрогліфічні тексти, і алфавітні. Перший із цих методів варто було застосовувати організаціям, що мали для цього необхідні людські й матеріальні ресурси й до того ж існувала велика потреба у використанні ієрогліфів. Другий - приватними особами, у родині, у шкільних класах, у порівняно невеликих установах.

У той час багатьма організаціями Пекіна проводилися експерименти з метою створення штучного інтелекту. Наприклад, в Академії китайської медицини ЕОМ використовували для постановки діагнозів хворим, ведення історій хвороби, виписки рецептів; в Інституті мовознавства на ЕОМ проводилися експерименти в рамках діалогу "людина - машина"; в Інституті психології за допомогою ЕОМ ставили експерименти по "розумінню китайської мови". У всіх цих експериментах використовували алфавіт, а не ієрогліфи. Чому? Причина дуже проста: обробка ієрогліфічних текстів вимагала дорогого устаткування й складних процедур. Тому система сполучення двох методів фактично вже існувала, причому машини, що обробляли алфавітні тексти, зайняли провідне положення[9,156-157].

Звичайно, це не означило, що не потрібно було розвивати електронно-обчислювальну техніку, яка обробляла б ієрогліфічні тексти. При обробці ієрогліфічних текстів основні труднощі полягали у введенні ієрогліфів в ЕОМ. До теперішнього часу розроблено більше 400 способів введення ієрогліфів в ЕОМ. Вони підрозділяються на три групи:

1) графічні: ієрогліфи вводяться безпосередньо в ЕОМ у порядку черговості по елементах. Цей метод уже затвердився, підходить для використання в таких великих установах, як друкарні;

2) кодування за допомогою числового коду: більше 400 наявних способів належать головним чином саме до цієї групи;

3) перетворення алфавіту.

 

4.2 Способи кодування ієрогліфів

 

Способи кодування ієрогліфів за допомогою числового коду також підрозділяються на кілька видів.

1. Кодування елементів. Елементи, з яких складаються ієрогліфи, бувають великими й малими. Великий елемент відповідає, як правило, ключу ієрогліфа, малі елементи утворяться в результаті подальшого розкладання великого. Кожному елементу відповідає певна клавіша на панелі ЕОМ або ж йому дається певний числовий код.

2. Кодування ієрогліфів за їхніми особливими ознаками. У цьому випадку кодуються певні особливі ознаки ієрогліфів, наприклад третій або четвертий кут, перша або остання риска.

3. Кодування по рисках. Ієрогліфи складаються з рисок, які зводяться до декількох основних видів. Кожному такому виду відповідає клавіша на панелі ЕОМ або ж йому дається певний числовий код. Це старий спосіб, що розвивається на новій основі.

4. Числове кодування: кожному ієрогліфу на підставі його місця в словнику, частотності вживання або якої-небудь іншої характеристики дається числовий код. Найбільш старим і розповсюдженим з таких кодів є чотиризначний телеграфний код.

5. Кодування методом комбінації звучання й накреслення: текст вводиться частково за допомогою алфавіту або алфавітних скорочень, частково - ієрогліфами. Такого роду ?/p>