Удк 519. 8 Определение лексического ядра славянских языков
Вид материала | Документы |
- Урока Дата Тема урока Кол-во часов, 597.91kb.
- Программа дисциплины дпп. Дс. 01. Введение в славянскую филологию с элементами страноведения, 146.35kb.
- Схема лексического анализа текста, 16.04kb.
- Конспект лекций москва 2004 удк 519. 713(075)+519. 76(075) ббк 22. 18я7, 1805.53kb.
- Программа Государственного экзамена по подготовке магистра по направлению «Физика ядра, 32.88kb.
- Реферат по дисциплине «Введение в языкознание», 2324.87kb.
- Концепция фундаментального ядра содержания общего образования, 702.72kb.
- Концепция фундаментального ядра содержания общего образования, 814.92kb.
- Удк 004. 083 +519. 71 Моделирование и оптимизация структуры информационного ресурса, 332.68kb.
- Удк 519. 06, 28.91kb.
УДК 519.8
Определение лексического ядра славянских языков
Нурбакова Диана Магдановна
ЗАО «Прогноз», г. Пермь, ул. Стахановская, 54, d.nurbakova@mail.ru
В статье предлагается метод выявления лексического ядра славянских языков на основе расстояние Дамерау Левенштейна. В качестве языка-эталона, то есть языка, на основе сравнения с которым, производится анализ, выступают староцерковнославянский и санскрит. На основе сравнения со староцерковнославянским языком выделяется 48 когнат, демонстрирующих тесную связь славянских языков. Сравнение же с санскритом подчёркивает связь славянских языков с индоевропейской семьёй.
Языки меняются со временем. Эти изменения затрагивают различные уровни: фонетический, лексический, грамматический. При этом лексика подвержена наибольшим изменениям. Однако в словарном запасе языка можно выделить наиболее устойчивую лексику – основной словарный фонд [1, 2]. Примером такого словарного фонда служит список Сводеша. Целью исследования, представленного в данной статье, является выделение лексического ядра славянских языков на основе расстояния Дамерау Левенштейна.
Славянские языки – группа близко родственных языков индоевропейской семьи, распространённых на территории Европы и Азии. Они отличаются большой степенью близости друг к другу, которая обнаруживается в корнеслове, аффиксах, структуре слова, употреблении грамматических категорий, структуре предложения, семантике, системе регулярных звуковых соответствий, морфонологических чередованиях. Эта близость объясняется как единством происхождения славянских языков, так и их длительными и интенсивными контактами на уровне литературных языков и диалектов. Имеются, однако, и различия материального, функционального и типологического характера, обусловленные длительным самостоятельным развитием славянских племён и народностей в разных этнических, географических и историко-культурных условиях, их контактами с родственными и неродственными этническими группами.
Данные
Данными для анализа послужили словоформы 12 славянских языков, собранные в базе Краскала [3]. Эти словоформы используются в том или ином языке для передачи понятий из 200-словного списка Сводеша. Кроме того, база по современным слаянским языкам была дополнена 167 словоформами староцерковнославянского языка [4] и 154 словоформами санскрита. Неизвестные словоформы отмечены «?».
Метод анализа
Для выявления лексического ядра, содержащего слова, подвергшиеся наименьшим изменениям, предлагается использовать сравнение словоформ современных славянских языков с двумя древними языками. В первом случае в качестве языка-эталона используется староцерковнославянский, возникший в конце эпохи праславянского единства, то есть тогда, когда отдельные славянские наречия относились друг к другу ещё как разные диалекты одного языка, а не как самостоятельные языки, что служит основой предположения, что старославянский язык был ещё общеславянским литературным языком [5]. Во втором случае сравнение ведётся с санскритом, одним из самых древних индоевропейских языков. И хотя санскрит не относится к славянским языкам, мы предполагаем, что он может быть использован для цели данного исследования. Для оценки изменений предлагается использовать расстояние Дамерау Левенштейна. Устанавливается пороговое значение, отражающее допустимое различие с языком-эталоном.
Анализ проводится, исходя из следующих предположений:
- существует множество словоформ, сохранивших древние корни;
- это множество можно выделить из списка Сводеша, содержащего наиболее устойчивую лексику;
- слова из этого множества могут быть выделены на основе сравнения с древними словоформами, характерными для древнего языка.
Как уже отмечалось выше, в качестве меры сходства используется расстояние Дамерау –Левенштейна [6]. Это мера сравнения строк, определяемая как минимальное количество операций вставки, удаления одного символа, замены одного символа на другой и транспозиции соседних символов, необходимых для перевода одной строки в другую. Псевдокод расчёта расстояния Дамерау –Левенштейна представлен ниже.
for all from to
// the distance of S2 in case of empty S1
for all from to
// the distance of S1 in case of empty S2
for all from to
// удаление
// вставка
// замена
// транспозиция
if ( and ) then
)
return
Результаты
Расчёт производился в виде процедуры, написанной в среде Wolfram Mathematica. Пороговое значение было принято равным 3, т.е. различие между словами должно было быть меньше, чем 3 операции, допускаемые расстоянием Дамерау –Левенштейна. Поскольку проводился поиск слов, сохранившихся практически во всех славянских языках, то в качестве второго ограничения было указано сохранение в 80% рассматриваемых языков.
На основе сравнения со староцерковнославянским языком было выделено 48 словоформ: зола, кровь, день, рыть, пить, сухой, тупой, есть, глаз, падать, далеко, перо, рыба, хороший, трава, зелень и др. Результаты представлены в таблице 1. Полученные словоформы представляют собой как существительные (зола, день, кровь), так и глаголы (рыть, пить, есть, падать), прилагательные (сухой, тупой, хороший), числительные (два, три, белый, мокрый).
В результате сравнения с санскритом было получено 21 значение из списка Сводеша: день (day), пить (to drink), сухой (dry), падать (to fall), перо (feather), давать (to give), трава (grass), жить (to live), мясо (meat), мать (mother), не (not), шить (to sew), спать (to sleep), маленький (small), тот (that), там (there), ты (thou), три (three), два (two), когда (when), кто (who). Среди этих слов можно выделить местоимения (ты, этот, там, кто, когда), числительные (два, три), глаголы (пить, жить, давать и т.д.). Результаты представлены в таблице 2. Отметим, что полученное таким способом ядро не является подмножеством ядра, полученного на основе сравнения со староцерковнославянским языком. Это объясняется тем, что данные о словоформах по староцерковнославянскому и санскриту не совпадают и некоторые словоформы, выделяемые в качестве ядра, не известны для староцерковнославянского.
Таблица 1. Лексическое ядро славянских языков, полученное на основе сравнения со староцерковнославянским языком.
Словенский | Нижнелужицкий | Верхнелужицкий | Чешский | Словацкий | Украинский | Белорусский | Польский | Русский | Македонский | Болгарский | Сербохорватский | Староцерковнославянский |
pepju | popel | popjel | popel | popol | popil | popel | popiol | zola | pepel | pepel | pepeo | popel |
kri | ksej | krej | krev | krv | krov | krow | krew | krov | krv | krev | krv | krov |
dan | zen | dzen | den | den | den | dzen | dzien | den | den | den | dan | din |
kopat | kopas | kopac | kopati | kopat | kopaty | kapac | kopac | ryt | kopa | kopae | kopati | kop |
pit | pis | pic | piti | pit | pyty | pic | pic | pit | pie | pie | piti | pi |
suho | suchy | suchi | suchy | suchy | suxyj | suxi | suchy | suxoj | suv | suxo | suv | sux |
skrhan | tupy | tupy | tupy | tupy | tupyj | tupy | tepy | tupoj | tap | tep | tup | top |
jest | jesc | jesc | jisti | jest | jisty | esci | jesc | est | jade | jade | jesti | jas |
oko | woko | woko | oko | oko | oko | voka | oko | glaz | oko | oko | oko | ok |
pade | padas | padac | upadnouti | padat | padaty | padac | padac | padat | paga | pada | pasti | pad |
dalec | daloki | daloki | daleko | daleky | daleko | daleki | daleko | daleko | daleku | dalec | dalek | dalek |
peru | pero | pjero | pero | pero | pero | pera | pioro | pero | pero | pero | pero | per |
riba | ryba | ryba | ryba | ryba | ryba | ryba | ryba | ryba | riba | riba | riba | rib |
pjt | pes | pjec | pet | pat | pjat | pjac | piec | pjat | pet | pet | pet | pet |
dobro | dobry | dobry | dobry | dobry | dobryj | dobry | dobry | xorosij | dobro | dobro | dobar | dobr |
trava | tsawa | trawa | trava | trava | trava | trava | trawa | trava | treva | treva | trava | trav |
zeleno | zeleny | zeleny | zeleny | travnik | zelenyj | zjaleny | zielony | zelenyj | zelen | zeleno | zelen | zelen |
lasje | los | wlos | vlasy | vlas | volos | volas | wlosy | volosy | kosa | kosa | kosa | vlas |
raka | ruka | ruka | ruka | ruka | ruka | ruka | reka | ruka | raka | reka | ruka | rok |
glava | glowa | glowa | hlava | hlava | golova | galava | glowa | golova | glava | glava | glava | glav |
lett | lod | lod | led | lad | lid | led | lod | led | led | led | led | led |
peru | list | list | list | list | lyst | list | lisc | list | list | list | list | list |
usi | wes | wos | ves | vos | vosa | vos | wesz | vos | voska | veska | us | vos |
meso | meso | mjaso | maso | maso | mjaso | mjasa | mieso | mjaso | meso | meso | meso | mes |
mati | mas | mac | matka | matka | maty | maci | matka | mat | majka | majka | majka | ma |
vujsta | husta | wusta | usta | usta | rot | rot | usta | rot | usta | usta | usta | us |
blizii | blizki | blizki | blizky | blizky | bilja | blizki | blizko | blizko | blizok | blizko | blizu | bliz |
nova | nowy | nowy | novy | novy | novyj | novy | nowy | novyj | nob | novo | nov | nov |
noc | noc | noc | noc | noc | nic | noc | noc | noc | nok | nosc | noc | nost |
nus | nos | nos | nos | nos | nis | nos | nos | nos | nos | nos | nos | nos |
star | stary | stary | stary | stary | staryj | stary | stary | staryj | star | staro | star | star |
aden | jaden | jedyn | jeden | jeden | odyn | adzin | jeden | odin | eden | edno | jedan | jedin |
sov | sol | sol | sul | sol | sil | sol | sol | sol | sol | sol | sol | sol |
pesk | pesk | pesk | pisek | piesok | pisok | pjasok | piasek | pesok | pesok | pjasek | pesak | pesuk |
morje | moro | morjo | more | more | more | mora | morze | more | more | more | more | morj |
sivat | sys | sic | siti | sit | syty | syc | szyc | sit | sie | sie | siti | si |
oster | wotsy | wotry | ostry | ostry | hoctryj | vostry | ostry | ostryj | ostar | ostro | ostar | ostr |
nebo | njebjo | njebjo | nebe | nebo | nebo | neba | niebo | nebo | nebo | nebe | nebo | neb |
snek | sneg | sneh | snih | sneh | snih | sneh | snieg | sneg | sneg | snjag | sneg | sneg |
staj | stojas | stejec | stati | stat | stojaty | stamc | stac | stojat | stoi | stoi | stajati | stoj |
kamen | kamen | kamjen | kamen | kamen | kamen | kamen | kamien | kamen | kamen | kamek | kamen | kam |
tri | tsi | tri | tri | tri | try | try | trzy | tri | tri | tri | tri | trij |
jezik | jezyk | jazyk | jazyk | jazyk | jazyk | jazyk | jezyk | jazyk | jazik | ezik | jezik | jezik |
zoby | zub | zub | zub | zub | zub | zub | zab | zub | zab | zeb | zub | zob |
dua | dwa | dwaj | dva | dva | dva | dva | dwa | dva | dva | dve | dva | dv |
voda | woda | woda | voda | voda | voda | vada | woda | voda | voda | voda | voda | vod |
makro | moksy | mokry | mokry | mokry | mokryj | mokry | mokry | mokryj | ? | mokro | mokar | mok |
kelo | bely | bely | bily | biely | bilyj | bely | bialy | belyj | bel | bjalo | belo | bel |
Таблица 2. Лексическое ядро славянских языков, полученное на основе сравнения с санскритом.
Словенский | Верхнелужицкий | Нижнелужицкий | Чешский | Словацкий | Украиснкий | Белорусский | Польский | Русский | Македонский | Болгарский | Сербохорватский | Староцерковнославянский | Санскрит |
dan | zen | dzen | den | den | den' | dzen' | dzien | den | den | den | dan | din | dyu |
pit | pis | pic | piti | pit | pyty | pic' | pic | pit | pie | pie | piti | pi | pa |
suho | suchy | suchi | suchy | suchy | suxyj | suxi | suchy | suxoj | suv | suxo | suv | sux | suska |
pade | padas | padac | upadnouti | padat | padaty | padac' | padac | padat | paga | pada | pasti | pad | pad |
peru | pero | pjero | pero | pero | pero | pera | pioro | pero | pero | pero | pero | per | parna |
ogen | hogen | wohen | ohen | ohen | vogon' | vagon' | ogien | ogon | ogan | ogen | vatra | ogn | agni |
plavat | ? | ? | drzetisenavode | plavat | plavaty | plavac' | plynac | plavat | plovi | senosi | ploviti | ? | pluvati |
dati | das | dac | davati | dat | davaty | davac' | dawac | davat | dava | dava | dati | da | da |
trava | tsawa | trawa | trava | trava | trava | trava | trawa | trava | treva | treva | trava | trav | trna |
zivi | zywisse | zic | ziti | zit | zyty | zyc' | zyc | zit | zivee | zibee | ziveti | zi | ziv |
meso | meso | mjaso | maso | maso | m'jaso | mjasa | mieso | mjaso | meso | meso | meso | mes | mamsa |
mati | mas | mac | matka | matka | maty | maci | matka | mat | majka | majka | majka | ma | matr |
nje | ne | ne | ne | nie | ne | ne | nie | ne | ne | ne | ne | ? | na |
sivat | sys | sic | siti | sit | syty | syc' | szyc | sit | sie | sie | siti | si | siv |
spati | spas | spac | spati | spat | spaty | spac' | spac | spat | spie | spi | spavati | sop | svap |
majken | malki | maly | maly | maly | malyj | maly | maly | malenkij | mal | malko | mali | mal | alpa |
tisto | won | won | to | ten | toj | hety | ten | tot | onoj | onova | da | ? | tat |
tom | tam | tam | tam | tam | tam | tam | tam | tam | tamy | tam | tamo | ? | tatra |
? | ty | ty | ty | ty | ty | ty | ty | ty | ti | ti | ti | ? | tvam |
tri | tsi | tri | tri | tri | try | try | trzy | tri | tri | tri | tri | trij | tri |
dua | dwa | dwaj | dva | dva | dva | dva | dwa | dva | dva | dve | dva | dv | dvi |
kedaj | gdy | hdy | kdy | kedy | koly | kali | kiedy | kogda | koga | koga | kada | ? | kada |
kedu | chto | sto | kdo | kto | xto | xto | kto | kto | koj | koj | tko | ? | ka |
Таким образом, были выявлены слова, подвергшиеся наименьшим изменениям. При этом выбор 48 словоформ из 167 свидетельствует о высокой степени близости славянских языков и устойчивости лексики. Кроме того, близость славянских словоформ санскриту свидетельствует о родстве индоевропейских языков и тем самым обнаруживает связь славянских языков с другими индоевропейскими языками. Однако отметим, что в данном анализе накладывались существенные ограничения, а при выявлении взаимосвязи между лексемами важно учитывать фонетические изменения, произошедшие в языке.
Библиографический список
[1] | Виноградов В.В. "Об основном словарном фонде и его словообразующей роли в истории языка" // Избранные труды. Лексикология и лексикография. Москва: "Наука", 1977, с. 47-68. |
[2] | Swadesh M. "Lexicostatistic dating of prehistoric ethnic contacts," in Proceedings American Philosophical Society, vol. 96, 1952, pp. 452-463. |
[3] | Kruskal J.B., Black P. Dyen I., "An Indo-European classification: a lexicostatistical experiment," Transactions of the American Philosophical Society, 1992. |
[4] | Heinz Nixdorf Stiftung. The World Atlas of Language Structures Online: / |
[5] | Трубецкой Н.С., "Общеславянский элемент в русской культуре," Вопросы языкознания, № 2, М.:1990. с. 122-139. |
[6] | Левенштейн В., "Двоичные коды с исправлением выпадений, вставок и замещений символов," Доклады АН СССР, vol. 163, no. 4, pp. 845-848, 1965. |
The Retrieval of the Lexical Core of the Slavic Languages
Nurbakova Diana
JSC «Prognoz», 54, Stankhanovskaya St, Perm, HYPERLINK "mailto:d.nurbakova@gmail.com" d.nurbakova@gmail.com
In this article the method of the retrieval of the lexical core of the Slavic languages is proposed. This method is based on the Damerau-Levenstein distance. The comparison has been undertaken in two directions: as the model language Old Church Slavonic and Sanskrit have been suggested. As the result of comparison with the Old Church Slavonic language 48 cognates have been retrieved, that testifies the closeness of the Slavic languages. Moreover, the comparison with Sanskrit reveals the relationships between the Slavic languages and other Indo-European languages.