Удк 519. 8 Определение лексического ядра славянских языков

Вид материалаДокументы

Содержание


Славянские языки
Данные Данными для анализа послужили словоформы 12 славянских языков, собранные в базе Краскала [
Метод анализа
Таблица 1. Лексическое ядро славянских языков, полученное на основе сравнения со староцерковнославянским языком.
Таблица 2. Лексическое ядро славянских языков, полученное на основе сравнения с санскритом.
Библиографический список
Избранные труды. Лексикология и лексикография
Transactions of the American Philosophical Society
Подобный материал:
УДК 519.8

Определение лексического ядра славянских языков

Нурбакова Диана Магдановна

ЗАО «Прогноз», г. Пермь, ул. Стахановская, 54, d.nurbakova@mail.ru

В статье предлагается метод выявления лексического ядра славянских языков на основе расстояние Дамерау  Левенштейна. В качестве языка-эталона, то есть языка, на основе сравнения с которым, производится анализ, выступают староцерковнославянский и санскрит. На основе сравнения со староцерковнославянским языком выделяется 48 когнат, демонстрирующих тесную связь славянских языков. Сравнение же с санскритом подчёркивает связь славянских языков с индоевропейской семьёй.

Языки меняются со временем. Эти изменения затрагивают различные уровни: фонетический, лексический, грамматический. При этом лексика подвержена наибольшим изменениям. Однако в словарном запасе языка можно выделить наиболее устойчивую лексику – основной словарный фонд [1, 2]. Примером такого словарного фонда служит список Сводеша. Целью исследования, представленного в данной статье, является выделение лексического ядра славянских языков на основе расстояния Дамерау  Левенштейна.

Славянские языки – группа близко родственных языков индоевропейской семьи, распространённых на территории Европы и Азии. Они отличаются большой степенью близости друг к другу, которая обнаруживается в корнеслове, аффиксах, структуре слова, употреблении грамматических категорий, структуре предложения, семантике, системе регулярных звуковых соответствий, морфонологических чередованиях. Эта близость объясняется как единством происхождения славянских языков, так и их длительными и интенсивными контактами на уровне литературных языков и диалектов. Имеются, однако, и различия материального, функционального и типологического характера, обусловленные длительным самостоятельным развитием славянских племён и народностей в разных этнических, географических и историко-культурных условиях, их контактами с родственными и неродственными этническими группами.

Данные

Данными для анализа послужили словоформы 12 славянских языков, собранные в базе Краскала [3]. Эти словоформы используются в том или ином языке для передачи понятий из 200-словного списка Сводеша. Кроме того, база по современным слаянским языкам была дополнена 167 словоформами староцерковнославянского языка [4] и 154 словоформами санскрита. Неизвестные словоформы отмечены «?».

Метод анализа

Для выявления лексического ядра, содержащего слова, подвергшиеся наименьшим изменениям, предлагается использовать сравнение словоформ современных славянских языков с двумя древними языками. В первом случае в качестве языка-эталона используется староцерковнославянский, возникший в конце эпохи праславянского единства, то есть тогда, когда отдельные славянские наречия относились друг к другу ещё как разные диалекты одного языка, а не как самостоятельные языки, что служит основой предположения, что старославянский язык был ещё общеславянским литературным языком [5]. Во втором случае сравнение ведётся с санскритом, одним из самых древних индоевропейских языков. И хотя санскрит не относится к славянским языкам, мы предполагаем, что он может быть использован для цели данного исследования. Для оценки изменений предлагается использовать расстояние Дамерау Левенштейна. Устанавливается пороговое значение, отражающее допустимое различие с языком-эталоном.

Анализ проводится, исходя из следующих предположений:
  1. существует множество словоформ, сохранивших древние корни;
  2. это множество можно выделить из списка Сводеша, содержащего наиболее устойчивую лексику;
  3. слова из этого множества могут быть выделены на основе сравнения с древними словоформами, характерными для древнего языка.

Как уже отмечалось выше, в качестве меры сходства используется расстояние Дамерау –Левенштейна [6]. Это мера сравнения строк, определяемая как минимальное количество операций вставки, удаления одного символа, замены одного символа на другой и транспозиции соседних символов, необходимых для перевода одной строки в другую. Псевдокод расчёта расстояния Дамерау –Левенштейна представлен ниже.



for all from  to 

// the distance of S2 in case of empty S1



for all  from  to 

// the distance of S1 in case of empty S2



for all  from  to 



 // удаление

 // вставка

 // замена



// транспозиция

if ( and ) then







)

return 


Результаты

Расчёт производился в виде процедуры, написанной в среде Wolfram Mathematica. Пороговое значение было принято равным 3, т.е. различие между словами должно было быть меньше, чем 3 операции, допускаемые расстоянием Дамерау –Левенштейна. Поскольку проводился поиск слов, сохранившихся практически во всех славянских языках, то в качестве второго ограничения было указано сохранение в 80% рассматриваемых языков.

На основе сравнения со староцерковнославянским языком было выделено 48 словоформ: зола, кровь, день, рыть, пить, сухой, тупой, есть, глаз, падать, далеко, перо, рыба, хороший, трава, зелень и др. Результаты представлены в таблице 1. Полученные словоформы представляют собой как существительные (зола, день, кровь), так и глаголы (рыть, пить, есть, падать), прилагательные (сухой, тупой, хороший), числительные (два, три, белый, мокрый).

В результате сравнения с санскритом было получено 21 значение из списка Сводеша: день (day), пить (to drink), сухой (dry), падать (to fall), перо (feather), давать (to give), трава (grass), жить (to live), мясо (meat), мать (mother), не (not), шить (to sew), спать (to sleep), маленький (small), тот (that), там (there), ты (thou), три (three), два (two), когда (when), кто (who). Среди этих слов можно выделить местоимения (ты, этот, там, кто, когда), числительные (два, три), глаголы (пить, жить, давать и т.д.). Результаты представлены в таблице 2. Отметим, что полученное таким способом ядро не является подмножеством ядра, полученного на основе сравнения со староцерковнославянским языком. Это объясняется тем, что данные о словоформах по староцерковнославянскому и санскриту не совпадают и некоторые словоформы, выделяемые в качестве ядра, не известны для староцерковнославянского.

Таблица 1. Лексическое ядро славянских языков, полученное на основе сравнения со староцерковнославянским языком.

Словенский

Нижнелужицкий

Верхнелужицкий

Чешский

Словацкий

Украинский

Белорусский

Польский

Русский

Македонский

Болгарский

Сербохорватский

Староцерковнославянский

pepju

popel

popjel

popel

popol

popil

popel

popiol

zola

pepel

pepel

pepeo

popel

kri

ksej

krej

krev

krv

krov

krow

krew

krov

krv

krev

krv

krov

dan

zen

dzen

den

den

den

dzen

dzien

den

den

den

dan

din

kopat

kopas

kopac

kopati

kopat

kopaty

kapac

kopac

ryt

kopa

kopae

kopati

kop

pit

pis

pic

piti

pit

pyty

pic

pic

pit

pie

pie

piti

pi

suho

suchy

suchi

suchy

suchy

suxyj

suxi

suchy

suxoj

suv

suxo

suv

sux

skrhan

tupy

tupy

tupy

tupy

tupyj

tupy

tepy

tupoj

tap

tep

tup

top

jest

jesc

jesc

jisti

jest

jisty

esci

jesc

est

jade

jade

jesti

jas

oko

woko

woko

oko

oko

oko

voka

oko

glaz

oko

oko

oko

ok

pade

padas

padac

upadnouti

padat

padaty

padac

padac

padat

paga

pada

pasti

pad

dalec

daloki

daloki

daleko

daleky

daleko

daleki

daleko

daleko

daleku

dalec

dalek

dalek

peru

pero

pjero

pero

pero

pero

pera

pioro

pero

pero

pero

pero

per

riba

ryba

ryba

ryba

ryba

ryba

ryba

ryba

ryba

riba

riba

riba

rib

pjt

pes

pjec

pet

pat

pjat

pjac

piec

pjat

pet

pet

pet

pet

dobro

dobry

dobry

dobry

dobry

dobryj

dobry

dobry

xorosij

dobro

dobro

dobar

dobr

trava

tsawa

trawa

trava

trava

trava

trava

trawa

trava

treva

treva

trava

trav

zeleno

zeleny

zeleny

zeleny

travnik

zelenyj

zjaleny

zielony

zelenyj

zelen

zeleno

zelen

zelen

lasje

los

wlos

vlasy

vlas

volos

volas

wlosy

volosy

kosa

kosa

kosa

vlas

raka

ruka

ruka

ruka

ruka

ruka

ruka

reka

ruka

raka

reka

ruka

rok

glava

glowa

glowa

hlava

hlava

golova

galava

glowa

golova

glava

glava

glava

glav

lett

lod

lod

led

lad

lid

led

lod

led

led

led

led

led

peru

list

list

list

list

lyst

list

lisc

list

list

list

list

list

usi

wes

wos

ves

vos

vosa

vos

wesz

vos

voska

veska

us

vos

meso

meso

mjaso

maso

maso

mjaso

mjasa

mieso

mjaso

meso

meso

meso

mes

mati

mas

mac

matka

matka

maty

maci

matka

mat

majka

majka

majka

ma

vujsta

husta

wusta

usta

usta

rot

rot

usta

rot

usta

usta

usta

us

blizii

blizki

blizki

blizky

blizky

bilja

blizki

blizko

blizko

blizok

blizko

blizu

bliz

nova

nowy

nowy

novy

novy

novyj

novy

nowy

novyj

nob

novo

nov

nov

noc

noc

noc

noc

noc

nic

noc

noc

noc

nok

nosc

noc

nost

nus

nos

nos

nos

nos

nis

nos

nos

nos

nos

nos

nos

nos

star

stary

stary

stary

stary

staryj

stary

stary

staryj

star

staro

star

star

aden

jaden

jedyn

jeden

jeden

odyn

adzin

jeden

odin

eden

edno

jedan

jedin

sov

sol

sol

sul

sol

sil

sol

sol

sol

sol

sol

sol

sol

pesk

pesk

pesk

pisek

piesok

pisok

pjasok

piasek

pesok

pesok

pjasek

pesak

pesuk

morje

moro

morjo

more

more

more

mora

morze

more

more

more

more

morj

sivat

sys

sic

siti

sit

syty

syc

szyc

sit

sie

sie

siti

si

oster

wotsy

wotry

ostry

ostry

hoctryj

vostry

ostry

ostryj

ostar

ostro

ostar

ostr

nebo

njebjo

njebjo

nebe

nebo

nebo

neba

niebo

nebo

nebo

nebe

nebo

neb

snek

sneg

sneh

snih

sneh

snih

sneh

snieg

sneg

sneg

snjag

sneg

sneg

staj

stojas

stejec

stati

stat

stojaty

stamc

stac

stojat

stoi

stoi

stajati

stoj

kamen

kamen

kamjen

kamen

kamen

kamen

kamen

kamien

kamen

kamen

kamek

kamen

kam

tri

tsi

tri

tri

tri

try

try

trzy

tri

tri

tri

tri

trij

jezik

jezyk

jazyk

jazyk

jazyk

jazyk

jazyk

jezyk

jazyk

jazik

ezik

jezik

jezik

zoby

zub

zub

zub

zub

zub

zub

zab

zub

zab

zeb

zub

zob

dua

dwa

dwaj

dva

dva

dva

dva

dwa

dva

dva

dve

dva

dv

voda

woda

woda

voda

voda

voda

vada

woda

voda

voda

voda

voda

vod

makro

moksy

mokry

mokry

mokry

mokryj

mokry

mokry

mokryj

?

mokro

mokar

mok

kelo

bely

bely

bily

biely

bilyj

bely

bialy

belyj

bel

bjalo

belo

bel



Таблица 2. Лексическое ядро славянских языков, полученное на основе сравнения с санскритом.

Словенский

Верхнелужицкий

Нижнелужицкий

Чешский

Словацкий

Украиснкий

Белорусский

Польский

Русский

Македонский

Болгарский

Сербохорватский

Староцерковнославянский

Санскрит

dan

zen

dzen

den

den

den'

dzen'

dzien

den

den

den

dan

din

dyu

pit

pis

pic

piti

pit

pyty

pic'

pic

pit

pie

pie

piti

pi

pa

suho

suchy

suchi

suchy

suchy

suxyj

suxi

suchy

suxoj

suv

suxo

suv

sux

suska

pade

padas

padac

upadnouti

padat

padaty

padac'

padac

padat

paga

pada

pasti

pad

pad

peru

pero

pjero

pero

pero

pero

pera

pioro

pero

pero

pero

pero

per

parna

ogen

hogen

wohen

ohen

ohen

vogon'

vagon'

ogien

ogon

ogan

ogen

vatra

ogn

agni

plavat

?

?

drzetisenavode

plavat

plavaty

plavac'

plynac

plavat

plovi

senosi

ploviti

?

pluvati

dati

das

dac

davati

dat

davaty

davac'

dawac

davat

dava

dava

dati

da

da

trava

tsawa

trawa

trava

trava

trava

trava

trawa

trava

treva

treva

trava

trav

trna

zivi

zywisse

zic

ziti

zit

zyty

zyc'

zyc

zit

zivee

zibee

ziveti

zi

ziv

meso

meso

mjaso

maso

maso

m'jaso

mjasa

mieso

mjaso

meso

meso

meso

mes

mamsa

mati

mas

mac

matka

matka

maty

maci

matka

mat

majka

majka

majka

ma

matr

nje

ne

ne

ne

nie

ne

ne

nie

ne

ne

ne

ne

?

na

sivat

sys

sic

siti

sit

syty

syc'

szyc

sit

sie

sie

siti

si

siv

spati

spas

spac

spati

spat

spaty

spac'

spac

spat

spie

spi

spavati

sop

svap

majken

malki

maly

maly

maly

malyj

maly

maly

malenkij

mal

malko

mali

mal

alpa

tisto

won

won

to

ten

toj

hety

ten

tot

onoj

onova

da

?

tat

tom

tam

tam

tam

tam

tam

tam

tam

tam

tamy

tam

tamo

?

tatra

?

ty

ty

ty

ty

ty

ty

ty

ty

ti

ti

ti

?

tvam

tri

tsi

tri

tri

tri

try

try

trzy

tri

tri

tri

tri

trij

tri

dua

dwa

dwaj

dva

dva

dva

dva

dwa

dva

dva

dve

dva

dv

dvi

kedaj

gdy

hdy

kdy

kedy

koly

kali

kiedy

kogda

koga

koga

kada

?

kada

kedu

chto

sto

kdo

kto

xto

xto

kto

kto

koj

koj

tko

?

ka



Таким образом, были выявлены слова, подвергшиеся наименьшим изменениям. При этом выбор 48 словоформ из 167 свидетельствует о высокой степени близости славянских языков и устойчивости лексики. Кроме того, близость славянских словоформ санскриту свидетельствует о родстве индоевропейских языков и тем самым обнаруживает связь славянских языков с другими индоевропейскими языками. Однако отметим, что в данном анализе накладывались существенные ограничения, а при выявлении взаимосвязи между лексемами важно учитывать фонетические изменения, произошедшие в языке.

Библиографический список


[1]

Виноградов В.В. "Об основном словарном фонде и его словообразующей роли в истории языка" // Избранные труды. Лексикология и лексикография. Москва: "Наука", 1977, с. 47-68.

[2]

Swadesh M. "Lexicostatistic dating of prehistoric ethnic contacts," in Proceedings American Philosophical Society, vol. 96, 1952, pp. 452-463.

[3]

Kruskal J.B., Black P. Dyen I., "An Indo-European classification: a lexicostatistical experiment," Transactions of the American Philosophical Society, 1992.

[4]

Heinz Nixdorf Stiftung. The World Atlas of Language Structures Online: /

[5]

Трубецкой Н.С., "Общеславянский элемент в русской культуре," Вопросы языкознания, № 2, М.:1990.   с. 122-139.

[6]

Левенштейн В., "Двоичные коды с исправлением выпадений, вставок и замещений символов," Доклады АН СССР, vol. 163, no. 4, pp. 845-848, 1965.



The Retrieval of the Lexical Core of the Slavic Languages

Nurbakova Diana

JSC «Prognoz», 54, Stankhanovskaya St, Perm, HYPERLINK "mailto:d.nurbakova@gmail.com" d.nurbakova@gmail.com

In this article the method of the retrieval of the lexical core of the Slavic languages is proposed. This method is based on the Damerau-Levenstein distance. The comparison has been undertaken in two directions: as the model language Old Church Slavonic and Sanskrit have been suggested. As the result of comparison with the Old Church Slavonic language 48 cognates have been retrieved, that testifies the closeness of the Slavic languages. Moreover, the comparison with Sanskrit reveals the relationships between the Slavic languages and other Indo-European languages.