Міністерство освіти І науки, молоді та спорту україни національний університет «львівська політехніка» інститут комп’ютерних наук та інформаційних технологій

Вид материалаДокументы

Содержание


Вивчення бібліотеки прикладних програм nltk, для опрацювання текстів природною мовою. засоби для роботи з лексичними ресурсами.
Мета робота
Короткі теоретичні відомості 1. Поняття функції та модуля.
1.1. Створення скриптів
2. Генерація випадкового тексту за допомогою біграмів
3. Лексичні ресурси NLTK. Корпуси слів
Рис.1. Термінологія англійської мови для записів словників.
3.1. Корпус words
Рис.2. Приклад головоломки
3.2. Корпус стоп-слів
3.3. Корпус імен
Рис.3. Умовний частотний розподіл останніх букв чоловічих та жіночих імен.
4.1. Словник із позначенням вимови
Виконати самостійно
4.2. Порівняльні (компаративні) словники
5. WordNet – лексична база даних англійської мови
5.1. Значення і синоніми
5.2. Ієрархія в WordNet
Рис.4. Фрагмент ієрархії понять
5.3. Лексичні зв’язки в WordNet.
...
Полное содержание
Подобный материал:
  1   2   3   4   5


МІНІСТЕРСТВО ОСВІТИ І НАУКИ, МОЛОДІ ТА СПОРТУ УКРАЇНИ

НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ «ЛЬВІВСЬКА ПОЛІТЕХНІКА»

іНСТИТУТ КОМП’ютерних НАУК та ІНФОРМАЦІЙНИХ ТЕХНОЛОГІЙ


Кафедра систем автоматизованого проектування





ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ


ЗАСОБИ ДЛЯ РОБОТИ З ЛЕКСИЧНИМИ РЕСУРСАМИ.


Методичні вказівки до лабораторної роботи № 4

з дисципліни «Комп’ютерна лінгвістика»

для студентів спеціальності 7.02030303 «Прикладна лінгвістика»

денної та заочної форм навчання


Затверджено на засіданні кафедри

«Системи автоматизованого проектування»

Протокол № 16 від 17.05.2011 р.


Затверджено на засіданні методичної ради ІКНІ

Протокол № 9-10/11 від 18.05.2011 р.


Зареєстровано в НМУ НУ «ЛП»

№ 3521 від 2.06.2011


Львів-2011

ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ. ЗАСОБИ ДЛЯ РОБОТИ З ЛЕКСИЧНИМИ РЕСУРСАМИ. Методичні вказівки до лабораторної роботи № 4 з дисципліни «Комп’ютерна лінгвістика» для студентів спеціальності 7.02030303 денної та заочної форм навчання/Укл. А.Б.Романюк, І.Ю Юрчак. - Львів: Національний університет «Львівська політехніка», 2011. – 28 с.



Укладачі:

Романюк А. Б., канд. техн. наук, доцент

Юрчак І.Ю., канд. техн. наук, доцент



Відповідальна за випуск:

Юрчак І.Ю., канд. техн. наук, доцент



Рецензент:

Теслюк В.М., д.т.н., професор кафедри САПР

Мета робота

  • Вивчення основ програмування на мові Python.
  • Вивчення методів доступу та роботи з лексичним ресурсами.
  • Семантичний словник англійської мови WordNet.

Короткі теоретичні відомості

1. Поняття функції та модуля.


При програмуванні часто необхідно частину програми виконати (використати) декілька разів. Наприклад, потрібно написати програму, яка здійснює утворення множини з однини іменників і вона буде виконуватись в різних місцях програми. Швидше ніж повторювати той самий код декілька разів і більш ефективно і надійно організувати цю роботу через функцію. Функція - це програмна конструкція, яку можна викликати з одним або більше вхідними параметрами, і отримувати результат на виході. Визначаємо функцію, використовуючи ключове слово def далі потрібно дати назву функції і визначити вхідні параметри, після двокрапки записується тіло функції. Ключове слово return використовується для відображення значення, яке ми хочемо отримати на виході функції.

>>> def summa(a, b):

c=a+b

return c

>>> summa(3,9)

12

Розглянемо приклад. Функція plural () отримує на вході однину іменника і формує множину на виході.

def plural(word):

if word.endswith('y'):

return word[:-1] + 'ies'

elif word[-1] in 'sx' or word[-2:] in ['sh', 'ch']:

return word + 'es'

elif word.endswith('an'):

return word[:-2] + 'en'

else:

return word + 's'

>>> plural('fairy')

'fairies'

>>> plural('woman')

'women'

1.1. Створення скриптів


Не дивлячись на зручність використання інтерактивного режиму роботи, часто потрібно зберегти початковий програмний код для подальшого використання. В такому разі готуються файли з програмним кодом, які передаються інтерпретатору на виконання. По відношенню до мов програмування, що інтерпретуються, часто початковий код називають скриптом. Файли з кодом на Python зазвичай мають розширення *.py.

Підготувати скрипти можна в середовищі IDLE. Для цього, після запуску середовища в меню потрібно вибрати команду File  New Window (Crtl + N), відкриється нове вікно.

Потім бажано відразу зберегти файл з розширенням *.py. командою FileSave As. За замовченням, файл буде збережено в корні C:\Python26. Після того, як код буде написано, слід знов зберегти файл.

Увага: якщо набирати код, не зберігши файл на початку, то не буде здійснюватися підсвічування синтаксису.

Для запуску скрипту потрібно виконати команду меню Run  Run Module (F5). Після цього в першому вікні (де "працює" інтерпретатор) з'явиться результат виконання коду.

Насправді скрипти можна писати в будь-якому текстовому редакторі (бажано, щоб він підтримував підсвічування синтаксису мови Python). Також існують спеціальні програми для розробки, що надають додаткові можливості і зручності.

Розробляючи ту чи іншу програму протягом довшого періоду додаючи до неї нові функції і змінюючи існуючі або розробляючи декілька версій однієї програми потрібно зберігати тексти програм в окремих файлах і організовувати доступ до відповідних функцій в цих програмах. Збережемо текст останньої функції plural () в окремому файлі textproc.py. тепер можна доступитися до цієї функції імпортувавши її з файлу.

>>> from textproc import plural

>>> plural('wish')

wishes

>>> plural('fan')

fen

Множина змінних і функцій збережених у файлі називаються в Python – модулем. Множина пов’язаних між собою модулів називають – пакетом. Програма обробки корпуса Brown це є приклад модуля, а множина програм для роботи зі всіма корпусами це є приклад пакету. NLTK це множина пакетів, яку називають бібліотекою.