Волошин Сергій Олександрович, інженер Ікат. Інститут проблем реєстрації інформації нан україни. Проведено аналіз програм, які використовуються для формування реферат

Вид материалаРеферат
Подобный материал:

Методи відображення математичних виразів і формул у реферативній базі даних.


Волошин Сергій Олександрович, інженер І кат.

Інститут проблем реєстрації інформації НАН України.


Проведено аналіз програм, які використовуються для формування реферативних баз даних. Недоліком CDS/ISIS є неможливість представлення в рефератах систем, формул і виразів. Запропоновано метод вирішення цієї проблеми.


Ключові слова: формула, реферативна база даних, проблема відображення.


Реферативні інформаційні ресурси — інтеграційна основа наукової інфосфери. У всьому світі визнано, що саме реферативні бази даних і реферативні журнали здійснюють оперативне інформування різних категорій споживачів інформації про літературу, яка видається, надають найсуттєвіший фактографічний матеріал, сприяють ретроспективному пошуку публікацій, зменшують негативний вплив, пов'язаний з дифе­ре­н­ціацією наук, розсіяння публікацій, інформують про досягнення в суміжних галузях наук, інтеграцію наукових напрямів і дисциплін тощо. Слід відзначити також, що реферативні бази даних і журнали крім подання інформації про книжкові видання, розкривають зміст статей з періодичних та продовжуваних видань, збірників наукових праць, матеріалів конференцій тощо. А цей масив документів складає майже дві третини наукової інформації, не відображеної в каталогах бібліотек. Система реферування національних періодичних видань також є важливою частиною інформаційного забезпечення наукових досліджень, технічних розробок, навчального процесу. Реферативна база даних наукових видань України — це не тільки найефективніший інструмент інформаційного пошуку, а й узагальнена картина поточного стану науки в нашій країні.

УРЖ “Джерело” — це інформаційне видання, призначене для оперативного відображення змісту друкованих в Україні наукових видань із природничих, технічних, суспільних і гуманітарних дисциплін.

База даних УРЖ “Джерело” використовує програмне забезпечення CDS/ISIS.

Інформаційна система баз даних CDS/ISIS — це набір різних додатків, які працюють з одним і тим самим форматом даних. Початково розроблена завдяки сприянню програми інформатизації Unesco. ISIS підтримує такі стандарти форматів баз даних: MARC, CCF та інші формати баз даних, які регламентовані стандартом ISO-2709 [1]. Формат MARC є стандартом баз даних для бібліотек і на його базі функціонують відомі бібліотеки світу. Єдність формату забезпечує простий обмін інформацією між бібліотеками.

Формат записів у БД містить поля й підполя, які визначаються областями та елементами бібліографічного опису. Створений внутрішньосистемний формат БД гармонізовано з Міжнародним комунікативним форматом UNIMARC, ДСТУ 3578-97 "Формат для обміну бібліографічними даними на магнітних носіях" і ГОСТ 7.1-84. Певну специфічність мають вхідні формати БД, що використовуються для вводу інформації в пакетному режимі. Основний з них відповідає вимогам міжнародного стандарту обміну бібліографічними даними ISO 2709 .

Робочий лист, який має структуру "ідентифікатор поля — зміст поля", передбачає наступні поля для заповнення:
  • основна назва наукової статті

— перший автор статті (прізвище, ім’я, по-батькові );

— інші автори статті;

— відомості про періодичне видання (назва журналу, в разі необхідності кількома мовами, номер і найменування частини, у разі необхідності — відомості про відповідальність);

— рік видання;

— том, випуск (номер);

— шифр зберігання НБУВ;

— пагінація (початкова — кінцева сторінки статті);

— мова документа (російська, українська або англійська);

— примітки до бібліографій (кількість посилань);

— індекс УДК (у разі необхідності їх може бути декілька);

— службова інформація (рік, дата першого реферування, код редактора, дата і код редактора другого реферування);

— реферат (можливе використання авторського резюме чи анотації, за наявності декількох різномовних рефератів перевага віддається реферату українською мовою);

— ключові слова (мовою статті).


Зміст



Рік видання,том, випуск(номер);


Порядковий номер запису, назва

Автори статті

Тематична рубрика





Пагінація (початкова — кінцева сторінки статті)

мова документа (російська, українська або англійська)



Відомості про

періодичне видання

індекс УДК ,

службова інформація (рік, дата першого реферування, код редактора, дата і код редактора другого реферування);






Рис. 1. Приклад запису в УРЖ “Джерело”


На даний час у світі існує велика кількість баз даних, які містять інформацію в більшості з наукових журналів, статей, публікацій і т.д.

Майже всі творці таких баз даних зіштовхуються із проблемою відображення формул, адже далеко не всі СУБД дозволяють зберігати, а тим більше відображати формули. Нажаль, CDS/ISIS - в цьому не виключення.

У більшості випадків існує стандартний підхід до цієї ситуації, створюється програма, що відображає результати пошуку в HTML форматі, а всі формули прописуються як звичайний HTML код [3].

При такому підході задовільно відображається тільки частина формул, тобто ті формули, які не мають спеціальних символів, таких як інтеграл, квадратний корінь, система рівнянь, знак суми і т.д.

При такому підході вищеописані математичні символи просто ігноруються, у результаті певна кількість записів втрачає всякий зміст, а найчастіше відображається з помилками у формулах. У результаті це часто вводить кінцевих користувачів в оману.

Однак такий метод зовсім неприпустимий, якщо ж більша частина даних має математичну або фізичну тематику. Для того, щоб визначити доцільність використання вищезазначеного варіанту відображення формул в УРЖ “Джерело”, проведено аналіз тематичного розподілу авторефератів, дисертацій, відображених у БД УРЖ “Джерело”:

- Медицина. Медичні науки – 11,99 %
  • Економіка. Економічні науки – 11,15 %
  • Культура. Наука. Освіта – 7,58 %
  • Держава і право. Юридичні науки – 6, 01 %
  • Технологія металів. Машинобудування – 5,34 %
  • Сільське та лісове господарство – 5,34 %
  • Електроніка. Обчислювальна техніка – 5,27 %
  • Фізика. Астрономія – 4,69 %
  • Біологічні науки – 4,6 %
  • Математика. Механіка – 4,59 %
  • Філологічні науки – 4,18 %
  • Історія. Історичні науки – 4,14 %

Виходячи з отриманих результатів більшу частина вмісту бази даних складають записи, які містять формули та математичні вирази, а це в свою чергу означає, що треба шукати інші варіанти відображення та зберігання формул.

Тому для забезпечення формульного набору використовується спеціальне програмне забезпечення, наприклад Вентура Паблішер, яка кодує формули у спеціальний формат, в такому вигляді формули можуть зберігатися у базі даних. Але для того, щоб вони коректно відображалися, додатково створюється програмний модуль, який містить базу умовних позначень Вентури Паблішер, за допомогою якого при відображенні результатів всі закодовані формули декодуються та в нормальному вигляді відображаються на екрані. Такий підхід вже застосовано в УРЖ “Джерело” і тепер впевнено можна казати, що він зводить імовірність появи помилки в записах до мінімуму, та може невірно відображати формулу тільки тоді, коли в цій формулі (її коді) існує помилка, яку міг допустити редактор, що іноді й відбувається. Це пов’язано з методикою внесення інформації до БД. Існує дві можливості заповнення бази даних. Перша полягає в тому, що оператор здійснює наповнення бази даних клавіатурним набором тексту, використовуючи при цьому друкований варіант наукового видання. Друга можливість полягає у використанні електронного варіанта наукового видання, який надається редакцією цього видання та вміщує всі необхідні бібліотечні реквізити наукових статей та їх реферати. Слід зазначити, що і в першому і в другому варіанті майже всі математичні вирази і формули, які містять математичні знаки, наприклад такі, як інтеграл, квадратний корінь, система рівнянь, знак суми і т.д. доводиться обробляти та вносити вручну.

Трохи інакше виглядають справи з базою даних, доступ до якої забезпечується через мережу Інтернет [2]. Тут треба вирішувати одразу дві задачі, як відображати формули та забезпечити при цьому досить велику швидкість пошуку і відображення результатів користувачу.

У таких випадках досить часто доводиться встановлювати пріоритети і вибирати, або якісно відображати формули, при цьому збільшуючи час пошуку і відображення результатів майже вдвічі, або жертвувати якістю відображення формул, але зберегти швидкість пошуку.

При таких умовах майже завжди найбільший пріоритет має швидкість пошуку та відображення результатів. Тому використовується звичайний метод відображення , тобто всі формули прописуються як звичайний HTML код, наприклад перетворюється в int (alpha*beta) і в такому вигляді зберігається в базі даних та відображається користувачу. Але такий вигляд формул легко може заплутати малодосвідченого користувача.

Тому пропонується комплексне вирішення проблеми відображення математичних виразів і формул :
  • Для локальних мереж , тобто якщо сервер з базою даних і клієнти знаходиться у локальній мережі. Тоді на сервері підключається програмний модуль, який після кожного пошукового запиту клієнта зберігає результати пошуку у буфер , далі модуль декодує попередньо закодовані формули із буфера, та надсилає кінцеві результати користувачу. Такий метод ускладнює відображення формул та витрачає досить багато часу на декодування формул. Такий підхід може використовуватися тільки при наявності досить потужного сервера та при обмеженій кількості клієнтів і одночасних запитів.
  • Для глобальних мереж (Internet). Метод дуже схожий на попередній, але відмінність полягає у тому, що програмний модуль встановлюється не на сервері, а при першому підключенні клієнта до серверу, клієнт автоматично завантажує програмний модуль, після чого він встановлюється на комп’ютері клієнта. Далі при виконанні пошукового запиту сервер відправляє результати пошуку програмному модулю, встановленому на комп’ютері клієнта, який в свою чергу декодує попередньо закодовані формули. Таким чином сервер виділяє набагато менше ресурсів на кожний запит, що є важливим у глобальних мережах, де кількість клієнтів і одночасних пошукових запитів майже необмежена.



Висновки:

Розглянута проблема відображення математичних виразів і формул у базах даних реферативної інформації. Проаналізовано існуючі, та запропоновано нові методи вирішення даної проблеми.

Розроблено програмне забезпечення, яке дозволяє коректно та ефективно

відображати математичні вирази і формули. Запропоноване програмне забезпечення є доповненням до ISIS.


Література:
  1. Hopkinson A. CDS/ISIS: the State of the CDS/ISIS // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: 7-я Междунар. конф. "Крым 2000"(Т.2) - Симф., 2000 -

C. 386-388
  1. Григорьев В.М., Можаровский Л.А. Библиотечная система с подключением в Интернет // Систем. технології - Д., 1999 - N Вип. 7 - C. 38-41
  2. Alan R. Simon Strategic Database Technology: Management for the Year 2000 // Morgan Kaufmann Publishers 1995. – 446 с.