Концепція побудови електронного архіву

Вид материала

Подобный материал:

Концепція побудови електронного архіву

Концепція корпоративного електронного архіву

Компоненти корпоративного електронного архіву

Технічна реалізація - проблема вибору

Технології індексування і пошуку

Сканери потокового введення

Пристрою збереження даних

Архітектури обчислювальної системи

Висновки

_________________________________________________________________

Сьогодні спостерігається небувалий підйом комплексної комп'ютеризації корпорацій і цілих галузей, причому першорядна роль приділяється побудові автоматизованих систем документообігу і діловодства. Однак з часом виявилося, що впровадивши могутні системи керування електронними документами, багато корпорацій не одержали очікуваного ефекту. У чому причина? Величезна кількість - до 80% - оперативної і довідкової інформації як і раніше залишається на паперових носіях і накопичується в курних чи бібліотеках архівах. Ручна обробка таких паперових сховищ стає вузькою ланкою функціонування багатьох великих корпорацій. Рішенням може стати використання технології побудови корпоративного електронного архіву (КЭА), що поки ще досить нова, а її реалізація вимагає визначеної сміливості замовника і ставить непрості задачі перед системними інтеграторами.

Насамперед треба звернути увагу, на те що мова йде не про традиційну автоматизацію каталогів бібліотек, а про побудову інтегрованої системи масштабу чи галузі корпорації, що забезпечує ефективний доступ і збереження величезних обсягів документів в електронному виді. Потреба в такій системі з'явилася досить давно і час від часу "підстьогувалась" зрослим інтересом до відомчих і державних архівів, що містять унікальні запаси історичної і довідкової інформації. Справа в тім, що архіви, що працюють по старинці з паперовими бібліотечними каталогами, уже перестали забезпечувати задовільну оперативність, повноту і вірогідність виконання запитів до непомірно розростаються фондам документів. Більш того, паперові цінності, як відомо, згодом робляться непридатним і безповоротно зникають. Божевільний потік документів і усередині великих комерційних структур, додає новий імпульс побудові архівів електронних документів. І тут справа стосується вже не тільки компактного, безпечного збереження і швидкого пошуку документів, але і питань оперативного аналізу, ціль якого - прогнозування ринкових колізій і виявлення яких-небудь закономірностей.

Усе це обумовило актуальність створення нової інформаційної технології побудови корпоративного електронного архіву, здатного ефективно обробляти масиви даних обсягом у десятки терабайт. Причому, технологія повинна включати як засобу створення/наповнення супербанку даних, так і засобу забезпечення його належного функціонування і розвитку. Однак, якщо потреба в такій технології назріла вже багато років тому, те технічна можливість її реалізації з'явилася відносно недавно, як наслідок комбінації наступних факторів:

з'явилися дешеві носії - бібліотеки компакт- і магнітооптичних дисків;

різко знизився показник вартість/продуктивність для високошвидкісних обчислювальних систем, мереж і пристроїв;

одержали розвиток апаратно-програмні системи, що реалізують рівнобіжну обробку запитів;

підвищився рівень інтерфейсу роботи із СУБД;

з'явилися нові інформаційні технології індексування великих масивів даних;

розроблено і розвиваються вітчизняні технології і програмні продукти розпізнавання й аналізу російськомовних текстів;

намітився напрямок упровадження засобів штучного інтелекту, що дозволяють моделювати й аналізувати великі масиви інформації.

Концепція корпоративного електронного архіву

Формально корпоративний електронний архів можна визначити як комплекс апаратно-програмних засобів і технологій створення архіву (масштабу чи галузі підприємства) документів в електронному виді. Ціль створення КЭА складається в забезпеченні оперативного і повноцінного доступу до усім що зберігаються і надходять документам. Для цього потрібно .вирішити дві основні задачі: увести масив наявних в архіві документів і забезпечити можливість оперативного повнотекстового доступу до електронних документів.

Загальну ідею можна обрисувати в такий спосіб. Організується розгортання високопродуктивної мережі, що включає графічні робітники станції і могутніх серверів введення й обробки інформації. Для введення документів з паперових носіїв низької якості, використовуються промислові сканери потокового введення і відповідні українофіковані програмні засоби. Система забезпечує ефективне індексування і повнотекстовий пошук неструктурованої інформації великого обсягу. Дані, необхідні для пошуку документів, зберігаються у високопродуктивній системі пам'яті, а графічні образи документів - у виді зображень на носіях з тривалим часом збереження і дешевиною. Перелічимо основні функції КЭА:

сканування,

розпізнавання і коректування помилок,

створення і міграція електронних документів і образів,

індексування документів,

оперативний пошук і відображення документів,

аналіз документів,

керування функціонуванням системи.

Для реалізації даних функцій у КЭА повинні бути підсистеми введення, збереження, індексування, пошуку і відображення інформації, аналізу, керування потоками, адміністрування і науково-технічного супроводу.

Визначення КЭА лежить на стику понять сучасних автоматизованих систем керування документообігом (СУД) і інформаційних сховищ даних - DataWarehouse (ИХД). Специфіка впровадження системи електронного архівування полягає в тому, що, насамперед необхідно ввести в базу дані системи повний обсяг документів. Тому що це надзвичайно тривалий і трудомісткий процес, то він вимагає максимальної автоматизації - відсторонення оператора від будь-якої участі в процесі введення, розпізнавання, коректування й індексування документів. З цим зв'язана друга специфічна риса КЭА - забезпечення повнотекстового пошуку. Побудова і підтримка системи атрибутивного пошуку - характерного для систем керування документообігом виявляється неприйнятним унаслідок тимчасових і вартісних обмежень.

Приведемо наступний розрахунок. Допустимо, паперовий архів нараховує 50 млн. документів. На перевірку одного розпізнаного документа, класифікацію-рубрикацію, введення атрибутів оператор середньостатистично витрачає двох хвилин. Отже, для уведення всіх документів у режимі стандартного робочого тижня буде потрібно 1112 років. З іншого боку, при автоматичному введенні документів, основною вузькою ланкою системи буде продуктивність сканерів і потужність сервера, що виконує розпізнавання й індексування. З урахуванням оптимізації потоків підсистеми введення, можна екати, що аналогічний обсяг буде цілком уведений за 5-15 років - тобто ще при житті оператора.

Що стосується ИХД, то в КЭА також обробляються обсяги даних порядку декількох терабайт, структура бази дані системи орієнтована на об'єкти, а не на процеси, архівні дані інваріантні - їхня істинність не залежить від часу - і стабільні - не віддаляються і не модифікуються. Відмінність полягає в тому, що в ИХД дані мають інтегральний вид - отримані з безлічі різнотипних СУБД і файлових систем. У КЭА, як правило, затверджується єдина технологія введення документів. Однак варто обмовитися, на практиці ряд архівів уже має визначені наробітки або в організації документообігу, або в автоматизації каталогів, описів і специфічних картотек. Природно, на першому етапі наявні бази даних інтегруються в електронний архів.

Іншою відмітною і важливою особливістю КЭА є те, що він включає як засобу оперативного пошуку інформації (On-line Time Processing - OLTP), так і засобу оперативного аналізу інформації (On-line Analyze Processing - OLAP), що є основою ИХД.

Компоненти корпоративного електронного архіву

Тепер, розглянувши основні функції КЭА, коротко визначимо його ключові програмно-апаратні компоненти. Спочатку перелічимо основні апаратні засоби:

потокові сканери, що забезпечують надійне високопродуктивне введення паперових матеріалів низької якості (40 стор./хв і більш);

високопродуктивні масштабовані сервери, що забезпечують рівнобіжну обробку запитів;

високопродуктивна (100 Мбіт/c і більш) обчислювальна мережа, орієнтована на багатопотокове введення й обробку графічних документів;

RAID-масиви, що забезпечують високопродуктивний і надійний доступ до пошукових даних системи;

автоматичні бібліотеки компакт- чи магнітооптичних дисків, що забезпечують довгострокове збереження величезних масивів інформації,

засобу перенесення даних на компакт- чи магнітооптичні диски;

засобу резервного копіювання на магнітну стрічку;

робочі місця - клієнти, орієнтовані на обробку графічної інформації;

робочі місця розроблювачів конкретних додатків;

системи забезпечення безаварійного харчування;

принтери і модеми.

Системні програмні засоби включають:

операційне мережне середовище (звичайно Unix-сервер, NT - клієнт), орієнтовану на мультипотоковую обробку в мережі і сертифіковану по безпеці;

СУБД, орієнтовану на обробку масивів даних;

засобу відображення й обробки даних.

І нарешті, найважливіше - спеціальні програмні засоби:

засобу розпізнавання російськомовних текстів;

засобу розробки й оптимізації запитів;

засобу повнотекстового індексування і пошуку інформації;

засобу аналізу інформації.

Технічна реалізація - проблема вибору

При всім різноманітті програмного забезпечення, сьогодні не існує яких-небудь продуктів СУД і ИХД, що дозволяють забезпечити всі основні функції електронного документообігу й архівування для роботи зі великими обсягами документів. З іншого боку, більшість компонентів КЭА, як технічних, так і програмних, є унікальними і зразками, що набудовуються. Тому, при проектуванні КЭА виникають, як мінімум, дві взаємозалежні проблеми: оцінка і вибір компонентів; інтегрування технологій, програмних продуктів і технічних засобів.

Вибір деяких компонентів, наприклад, високопродуктивної мережі, конкретних моделей чи серверів RAID-масиву збігається із сучасними технологічними рішеннями побудови традиційних автоматизованих систем збору, збереження й обробки інформації. У той же час, ряд

компонентів має унікальну орієнтацію саме на електронне архівування. Тут ми будемо розглядати тільки проблему вибору специфічних для КЭА компонентів.

Технології індексування і пошуку

Ядром корпоративного електронного архіву по праву можна вважати технології індексування і пошуку. Сьогодні намітилися кілька напрямків побудови електронних архівів у залежності від використовуваних у них методів пошуку. Перший напрямок, іменований також корпоративним електронним архівом, відноситься до класу традиційних інформаційно-пошукових систем, заснованих на атрибутному пошуку структурованих даних. Як приклади можна привести системи побудови невеликих електронних архівів на базі програмних продуктів типу DOCS Open (PC DOCS), XDOC (Rank Xerox), SoftSolution (Novell), PaperWise (PaperWise) і ін.

Строго говорячи, дане напрямок не є технологією корпоративного електронного архівування як такий. Проведені розрахунки по введенню повного масиву документів показують, що навіть невелика затримка в кілька секунд при введенні документів виливається в додаткові кілька років, необхідних для введення повного обсягу документів. Візуальний контроль і напівавтоматизоване заповнення атрибутів практично не реалізовані в основній масі документів

великого архіву.

Альтернативний напрямок електронного архівування базується на принципі повнотекстового індексування неструктурованих даних і включає два види індексування:

контекстно-незалежне індексування, що не залежить від природної мови через бінарну чи словникову індексацію;

контекстно-залежне індексування, що дозволяє оптимізувати індексацію і пошук з урахуванням специфіки морфології і семантики природної мови.

Відомо кілька методів контекстно-незалежного індексування. Найбільш розповсюджений - індексація на базі інвертованої матриці, де чи словам нормалізованим словоформам ставляться у відповідність адреси документів. Тут звичайно використовуються стоп-словник неіндексованих слів і словник синонімів. Інший метод - бінарне індексування, наприклад, на базі теорії нейронних мереж. При використанні теорії розпізнавання образів, цей метод дозволяє досягти можливості нечіткого пошуку подібних, з погляду бінарних одиниць, чи слів, інакше, "пошуку з помилками". Нечіткий пошук надає величезні можливості для виявлення слів, що містять чи перекручування помилки. Наприклад: текст після розпізнавання, переведені на російську мову назви чи фірм іноземні прізвища. Однак при нечіткому пошуку користувач зіштовхується з проблемою відсівання шуму - документів, де зустрілися подібні по синтаксисі, але не за змістом слова.

У цілому, технологія повнотекстового електронного архіву представлена двома магістральними напрямками:

технологія, заснована на спеціалізованих системах індексування і пошуку.

Перший підхід базується на використанні засобів відомих SQL-СУБД, великі бази даних. Звичайно ці СУБД мають засобу повнотекстової індексації типу інвертованої матриці. З цієї причини, обсяг індексу може складати 30-350% від загального обсягу бази. Процентний розкид залежить від ступеня нормалізації индексованих слів тексту - приведення до початкової форми іменників, прикметників і дієслів. До достоїнства даного методу можна віднести наступне:

крім функцій індексування в СУБД є присутнім безліч корисних і необхідних функціональних, сервісних і технологічних функцій підтримки якісної архівної діяльності і документообігу. Ці засоби істотно спрощують задачі інтегрування засобів і функцій, захисту інформації і т.п.;

СУБД мають широке поширення, що виключає необхідність освоєння нових продуктів;

дані засоби мали багаторічну апробацію в рамках додатків СУБД, перевірені на практиці і, безсумнівно, будуть підтримуватися і розвиватися ще досить довго. До основних недоліків варто віднести те, що СУБД, особливо реляційного типу, споконвічно не орієнтовані на інтенсивну обробку великого обсягу інформації. Тому ряд функцій по повнотекстовому пошуку і побудові запитів, швидкості пошуку реалізується менш ефектно і добірно, чим у спеціалізованих пакетах. Наприклад, більшість СУБД поки не мають засобів підтримки нечіткого пошуку. У результаті, необхідний додатковий етап верифікації введеного тексту з метою виправлення можливих помилок сканування і розпізнавання. Однак зараз виникла нова тенденція - випускаються нові чи модулі версії програмних продуктів, орієнтованих на обробку сверхбольших обсягів традиційних даних і даних мультимедіа.

Прикладами реалізації зазначеного напрямку є програмні засоби індексування і пошуку російськомовних текстів, розроблені фірмами LVS і cognitive Technologies. Сьогодні відповідні засоби працюють у рамках СУБД Oracle і OB2.

Другий підхід, що включає повнотекстове індексування і пошук, заснований на використанні додаткових спеціалізованих пакетів повнотекстової індексації, зокрема на базі нейронних мереж. Багато хто аналітики вважають, що традиційні системи не годять для рішення задач КЭА, де вимагаються винятково могутні процесори даних. Такі системи використовують бінарну індексацію і реалізують нечіткий пошук. Перелічимо їхнього достоїнства:

системи мають більш якісні можливості по індексуванню, пошуку і по аналізі, зокрема, вони реалізують нечіткий пошук, що дозволяє відмовитися від проблеми виправлення помилок після розпізнавання;

системи характеризуються винятково високою швидкістю доступу;

обсяг індексу не перевищує 30% обсягу текстових даних;

системи звичайно, підтримують різні мультимедіа дані.

Які тут виникають супутні проблеми? По-перше, результати нечіткого пошуку прямо залежать від якості завдання запиту, і користувачі зіштовхуються з проблемою шуму - одержання нерелевантних документів. По-друге, зазначені системи розраховані на могутні рівнобіжні обчислювальні системи і поки не дуже поширені на платформі Intel. Але головний недолік полягає в тім, що це системи винятково індексування і пошуку - у них істотно обмежені функції керування документами. На розроблювачів покладаються дуже непрості задачі створення власних технологічних і сервісних функцій, інтегрування технологій і програмно-апаратних засобів і т.п.

Застрільником представленого напрямку є американська компанія Excalibur Technologies, що має сьогодні представництва по усьому світі.. Даний напрямок на російському, та й на європейському, ринку досить нове, наприклад, дозвіл на використання деяких програмних модулів на території Росії було отримано тільки в 1996 р. Фірма пропонує два програмних продукти: Excalibur EFS і RetrievalWare. Перший - це "коробковий" продукт, він дозволяє виконувати повнотекстову індексацію і пошук інформації, збереженої у файлових чи системах СУБД. Другий продукт - могутній інструментальний засіб створення систем повнотекстового пошуку на базі теорії нейронних мереж. RetrievalWare включає два чи компоненти програмні бібліотеки: текстовий сервер і сервер зображень. Бібліотеки можуть бути підключені до базового ядра інформаційної системи, наприклад, до СУБД Sybase.

Сервер зображень може ефективно використовуватися для пошуку тривимірних зображень, сигналів, фотографій, відбитків пальців, усного мовлення і т.п. Текстовий сервер тут істотно перспективніше, ніж Excalibur EFS - він включає не просто механізм пошуку неструктурованої інформації, але і семантичний аналізатор. Даний продукт дозволяє створювати семантичну мережу між поняттями мови, а виходить, - істотно розширювати можливості пошуку. Наприклад, англійський варіант семантичної мережі включає більш 0.5 млн. слів і 1.5 млн. зв'язків між ними. Сьогодні маються також відповідні розробки в області русифікації семантичного сервера. RetrievalWare також включає компонент Web, що дозволяє працювати в середовищі Internet чи intranet.

Незважаючи на розходження в зазначених підходах до індексування і пошуку, можлива їхня комбінація при реалізації конкретного електронного архіву.

Сканери потокового введення

Одним із самих вузьких ланок технології є сканери, що забезпечують безвідмовне високопродуктивне масове введення документів а паперових носіїв низької якості: злиплих, вицвілих, порваних, різних розмірів і щільності, погано надрукованих, забруднених і т.д. Практика показала, що офісні планшетні сканери з автоподатчиками зовсім непридатні для рішення таких задач, але ж саме документи даної якості маються сьогодні в більшості вітчизняних архівів.

Можливим варіантом рішення є використання спеціалізованих промислових сканерів, орієнтованих на потокове введення архівних документів. Відмінною рисою таких сканерів є ротаційний механізм переміщення документів, що дозволяє вводити дані з паперових носіїв поганої якості. На російському ринку найбільш відомі три типи промислових сканерів: Bell&Howell, Fujitsu і Kodak (таблиця 1). При їхньому виборі основними критеріями є продуктивність, довговічність, вартість, розмір документів, що вводяться, можливість двостороннього введення, наявність засобів, що підвищують якість розпізнавання, наявність засобів контролю. Найбільш ефективними з погляду масового введення поки є сканери Kodak, що мають надійні пристрої подачі папера, включають процесор розпізнавання тексту, систему комп'ютерної діагностики і контролю введення, постачені розвитими програмними засобами

розпізнавання і керування архівуванням, мають природну технологічну підтримку системи архивування (запис на компакт-диски, мікрофільмування, стикування з автоматичними бібліотеками компакт-дисків і ін.). Тут слід зазначити, що функція мікрофільмування в ряді електронних архівів залишається в експлуатації - електронна копія документа в Росії, на відміну від мікрофільму, поки не має юридичної чинності. Основним недоліком сканерів фірми Kodak є їхня висока вартість: ціна повного постачання з програмними засобами й офісними стійками досягає кілька сотень тис. доларів.

Таблиця 1.

Сканери потокового введення. Тип сканера Швидкість сканування (лист/хв при А4/200 dpi)

Дозвіл (dpi) Формат документа, тип сканування

Bell&Howell 2135 36 200 А4, однобічний

Bell&Howell - 2138A- 72- 200 А4, однобічний

Bell&Howell 6338 42 200-300 А3, двосторонній А3, двосторонній

Fujitsu 3099G 55 200-400 А3, двосторонній

KODAK IMAGELINK 500S 144 66-300 A3, однобічний

KODAK IMAGELINK 923D 144 67-300 A3,двосторонній

KODAK IMAGELINK 990 120 67-200 A3, двосторонній

Сканери Fujitsu і Bell&Howell уступають сканеру Kodak у першу чергу в сервісних і технологічних функціях, але успішно справляються з забезпеченням масового введення основних архівних документів. Сканери Fujitsu, на відміну від Kodak і Bell&Howell, виконані на пластмасовій основі, що заздалегідь визначає меншу довговічність і більш низький рівень надійності системи сканування. Тому з урахуванням цих факторів системи компромісним варіантом базового потокового сканера системи введення може бути сканер типу Bell&Howell.

Пристрою збереження даних

Як уже відзначалося, усі дані в системі можуть знаходитися в двох видах: пошуковий образ і образ власне документа. Через високі вимоги до швидкості доступу до пошукового образа документа і його цілісності, він повинний зберігатися у високошвидкісних системах збереження, наприклад RAID-масивах.

Для збереження образа документів використання магнітних дискових носіїв не представляється можливим унаслідок їхньої високої вартості. Найбільш придатними носіями можуть бути магнітооптичні, фазоінверсні (PD/CD), компакт- (CD-R) і WORM-диски (таблиця 2). Для автоматизації пошуку інформації, розміщеної на цих дисках, її витягу і роботі власне з дисками використовуються автоматичні чи бібліотеки, як їх ще називають, оптичні дискові автомати (JukeBox). Сьогодні відомі бібліотеки, що мають до 60-ти дисководів і до 3 тис. гнізд для дисків, обираних механізованим способом. Автоматичні бібліотеки можуть бути багатофункціональними, наприклад, одночасно підтримувати магнітооптичні, фазоінверсні і компакт-диски.

Перевага магнітооптичних дисків перед компакт-дисками заснована на тім, що перші дозволяють перезаписувати інформацію. Більшість технологічних рішень електронного архівування підтримує технологію міграції даних саме на магнитооптичні диски, що більш стійкі до помилок запису, мають більш високу швидкість читання, однак уступають компакт-дискам у гарантійному терміну збереження інформації і вартості. Якщо магнітооптичні диски, у кращому випадку, декларують схоронність інформації протягом 50 років, то гарантія на компакт-диски може складати 100 років і більш. Що стосується вартості систем збереження на базі магнітооптичних і компакт-дисків, то вона може відрізнятися в 4 рази. З обліком того, що більшість архівних документів, практично, не підлягають модифікації і видаленню, бібліотеки на компакт-дисках можуть бути переважніше. Крім того, компакт-диски зручніше в роботі: їхнє автономне читання можна здійснювати на будь-якому ПК.

Не викликає сумніву, що вся інформація в системі повинна мати резервні копії. Для графічних образів схоронність інформації може бути забезпечена створенням дубльованих магнітооптичних чи компакт-дисків. Для збереження мінливої пошукової інформації як нагромаджувачі зручніше використовувати системи резервного копіювання на магнітних стрічках. Застосовувані в персональних системах технології (DC2000/Travan, DC6000, DAT) непридатні через обмеження в обсязі. Можливим варіантом можуть стати DLT-стримери, вісьмимілліметрові бібліотеки Exabyte (Mammoth) чи спеціалізовані котушкові системи. Найбільш поширені DLT-стримеры.

Архітектури обчислювальної системи

Не зупиняючи на виборі конкретного сервера, відзначимо лише особливості архітектури обчислювальної системи. Дослідження показують, що для підтримки системи класу КЭА і ИХД сьогодні придатні тільки могутні RISC-платформи, орієнтовані на рівнобіжні обчислення.

Важливим критерієм при виборі перспективного сервера є підтримка 64-розрядності, необхідна при введенні й обробці великих обсягів даних. Сьогодні цю можливість надають тільки компанії DEC, SGI, Oracle і Sybase. У найближчому майбутньому очікується, що до них приєднаються HP і SUN Microsystems.

Висновок

Побудова електронного архіву - справа сугубо індивідуальне. І якщо архіву фото- і кінематографії, скажемо, додатково вимагаються функції обробки відеозображень і аудиосигналів, те архіву МВС - пошук відбитків пальців і фотографій. Кожна організація унікальна і вимагає обліку специфіки роботи, ступеня її автоматизації, що мається парку технічних засобів, кваліфікації фахівців і, нарешті, платоспроможності.

Які ж інженерно-технічні труднощі впровадження технології ? Це рішення двох великих задач: наповнення електронного архіву і забезпечення ефективного пошуку. Перша захоплює ряд інженерно-технічних проблем, рішення яких може зажадати істотних тимчасових витрат. Цим обумовлена важливість ефективної організації процесу розробки, що включає оптимальне планування процесів, аналіз і синтез напрацьованих технологій, створення системи керування якістю й ін. Негнучкість економічної діяльності в більшості госструктур визначає обмеження на поэтапность і наращиваемость державних електронних архівів. Це підвищує вимоги до системного і детального проектування, створенню досвідченого зразка, організації іспитів і тестування. При цьому варто пам'ятати, що систему не можна вважати закінченої, поки не буде введений основний накопичений обсяг документів.

Незважаючи на те, що масове введення - найважливіша і найбільш трудомістка задача КЭА, - він не є самоціллю. Цільова задача КЭА - забезпечення ефективного доступу до наявних даних із застосуванням інтелектуальних засобів. На цьому етапі найбільш актуальними є питання оптимізації запитів за критерієм швидкості виконання.

Очевидно, що розглянута технологія дуже дорого коштує і "по плечу" тільки великим організаціям. Тому, з огляду на визначені витрати на створення системи, перелічимо основні достоїнства електронного архіву. По-перше, підвищення повноти й оперативності відпрацьовування запитів до архіву. Особливо це ефективно при виконанні нестандартного нерегламентованого запиту. Відповідь, якого раніш чекали місяцями, причому без усякої впевненості, що він виявиться позитивним, тепер можна одержати за секунди й у зовсім іншій якості. По-друге, компактність і надійність збереження. Можна відмовитися від дорогих сховищ документів, скорочувати витрати і займані площі. Звуження кола допущених облич, контроль і облік доступу до системи дозволить підвищити не тільки схоронність, але і безпека конфіденційної інформації. Збереження документів в електронному виді приводить до того, що ряд архівних функцій, таких як мікрофільмування, ведення автоматизованих картотек, будуть скорочені через непотрібність. По-третє, створюється можливість проведення оперативного аналізу наявної інформації, що, підвищить обґрунтованість рішень, прийнятих вищою і середньою ланками керівників, що покладаються поки тільки на свій досвід і інтуїцію.

Системи оперативного аналізу ще досить нові і поки неясно, як їх ефективніше використовувати для роботи з великими архівами документів. Власне кажучи, у нашій країні поки немає яких-небудь прецедентів реалізації таких систем. Крім того, область ця досить специфічна - що аналізувати, які інтелектуальні засоби чи впроваджувати розробляти в чималому ступені визначається особливостями конкретного архіву.