О создании электронных библиотек ФСИН России

(Лебедев А. В.)

("Уголовно-исполнительная система: право, экономика, управление", 2006, N 1)

Текст документа

О СОЗДАНИИ ЭЛЕКТРОННЫХ БИБЛИОТЕК ФСИН РОССИИ

А. В. ЛЕБЕДЕВ

Мы... еще не далеко ушли от того

возраста, когда, давая название

чему-либо, мы полагаем,

что создаем нечто новое.

М. Пруст

По дороге к Свану

Лебедев А. В., главный научный сотрудник НИИИиПТ ФСИН России, кандидат физико-математических наук.

Среди важнейших проблем современной науки особенно выделяется проблема создания систем накопления и передачи научных знаний (Knowledge availability system, или KAS), в которую составной частью входит задача поиска научной информации. Как можно видеть из обширной литературы, посвященной различным аспектам этой проблемы, она имеет явно "интердисциплинарный" характер: в ее изучении с самого начала принимали участие представители многих наук. Однако, несмотря на огромное количество частных исследований и усилия многочисленных коллективов, состояние науки в этой области по-прежнему остается неудовлетворительным. По мнению пионера и выдающегося специалиста в области информационного поиска А. Кента, для создания систем накопления и передачи научных знаний понадобится по крайней мере столько же денег и таланта, сколько было отпущено на создание атомной бомбы.

Самым важным на этом этапе исследований является выяснение теоретических основ создания систем накопления и передачи научных знаний, и в первую очередь выяснение того, какие категории и понятия являются определяющими для данной области знаний.

Научная информация обычно воспринимается и понимается прежде всего как нечто, что можно назвать "указательной информацией", т. е. сведениями библиографического характера; поиску и систематизации именно таких сведений посвящается работа всех библиотек, информационных бюллетеней и т. д.

Сейчас всю зафиксированную на каких-либо носителях информацию можно условно разделить на две части: информация, существующая в цифровом виде и поэтому с легкостью размножаемая копированием и делением на части, и информация, живущая на аналоговых носителях и вследствие этого менее склонная к распространению.

Вплоть до второй половины XX в. вся информация, которая создавалась человечеством, была аналоговой. Начиная с 70-х гг. XX в. потоков накопления информации стало уже два: аналоговый и цифровой. Часть аналоговой информации переводилась в цифровую форму, но процесс этот шел не быстро, так как аналоговых данных к тому времени накопилось очень много, а средства оцифровки были достаточно несовершенны (впрочем, несмотря на все успехи информационных технологий, промышленных систем оцифровки информации с промышленной же производительностью до сих пор никто так пока еще и не разработал). Одновременно рос и поток информации, которая изначально накапливалась на цифровых носителях.

С созданием сети Internet в ней содержится до 50% общего количества информации, расположенной на цифровых носителях. Однако в силу самого устройства сети немедленно возникли потоки информации, которые могут быть условно названы "паразитными", поскольку они не содержат в себе уникальных данных. Информации о том, какое количество данных в сети является уникальным, по всей видимости, просто не существует.

Однако "виртуализация" информационных источников, сопровождающая распространение технологии Internet, начинает вступать в противоречие с организацией традиционных процессов человеческой деятельности. Новое звучание получают процессы перевода традиционных источников информации в форму ресурсов Сети и придания интегрированным информационным массивам, хотя бы частично, той степени организации учета и классификации, которая присуща традиционным библиотекам.

Периодически различные рейтинговые агентства, имеющие отношение к индустрии высоких технологий, сообщают, сколько документов находится в Internet в данный момент. Цифры получаются умопомрачительные, но у всех агентств достаточно разные, поэтому сложно сказать, какие из них ближе к истине. Понятно другое - количество страниц информации в Сети исчисляется многими миллиардами, а ведь существует еще и множество хранилищ информации, которые поисковыми системами пока не индексируются.

Предоставление локальных информационных ресурсов в единое общедоступное информационное пространство - составной элемент формирования информационного общества, способный изменить многие традиционные области человеческой деятельности. При соответствующей организации этот процесс может в существенной степени повлиять на интенсивность и качество образования и научных исследований. Этого можно достичь за счет:

глобализации ресурсов, доступности всех работ, ведущихся в каком-либо направлении;

доступности часто используемой информации учебно-методического характера, т. е. формирования информационной ресурсной базы для процессов дистанционного образования;

удаленного доступа к информационным ресурсам, традиционный доступ к которым затруднен в силу особых условий хранения, доступа и др.

Для уголовно-исполнительной системы России процесс представления, поддержки и использования информации особенно важен в силу целого ряда причин. Ведущие научно-образовательные центры Федеральной службы исполнения наказаний (далее - ФСИН) разделяют огромные по западным меркам расстояния, а возможности командировок, стажировок, научных обменов, обучения по программам нескольких вузов и т. д. сегодня крайне невелики. Сложившаяся структура высших учебных заведений характеризуется узкой специализацией. Характерная для многих случаев оторванность университетов от исследовательских работ, ведущихся в Научно-исследовательском институте ФСИН России, исключает для студентов возможность использовать оперативную информацию и принимать участие в совместных работах.

Все вышеизложенное существенно осложняет работу по объединению локальных информационных ресурсов в единое общедоступное информационное пространство.

В настоящее время ФСИН России проводит активную работу по информатизации процесса управления. Информационный ресурс ФСИН составляет 340 форм отчетных документов, 164 из которых относятся к статистической отчетности, 13 секретных форм статистической отчетности, более 20000 показателей, 200 адресатов электронной почты, более 100 баз данных, среди которых - база данных по классификации и кодированию технико-экономической информации (2235 подразделений), банк данных нормативных правовых актов. Все вопросы, связанные с информационным обеспечением деятельности УИС, в настоящее время возложены на головную организацию ФГУ НИИИиПТ ФСИН России (г. Тверь). Уголовно-исполнительная система имеет необходимый технический и технологический потенциал для поддержания в актуальном состоянии информационных ресурсов, который насчитывает свыше 17000 персональных электронно-вычислительных машин (далее - ПЭВМ), из них свыше 600 ПЭВМ в центральном аппарате ФСИН России и около 6000 ПЭВМ в территориальных органах и учреждениях, созданы и эксплуатируются 244 локальные вычислительные сети, 80 территориальных органов являются абонентами электронных информационно-компьютерных сетей, 34 территориальных органа имеют выход в сети Интернет.

Сотрудниками НИИИиПТ разработаны более 200 прикладных программных средств по основным направлениям деятельности ФСИН, усиленно развивается система ведомственной статистической отчетности, подготовлена Ведомственная целевая программа "Информационное и телекоммуникационное обеспечение деятельности ФСИН России на 2005 - 2007 гг.", проект Концепции совершенствования информационного обеспечения УИС. Данная работа проводится в тесном содействии с ведущими вузами системы. Институтом заключены договора о научно-техническом сотрудничестве с Научно-исследовательским институтом уголовно-исполнительной системы (далее - НИИ УИС) и Академией права и управления Минюста России (далее - АПУ). За последние полтора года сотрудниками института обучено основам современных информационных технологий более 100 человек руководящего состава на ВАК АПУ и около 600 человек технических специалистов на базе НИИИиПТ. В течение 2005 г. на базе создаваемого в НИИИиПТ межрегионального учебного центра проведено более 20 учебно-практических семинаров с пользователями прикладных программных средств и системными администраторами ФСИН.

Вместе с тем эффективность использования имеющихся информационных ресурсов, кадрового и технического потенциалов УИС могла бы быть значительно выше при организации централизованного научно-методического руководства информационной деятельностью и координации (в рамках единой информационной политики) работы служб подразделений УИС, осуществляющих в настоящее время информационное обеспечение управленческих функций.

Следует отметить, что вузами системы в последние годы издается значительное количество учебных и научно-методических пособий. Однако, как показывает мировая практика, в последние годы профессорско-преподавательский состав и студенты все чаще обращаются в поисках информации к электронным библиотекам. В связи с этим значительный интерес представляет возможность организации ведомственной электронной библиотеки на базе НИИИиПТ, который, фактически выполняя функции ГИЦ ФСИН, является хранителем информационного ресурса системы.

Основываясь на открытых библиотечных стандартах, рекомендациях группы Dublin Core (Dublin Core Meta Data initiative, http://purl. org/dc) и существующих классификационных схемах, можно попытаться создать механизм интеграции разнородных информационных ресурсов научной информации в единый конгломерат с унифицированными процедурами обработки и доступа.

Сегодня усилия многих крупнейших исследовательских организаций и фондов сосредоточены именно на проектах представления, поддержки и использования информации в Internet. Подтверждением этого могут быть исследования Internetional institute for Electronic Libraries Researches (Internetional Institute for Electronic Libraries Researches: The current projects, http://www. iielr. dmu. ac. uk/Projects/projsum. html).

При создании библиотеки нужно ориентироваться на следующие принципы.

Центральная часть любой автоматизированной библиотечной системы - электронный библиографический каталог. Его основное назначение - ввод, модификация и поиск "библиографических описаний" типовой (единой для библиотеки или сети библиотек) номенклатуры информации обо всех единицах хранения. Практически все такие разработанные подсистемы обеспечивают формирование "карточки" - элемента стандартного карточного каталога.

Подсистема электронных образов изданий планируемой электронной библиотеки должна позволять вводить и описывать как сами издания, так и любые мультимедиаматериалы (звуковые и видеофрагменты, графические изображения). Обеспечивается возможность ассоциирования хранимых материалов с описаниями электронного библиографического каталога.

Создание поисковых систем повлечет за собой необходимость фильтрации результатов поиска по тематическому признаку. Это требование реализуется соотнесением любого ресурса с одной или же несколькими "тематическими рубриками". Подобное соотнесение, как правило, выполняется вручную специалистами предметных областей, однако в последнее время ведутся разработки по созданию автоматизированных экспертных систем. Тематический классификатор может в принципе иметь любую произвольную (созданную авторами поисковой системы) структуру и форму, но желательно, чтобы он был стандартизированным. Наиболее распространены такие классификационные схемы, как DDC, UDC, ББК, ГРНТИ, ВАК, УДК.

Тем не менее такими предметными классификаторами сущность вопроса не исчерпывается. Проблема поиска научной информации непременно предполагает также оптимизацию способов получения "содержательной информации", то есть способов поиска, направленного на выяснение не только того, кто и о чем сказал (написал), но и что он сказал (написал) по этому поводу.

Как известно, именно проблема рационализации поиска содержательной информации представляет основную трудность научного реферирования и соответственно создания реферативной периодики, выступающей на данный момент в качестве практически единственного общедоступного источника текущих сведений.

Одним из значительных достижений в рассматриваемой области знаний является введение в общее использование термина "дескриптор". Дескриптор есть знак для выражения понятия, имеющего наибольшее значение для раскрытия сущности описываемого явления, его научной интерпретации и классификации. Между дескрипторами и словами научного текста нет прямых и однозначных соответствий не только и не столько потому, что в дескрипторном языке, как в информационно-логическом, устраняется вся синонимия, но и потому, что по своему назначению - записать в компактной форме содержание рассматриваемого - дескрипторный язык не может обладать словарем, полностью совпадающим со словарем текста.

Обычно термин "дескриптор" употребляется лишь для обозначения того, что следовало бы назвать "номенклатурным" дескриптором, то есть дескриптором, "называющим" (обозначающим) предмет, свойство как отвлеченно данный. Поэтому естественно, что созданные дескрипторные словари содержат в себе главным образом иерархически упорядоченный набор номенклатурных дескрипторов, нередко дескрипторный словарь представляет собой словарь предметных рубрик, по отношению к которым термины текста являются понятиями видовыми. Значительная часть словаря номенклатурных дескрипторов строится на терминологии данной области знаний, поскольку термины являются наиболее информативной частью текста.

Совершенно ясно, что разработка эффективных систем накопления и передачи научных знаний прежде всего требует выяснения основных понятий, относящихся к научной деятельности человека. В первую очередь необходимо дать определения классическим понятиям, которые давно бытуют и широко употребляются в самых разных научных областях. Это прежде всего понятие реферирования вообще. Это понятие определяется в Академическом словаре русского языка как "краткое устное или письменное изложение научной работы". Совершенно понятно, что это общее определение не обладает научной точностью, так как оно содержит ряд неопределенных понятий. Непонятно, что значит "краткое". И во-вторых, неясно, что следует понимать под изложением.

Вторым из наиболее распространенных понятий данной области является понятие аннотации. В том же словаре аннотация определяется как "краткая характеристика книги, статьи и т. п., излагающая их содержание обычно в виде перечня главнейших вопросов и дающая иногда их оценку".

Необходимо значительно точнее, чем это делалось до сих пор, сформулировать основные проблемы данной области и наметать пути их разрешения. Действительно, какие бы термины мы ни употребляли, содержание остается тем же самым, т. е., с одной стороны, может быть поставлена задача систематизировать некоторый инвентарь заметок, которые нормально делает сам читающий для того, чтобы составить себе краткий перечень основных пунктов содержания данной работы, а с другой - может быть поставлена цель не просто выделить из изучаемого текста какие-то основные "номенклатуры", а попытаться кратко изложить также все "предикаты". Это значит попытаться дать краткое представление не только о том, что имеется в изложении, какие объекты трактуются в данном тексте, но и что говорится об этих объектах, какие делаются высказывания по их поводу, как соотносятся они с действительностью и - что самое главное - с отношением пишущего или говорящего к ним как таковым и к их отношению к действительности.

Среди многочисленных систем информационных языков выделяется особая и очень важная группа так называемых информационно-логических языков, построенная на базе языков математической логики. Информационно-логические языки - это информационные системы, обеспечивающие логическую переработку информации и позволяющие решать такие задачи, как вывод следствий из заданной совокупности исходных утверждений, доказательства истинности данного утверждения или, наоборот, его опровержения и т. п. Ясно, что такие языки непременно строятся на символах и знаках "языков математической логики".

Перевод сообщений или высказываний с естественных языков на языки математической логики очень осложняется к тому же и следующими обстоятельствами: каждый язык непременно предполагает наличие определенного инвентаря единиц (элементов) и набора правил их соединения. Выясняется, однако, что перевод с естественных языков на языки математической логики оказывается прежде всего проблемой синтаксической. Исследователи сосредоточиваются прежде всего на выявлении правил построения, на формализации конструкций или моделей, причем конкретные элементы, из которых могут быть построены такие модели, выступают в них в виде переменных величин, не затрагивающих и непосредственно не влияющих на ту или иную формулу, не препятствующих ее выделению и формализации как таковой.

До сих пор сведения о логической структуре высказываний все еще очень неполны, причем логическому анализу поддаются лишь отдельные "фрагменты" естественного языка, лишь очень небольшое число высказываний, ограниченных по стилю, сфере употребления и т. п. Поэтому алгоритм, который обеспечивал бы правильный перевод на информационно-логический язык любой произвольно взятой фразы естественного языка, нельзя построить, не только исходя из данного уровня развития науки, но и принципиально. Причиной этому является чрезвычайное разнообразие высказываний, возможных в естественном языке, в разнообразных сферах, жанрах, стилях, диалектных и других разновидностях речи. Однако построение подобного алгоритма, по существу, и не нужно, так как создание информационно-логических языков, по идее, практически важно только для той специфической сферы человеческого общения, которая имеет целью передачу (соответственно хранение и т. д.) научной информации. Поэтому совершенно правомерной является постановка вопроса о стандартизации именно тех форм речи на естественном языке, которые употребляются для передачи научной информации. Но каким образом можно достигнуть такой стандартизации? Каким образом можно определить, какого уровня должна достигнуть такая стандартизация для того, чтобы можно было решить поставленные жизнью практические задачи?

Думается, что в поисках ответа на этот вопрос необходимо построить алгоритм синтеза, использующий все те, и только те конструкции, которые имеют уже известную логическую природу. Подобный алгоритм позволит выделить как раз тот "фрагмент" естественного языка, которому современная наука в состоянии дать адекватный логический анализ.

Алгоритм синтеза, или алгоритм перевода с информационно-логического языка на естественный язык, должен состоять, по-видимому, из двух частей: а) из правильного перекодирования, т. е. замены символов информационно-логического языка словами и выражениями естественного языка, которые являлись бы их прямыми эквивалентами; б) из правил трансформации, упрощающих структуру получаемого предложения. Та деятельность по интеграции моделей, которая проводится сейчас, безусловно, полезна и необходима, но недостаточна. Если для "нижнего этажа" терминологии принятие "общих правил игры" возможно, то для более общих моделей требуется выйти за рамки используемых в "дублируемых работах" фундаментальных понятий. Сам факт подчеркиваемой проблемы "разрастания языков моделирования и дублирования усилий" говорит о том, что для обеспечения "консенсуса" требуется более глубокий уровень структурирования, чтобы базовые стандарты моделирования стали общепринятыми. Ситуация похожа на ту, которая сложилась в механике перед тем, как Ньютон сформулировал свои законы и ввел понятия, которые стали общепринятыми (интересно отметить, что молодой Ньютон очень интересовался созданием универсального языка описания природы, и сейчас на новом витке общество стоит перед такой же проблемой). Примечательно, что предпосылки для дальнейшего развития более глубоко структурированных моделей уже давно имеются, но они пока недостаточно используются в разработке моделей и метамоделей данных.

Учитывая, что одним из ключевых понятий в разрабатываемых моделях является понятие "класс", естественно рассмотреть наработки по теории классификации. Это направление связано прежде всего с деятельностью в 70 - 80-х гг. "виртуальной" школы Юлия Шрейдера, которая объединяла по интересам ученых разных отраслей: биологов, лингвистов, информатиков и др. Согласно теории классификации для полного описания любой классификационной системы принципиально необходимо двойственное представление как с точки зрения "таксономии", так и с точки зрения "мерономии".

В существующих же моделях используется только таксономическое описание, основанное на идеологии теории множеств. В практике мерономии описания проводятся через строго формализованные "определители классов" (по аналогии с широко используемыми в биологии "определителями", например "Определитель птичьих гнезд").

Одним из важных следствий "принципа двойственности" является принципиальная возможность описания любой иерархии таксонов через комбинации независимых "неиерархических" признаков. Еще одним важным следствием теории классификации является расширение понятия "свойство" по сравнению с его использованием в существующих моделях.

Другим, не используемым в существующих моделях направлением является теория измерений, которая подвела единую базу под количественные и "качественные" измерения, введя понятие "тип шкалы измерения" со строгим определением разных типов шкал. Наиболее изученными уже были количественные шкалы, которые широко используются в метамоделях проекта STEP. В то же время более интересными для обобщения моделей являются "классификационная" и "порядковая" шкалы.

Третье направление, которое должно послужить общим фундаментом, - это семиотика - наука о знаковых системах с ее "синтактикой", "семантикой" и "прагматикой". Сейчас идет процесс становления этой новой науки, которая фактически "отпочковывается" от философской теории познания в прикладную "инженерию знаний".

Важно отметить, что использование семиотического подхода "гуманизирует" модель. Стремление существующих метамоделей формализовать все "до конца" также требует пересмотра с явным выделением "границы" формализации между знаниями человека и "знаниями" компьютера. Эта граница относительна и может меняться по мере развития системы. Сейчас границы семиотики еще более расширяются.

Сегодня работы и исследования по представлению, поддержке и использованию информации в электронном виде следует вести по следующим направлениям.

1. Создание ресурсов:

1.1. Преобразование накопленных информационных ресурсов в электронную форму (формализация и автоматизация такого перевода).

1.2. Организация изначально электронных информационных источников (электронные издания).

1.3. Вовлечение в оборот научной и учебной информации "нетрадиционных" источников - списков рассылки, каталогов ссылок, конференций и т. п.

2. Доступ к ресурсам:

2.1. Способы единообразной идентификации электронных ресурсов.

2.2. Организация поиска в разнородных и распределенных информационных источниках (автоматизированные реферирующие системы (search engine), тематические каталоги ресурсов).

2.3. Доставка требуемого информационного источника пользователю и его представление на доступном оборудовании.

2.4. Механизмы сопровождения данных о лицензионных соглашениях и авторских правах.

3. Поддержка ресурсов:

3.1. Организация хранения больших объемов информации.

3.2. Отслеживание актуальности ресурсов.

Проект "Электронная библиотека для обучения и исследований".

Проект, планируемый к реализации в Научно-исследовательском институте информационных и производственных технологий, направлен на достижение двух основных целей. Во-первых, организовать информационную среду для обучения и научных исследований, максимально используемую во всех учебных заведениях системы. Среду, призванную систематизировать и представить во внешний мир создаваемые и используемые при этом информационные ресурсы разного рода. Среду, способную к интеграции в региональные и общероссийские проекты разной направленности. Во-вторых, создать макет для отработки решений по организации библиотеки нового поколения, аккумулирующей ресурсы разной природы. При этом речь идет именно о комплексном подходе к проблеме - от решения множества конкретных задач к формированию среды таких решений.

В рамках проекта осуществляется попытка обеспечить полный цикл поддержки всех наиболее используемых информационных источников, опираясь при этом на существующие открытые стандарты и тенденции развития технологий организации электронных библиотек.

Электронные образы изданий. Включение в состав ресурсов электронной библиотеки может осуществляться путем организации соответствующего АРМ в редакционно-издательском отделе НИИИиПТ - точке, через которую проходит вся издаваемая литература. Основная трудность работы с этими ресурсами - разные форматы (Word, PDF и т. п.).

Мультимедиаматериалы. В процессе своей деятельности в любой организации происходит постоянное накопление самой разнообразной информации - фотографий, схем, слайдов, планов, аудиозаписей, видеофрагментов и т. п. В НИИИиПТ точками концентрации такой информации являются соответствующие структурные подразделения (Центр информационного обеспечения, учебный центр, ЦИТО и т. д.). При необходимости перевод этой информации в электронную форму осуществляется силами сотрудников самих подразделений. Однако без создания электронной библиотеки часть информационного ресурса системы будет безвозвратно утеряна. В будущем планируется оснастить необходимым оборудованием и подготовить персонал соответствующего подразделения, который будет обращаться в точки концентрации информации. Конечно же подавляющая часть научной и учебной информации создается в ведущих научных подразделениях системы НИИ УИС, Академии права и управления Минюста России (г. Рязань), Владимирском юридическом институте и др. Очень хотелось бы, чтобы и материалы этих организаций также были размещены в планируемой к созданию электронной библиотеке.

Технологии и организация доступа.

В данный момент сотрудники НИИИиПТ могут осуществить доступ практически к любой информации, представленной в электронном виде и являющейся информационным ресурсом организации, конечно же с учетом соответствующих разделений по категориям доступа.

Таким образом, необходимо решить лишь вопрос с доступом к информации сотрудников других подразделений ФСИН. Необходимость взаимодействия электронной библиотеки с другими существующими системами приведет к тому, что для обмена с другими подразделениями потребуется развитая система телекоммуникаций, как ведомственная, так и межведомственная.

Название документа