«Эффективность использования электронных библиотек в филологических исследованиях»
Вид материала | Документы |
- «Эффективность использования электронных библиотек и поиск информации в сети Интернет, 206.96kb.
- Дударь З. В., Церковный, 16.82kb.
- Цели и задачи Российской ассоциации электронных библиотек, 82.31kb.
- План Введение Общие сведения об электронных учебниках: а требования к системе «электронный, 498.46kb.
- 4 2 Экологическое просвещение на базе библиотек, 300.65kb.
- «Электронные ресурсы библиотек, музеев, архивов», VII научно-практическая конференция, 21.65kb.
- Характеристика электронных средств обучения Этапы разработки электронных учебников, 610.38kb.
- Кдокладам Научно-практической конференции Российской ассоциации электронных библиотек, 243.74kb.
- Наши публичные библиотеки По данным анкеты, 249.79kb.
- Проблемы отражения электронных учебных изданий в информационных ресурсах библиотек, 121.1kb.
БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
Выпускная работа по
«Основам информационных технологий»
Магистрант
кафедры славянских литератур
филологического факультета
Селина Анастасия
Руководители:
профессор Чарота Иван Алексеевич,
ст. преподаватель Громко Николай Иванович
Минск – 2008 г.
Оглавление
Оглавление 2
Список обозначений ко всей выпускной работе 4
Реферат на тему «Эффективность использования электронных библиотек в филологических исследованиях» 5
Введение 5
Глава 1. Определения и область исследования. 7
Глава 2. Достоинства и недостатки ЭБ. 9
Параграф 1. Процессы оцифрования информации и вопрос об авторском праве. 10
Параграф 2. Проблема унифицированного формата электронных документов. 13
Глава 3. Исследование методов поиска информации в ЭБ. Основные алгоритмы поиска. 17
Заключение. 20
Список литературы к реферату. 22
Предметный указатель к реферату. 23
Интернет ресурсы в предметной области исследования. 24
Действующий личный сайт в WWW (гиперссылка). 26
Граф научных интересов. 27
Презентация магистерской диссертации. 29
Список литературы к выпускной работе. 30
Приложения 31
Приложение 1 31
Приложение 2 38
Список обозначений ко всей выпускной работе
ЭБ – электронная библиотека.
ИТ – информационные технологии.
ПО – программное обеспечение.
Реферат на тему «Эффективность использования электронных библиотек в филологических исследованиях»
Введение
Всемирная сеть Интернет и разнообразные информационные технологии давно и прочно вошли в жизнь людей, закрепились в сознании, как необычайно эффективные способы обработки различной информации и заняли соответствующее место. Использование информационных технологий имеет место во всех отраслях науки, известных на сегодняшний день. В данном реферате рассматривается частный случай – использование информационных технологий в филологических исследованиях и эффективность такого использования. Для того, чтобы несколько сузить область исследования и сделать реферат более специализированным, мы остановимся на способах работы с электронными библиотеками, на технологиях управления информационными ресурсами в ЭБ, а также на проблемах, возникающих при использовании такого типа информационных технологий.
Актуальность данного реферата определяется тем, что в настоящее время существующие «классические» библиотеки, архивы и различные литературные фонды зачастую не в состоянии обеспечить ученого-филолога необходимыми материалами, особенно, если речь идет о работах по межлитературным связям или компаративным исследованиям творчества писателей зарубежных литератур. (В случае автора реферата ситуация усугубляется узостью и редкостью основной специализации – болгарская литература). В подобной обстановке трудности возникают с поиском не только литературно-критического и методологического материала, но и текстов самих произведений, анализ которых, несомненно, должен составлять основу будущих работ. Привычными способами удается отыскать лишь переводные тексты, и если в случае литературоведческих и общеметодологических статей никаких проблем этот факт не вызывает, то для анализа непосредственно текста произведения использование перевода неприемлемо и непростительно. Обращение, таким образов, к ресурсам ЭБ представляется единственно возможным выходом.
Однако в процессе работы с ЭБ, как показал личный опыт автора реферата, неминуемо возникает ряд проблем и затруднений, причины которых и будут составлять объект исследования в данной работе.
Глава 1. Определения и область исследования.
Существующие в настоящее время электронные библиотеки характеризуются большим разнообразием поддерживаемых в них ресурсов, способов организации их коллекции, а также функциональными возможностями интерфейса. Тем не менее, между ними существуют и значительные отличия. Поэтому в первую очередь необходимо обозначить, что же именно мы разумеем под электронной библиотекой. (Неискушенные ПК и Интернет пользователи часто путают ЭБ и базы данных, соответственно, данное определение адресовано и им в том числе). Различные источники предлагают достаточно отличающиеся друг от друга определения; приведем наиболее частотные:
- « Электронная библиотека – комплекс учебно-методической и дополнительной литературы, представленной в электронном виде и размещенной в сети Интернет» [5];
- « Электронная библиотека – программный комплекс, обеспечивающий возможность накопления и предоставления учащимся и педагогам на основе средств телекоммуникаций полнотекстовых электронных информационных ресурсов, снабженный собственной системой документирования и безопасности» [3];
- « Электронная библиотека – управляемая коллекция хранимой в цифровом виде информации, снабженная системой навигации» [4];
- «Электронная библиотека – упорядоченная коллекция разнородных электронных документов, снабженных средствами навигации и поиска. Может быть ссылка скрыта, где постепенно накапливаются различные ссылка скрыта (чаще литературные, но также и любые другие, вплоть до компьютерных программ) и медиа-файлы, каждый из которых самодостаточен и в любой момент может быть востребован читателем. Электронные библиотеки могут быть универсальными, стремящимися к наиболее широкому выбору материала, и более специализированными» [2].
Как можно было заметить, определения также значительно разнятся. На мой взгляд, наиболее удачными являются последние два, они лучше остальных отражают суть понятия «ЭБ», ее разнообразную функциональную направленность и контент (информационное наполнение). Несколько расширяя рамки определения, приведем примеры универсальных и специализированных ЭБ: к первым относятся такие известные библиотеки, как «Библиотека Максима Мошкова» (ссылка скрыта), «Библиотека Альдебаран», «Библиотека Фензин» и т.д., в которых представлена в основном русскоязычная и переводная художественная литература, однако можно найти и специализированную (например, различные учебники, пособия, сборники научных статей). Примеры специализированных ЭБ – «ссылка скрыта», проект «ссылка скрыта» (нацеленный на собирание авторов и типов текста, наиболее ярко заявляющих о себе именно в ссылка скрыта), «Проза.ру» (сбор произведений современных молодых писателей-прозаиков).
Следует также ограничить и область обсуждения. Выбранная тема звучит, как «Эффективность использования электронных библиотек в филологических исследованиях», и, соответственно, оцифрованные медиа-файлы (музыка, фильмы) и различные компьютерные программы, находящиеся в свободном доступе в специализированных электронных библиотеках, в нашему исследованию относиться не будут.
Глава 2. Достоинства и недостатки ЭБ.
Само существование электронных библиотек является, безусловно, фактом положительным. Удобство и простота использования, понятные каждому пользователю интерфейсы (во всяком случае, таковыми они представляются в вышеперечисленных ЭБ), возможность собрать на домашнем компьютере небольшую личную коллекцию редких книг – все это неоспоримые достоинства ЭБ, и перечисление их можно было бы продолжить. Однако, в то же время в процессе работы с электронными библиотеками выявляются и существенные недостатки, о которых и пойдет речь далее.
Для большей наглядности положительные и отрицательные качества ЭБ будут перечисляться вместе, группируясь по парам, так как чаще всего они являются разными следствиями одного факта, выдвигаемого в качестве исходного тезиса.
Параграф 1. Процессы оцифрования информации и вопрос об авторском праве.
Информация (в первую очередь, текстовая) помещается в электронную библиотеку при помощи процесса оцифрования (переведение объектов в цифровой вид). Нельзя безоговорочно назвать это достоинством, просто потому, что это сама суть электронной библиотеки – перевести информацию в электронной вид. Тем не менее, уже это утверждение вызывает ряд вопросов.
Во-первых, что немаловажно для постоянных пользователей ЭБ, оцифровка текстовой информации проходит необычайно медленно: несколько сот книг в год. Объемы, несравнимые с объемами реальных издательств, специализирующихся на бумажной книжной продукции. Поэтому шанс быстро получить не оцифрованное ранее издание крайне мал, быстрее будет все-таки купить.
Вторым и, вероятно, наиболее острым на сегодняшний день вопросом, касающимся электронных библиотек, является вопрос об авторском праве. Насколько правомерно размещать в сети Интернет произведение без согласия автора? Разрешено ли оцифровывать и выкладывать тексты произведений в свободный доступ по собственной единоличной инициативе? Не нарушает ли закон сам факт существования электронных библиотек, предлагающих всем желающим тексты произведений совершенно бесплатно и поставивших на поток оцифровку новых книг?
Разъяснения можно найти лишь в действующем законе «Закон об авторском праве и смежных правах». Исключительные права автора обозначены в нем следующим образом:
«Исключительные права автора на использование произведения означают право осуществлять или разрешать следующие действия: воспроизводить произведение (право на воспроизведение);…» [10] То есть никто не имеет права воспроизводить произведение без согласия на то автора или же без покупки (оформления) смежных прав на произведение, что подразумевает выплату процентов от доходов самому автору.
Может возникнуть резонное замечание: ЭБ не воспроизводят произведения, тем более не в объемах (вернее, не в тиражах) реальных издательств. ЭБ лишь предоставляет одну оцифрованную копию. Следует вновь обратиться к тексту закона, чтобы понять, что именно юриспруденция понимает под «воспроизведением»:
«Воспроизведение произведения – изготовление одного или более экземпляров произведения или его части в любой материальной форме, в том числе в форме звуко- и видеозаписи, изготовление в трех измерениях одного или более экземпляров двухмерного произведения и в двух измерениях – одного или более экземпляров трехмерного произведения; запись произведения в память ЭВМ также является воспроизведением» [10].
Возможны возражения, что электронная библиотека вне зависимости от формата хранимой в ней информации все так же остается библиотекой, то есть учреждением, главная функция которого – хранить (сохранять) информацию. В законе «Об авторском праве и смежных правах», однако, имеется контраргумент и на это высказывание:
«Допускается без согласия автора и без выплаты авторского вознаграждения, но с обязательным указанием имени автора, произведение которого используется, и источника заимствования репродуцирование в единичном экземпляре без извлечения прибыли: 1) правомерно опубликованного произведения библиотеками и архивами для восстановления, замены утраченных или испорченных экземпляров, предоставления экземпляров произведения другим библиотекам, утратившим по каким-либо причинам произведения из своих фондов;…» [10].
Однако, «репродуцирование (репрографическое воспроизведение) – факсимильное воспроизведение в любых размере и форме одного или более экземпляров оригиналов или копий письменных и других графических произведений путем фотокопирования или с помощью других технических средств, иных, чем издание; репрографическое воспроизведение не включает в себя хранение или воспроизведение указанных копий в электронной (включая цифровую), оптической или иной машиночитаемой форме» [10].
Таким образом, получается, что большая часть всех электронных библиотек в Интернет действуют незаконно. И так же незаконно действовать продолжают, и, думаю, будут продолжать еще долгое время, потому что хотя юридическая база и существует, однако распространяется на весьма узкий круг проблем. До сих пор нет полноценных законов, положений, указов, которые бы регламентировали функционирование различных объектов (под объектами понимаются веб-сайты разной направленности: электронные библиотеки, сайты организаций или отдельных лиц, форумы, «живые журналы», блоги и.т.д.) в Интернет.
Исходя из аспекта оцифровки информации и скорости этой оцифровки, говорить об эффективности использования Интернет-ресурсов нужно осторожно. Безусловно, получать информацию из всемирной сети гораздо быстрее, чем отыскивать ее в классических библиотеках. Все тексты изначально представлены в электронном виде, что значительно упрощает процесс ее [информации] внедрения в текст научной работы (тем более, что сейчас электронный формат работы предпочтительнее рукописного, самих рукописных вариантов практически не осталось). Тем не менее, отношение к Интернет-ресурсам, которые также обязательно нужно вносить в список использованных литературы и источников, остается более чем осторожным, если не сказать предвзятым. Если курсовые и дипломные проекты студентов еще могут содержать ссылки на веб-сайты или те же электронные библиотеки, то в научных работах рангом выше (магистерских, кандидатских, докторских диссертациях) это негласно запрещается. В крайнем случае, ресурсы Интернет могут быть представлены 5–10 % от общего объема использованные источников. Вопросы же авторского права в данном исследовании должны были быть освещены, однако в целом они остаются за пределами разговора об эффективности использования ИТ в филологических работах.
Параграф 2. Проблема унифицированного формата электронных документов.
Информация, помещенная в электронную библиотеку, представлена в различных электронных форматах (.djvu, .pdf, .exe и т.д.). часто некоторые из используемых форматов не поддерживаются операционными системами (платформами) конкретных компьютеров и требуют установки дополнительных программ, работающих с ними, позволяющих читать и обрабатывать (форматировать) полученную информацию (тексты).
Проблема универсального или массового формата стоит на сегодняшний момент достаточно остро. Не касаясь области исследования данного реферата, следует отметить, что все больше людей отдают предпочтение электронным книгам (e-book). Они просты и удобны в использовании, их можно читать как на домашнем компьютере, так и на КПК, смартфонах и просто мобильных телефонах с большим размером экрана.
Издатели электронных книг или администраторы электронных библиотек используют около двадцати различных форматов для своей продукции. Это и всем известные *.txt, *.php, *.pdf, *.djvu, .doc, так и специализированные (даже специфические) – *.rb, *.prc, *.dataPlkr, *.fbr. Не все технические платформы современных компьютеров поддерживают подобные форматы, соответственно, скачать документ можно, воспользоваться же им (прочитать, отформатировать) – не всегда. Поэтому представляется необходимым и полезным в рамках данного исследования провести обзор наиболее популярных форматов электронных книг.
1) *.TXT: самый «неприхотливый» формат, воспроизводится на любой платформе (от ПК до мобильного телефона), не требует дополнительных программ для работы. С другой стороны, у формата масса существенных недостатков: невозможно установить гиперссылки для быстрого перехода от одной части документа к другой, крайне низкий уровень оформления текста (заглавные буквы, разметка абзацев, отступы от начала строки). Распространился этот формат достаточно давно, а популярность его объясняется тем, что ранее скорость обмена информацией через Интернет была очень небольшой, и востребованными, соответственно, оказывались наиболее «легкие» файлы. Сейчас документы в формате *.txt можно найти в немногих библиотеках (например, библиотека Максима Мошкова, ссылка скрыта).
2) *.DOC: формат Microsoft Word. Считается внутренним форматом Microsoft Office. Из-за широкой распространенности последнего стал популярен и сам формат *.doc текстовых документов. В отличии от *.txt присутствует возможность создания и использования гиперссылок, очень высокий уровень форматирования документа, однако перенесение файла *.doc на отличную от ПК платформу нежелательно, возможно, «работать» он там не будет.
3) *.php (*.HTM, *.CHM): вероятно, наиболее предпочтительный формат. Такой документ легко редактируется, без проблем переносится на различные платформы, легко конвертируется, имеет гиперссылки. В уже упоминавшейся библиотеке Максима Мошкова *.txt-файлы постепенно преобразуются в *.php. Однако, не стоит забывать, что такого формата документы открываются и «работают» в браузере. Насколько это удобно – вопрос спорный.
4) *.EXE: документ в этом формате может содержат не только текст, но и рисунки, анимацию, гиперссылки. «Файл *.exe состоит из двух частей: из управляющей информации для загрузчика и загрузочного модуля. Информация для загрузчика расположена в начале файла и образует так называемый заголовок. Сразу за ним следует тело загрузочного модуля, который начинается на границе блока и представляет собой копию образа памяти задачи, построенную компоновщиком» [6].
5) *.RTF: поддерживается практически всеми современными текстовыми редакторами, используется для переноса текста с разметкой из одной программы в другую. Данный формат характеризует, соответственно, высокая конвертируемость. Популярный для ЭБ формат. Совместим с разным ПО.
6) *.PDF: еще один платформонезависимый формат, позволяет отображать графические объекты, в итоге *.pdf-файлы крайне «тяжеловесны». К мелким недостаткам следует отнести необходимость специальной программы как для чтения файла – Adobe Reader, так и для его редактирования – Adobe Acrobat.
7) *.DJVU: формат разрабатывался специально для сканированных документов, поэтому в нем задействована достаточно специфическая технология сжатия: документ разбивается на текстовую и графическую (рисунки, фотографии, графики) части, и каждая из них «сжимается» с различным разрешением, что обеспечивает небольшой «вес» документа. Формат популярный, но также имеет ряд недостатков: почти не конвертируется, требует специальной программы Djvu-Reader, плохо воспринимается устройствами, отличными от ПК.
Кроме указанных форматов существуют и другие, менее распространенные, разработанные для специальных платформ. В данном реферате ограничимся только их перечислением:
- *.lit;
- *.iSilo (Palm Os Platform /pdb – Palm Pilot Database format);
- *.PalmDoc;
- *.rb;
- *.ztxt;
- *.prc;
- *.tr (ToRaTRPW);
- *.DataPlkr;
- *.fbr;
- *.eBookMan;
Нужно отметить, что непосредственно для исследовательской деятельности (в любой из отраслей науки) вопрос о формате электронного документа является второстепенным. Однако, при выяснении эффективности электронных библиотек проблема универсального формата (или унифицирования форматов) становится одной из основных. Так, было выяснено, что предпочтительнее всего конвертируемые форматы (*.txt, *.rtf, *.doc, *.php), а форматы, требующие дополнительного оборудования (программ) и предназначенные для хранения и распознавания сканированных материалов (*.pdf, *.djvu), полезны лишь в случае наличия в документе графиков, рисунков. Следовательно, форматы, перечисленные в первой группе, представляются более эффективными для работы, чем форматы из второй группы.
Глава 3. Исследование методов поиска информации в ЭБ. Основные алгоритмы поиска.
Если рассматривать существующие электронные библиотеки с точки зрения состава и характера информационных ресурсов, то можно заметить, что в качестве компонентов здесь могут выступают электронные каталоги, библиографические и реферативные базы данных, полнотекстовые массивы (электронные журналы, фактографические базы данных, а также базы данных электронных копий статей и других публикаций), справочно-нормативные файлы (рубрикаторы, тезаурусы, авторские, предметные, географические и другие информационные продукты ). Записи этих массивов могут быть взаимосвязаны между собой ссылками, указателями хранения или условиями отыскания.
Несмотря на разнообразие имеющихся средств немногие ЭБ пользуются всем арсеналом. Чаще всего (в случае с ЭБ с текстово-документальным наполнением) информация группируется по следующим критериям:
- имя автора произведения/статьи/научной работы;
- собственно название произведения/статьи/научной работы;
- жанр произведения;
- исторический период написания/год написания.
При поиске конкретной работы или конкретного произведения такой метод вполне приемлем. Однако, в современной ситуации, когда отечественная филологическая наука развивается в русле компаративистики, а основным направлением является исследование развития той или иной темы, того или иного мотива в творчестве различных авторов, поисковые системы электронных библиотек, содержащие один-два критерия выбора, не соответствуют требованиям пользователей. Желательно создание и внедрение в «тело» ЭБ тематического рубрикатора произведений, т.е. группирование произведений по критерию темы (литературно-художественной категории, характеризующей каждое отдельное литературное произведение), раскрывающейся в нем. Внутри отдельных разделов систематизировать произведения классически: по историческому принципу и согласно авторству. Можно также добавить национальный критерий – отмечать к какому типу культуры принадлежал тот или иной автор. Соответственно, при поиске по имени автора или названию произведения в характеристики найденного документа автоматически добавляются отмеченные выше признаки.
Другое дело, когда речь идет о поиске литературоведческой, литературно-критической или методологической информации. В таком случае необходимо задействовать механизм поиска по ключевым словам. К сожалению, этот метод в электронных библиотеках очень часто действует неэффективно. Типичный пример: ключевое слово «находится» системой на стыке двух других слов, первое из которых заканчивается на нужные буквы, а второе – начинается ими. Пример: задаем в строке поиска слово «хрюкотали» (в надежде выйти на произведение Л. Кэррола «Алиса в стране чудес», откуда и взяты строчки – «…и хрюкотали зелюки, как мюмзики в мове…»), система выдает найденное совпадение: «…свинья сказала «хрю», кот зашипел, а лиса тем временем убралась со скотного двора…».
Конечно, указанный пример несколько утрирован и в реальности место не имел, но он хорошо иллюстрирует механизм типичной ошибки поисковой системы не только электронных библиотек, хотя речь идет в первую очередь о них, но и поисковых программ всей сети Интернет.
К сожалению, автор данного реферата не обладает необходимыми знаниями, чтобы предложить собственное решение проблемы в виде компьютерной программы. Но все указанные свойства (в том числе и недостатки) поисковых систем были исследованы мной на практике: в сети Интернет мной были найдены примеры программного кода для контекстного поиска информации. Пример алгоритмов поиска данных, процитированных с сайта ссылка скрыта, помещен в Приложении 1.
Таким образом, было выяснено, что механизмы поиска информации в электронных библиотеках не всегда отвечают требованиям пользователей. Ранее созданные рубрикаторы не обновляются, критерии поиска остаются теми же. Вследствие этого увеличивается время, потраченное на отыскивание конкретного документа, и, соответственно, снижается эффективность работы.
Среди возможных пожеланий и рационализаторских предложений можно отметить следующее: создание специализированной литературной ЭБ, в которой по возможности будут помещены все более или менее значительные произведения мировой литературы. При этом группировка произведений должна осуществляться по 10–15 критериям, раскрывающим не только авторство произведения и его принадлежность определенной культуре, но и характеризующим его [произведение] по специфическим литературным категориям (жанр, жанровая разновидность, основная тематика, наличие типических образов, принадлежность к тому или иному литературному направлению, течению и т.д.). Пример: ввести классификатор типа «Образ лишнего человека» с тем, чтобы на выходе получать список всех произведений, где таковой образ показан.
В качестве исходного примера можно принять сайт, посвященный истории мировой литературы – ссылка скрыта.
Заключение.
В данной работе, посвященной эффективности использования электронных библиотек в филологических исследованиях, были рассмотрены следующие вопросы:
– некоторая «размытость» самого определения электронных библиотек, их [ЭБ] самая общая классификация по содержанию;
– результативность и скорость оцифровки информации для электронных библиотек;
– вопрос об авторском праве на произведения, представленные в электронных библиотеках;
– проблема универсального формата электронных документов и сравнительная характеристика наиболее распространенных типов форматов;
– обзор методов поиска информации в электронных библиотеках, недостатки используемых методов;
– пример алгоритмов поиска данных в контексте дан в Приложении 1.
На основании проведенных исследований были сделаны следующие выводы:
– использовать электронные библиотеки, безусловно, полезно, так как снижается время, потраченное на поиск нужной информации, сама информация чаще всего становится доступной в уже необходимом формате.
– эффективность же функционирования данной системы оставляет желать лучшего:
– новые документы появляются достаточно редко в силу объективных причин (скорость сканирования и обработки полученной информации невысока);
– используемые издателями/администраторами ЭБ форматы не всегда удобны в обращении, могут требовать установки дополнительного оборудования, иногда не конвертируются в нужный пользователю формат;
– поисковая система в ЭБ остается достаточно примитивной (если брать в расчет потребности пользователя-ученого), основанной на двух-трех основаниях для классификации документов, а иногда в принципе отсутствует какая бы то ни была классификация (болгарская литературная электронная библиотека ссылка скрыта).
Итак, для повышения эффективности использования электронных библиотек необходимо повышать уровень их программного обеспечения.
Список литературы к реферату.
- ссылка скрыта (Российская ассоциация электронных библиотек).
- ссылка скрыта (01.12.08, 15:44)
- ссылка скрыта (01.12.08, 15:45)
- ссылка скрыта (01.12.08)
- ссылка скрыта (01.12.08)
- ссылка скрыта (01.12.08, 15:49)
- ссылка скрыта
- ссылка скрыта
- ссылка скрыта (03.12.08, 09:07)
- ent.org.by/russian/docs/Zakon_avt_rus.rtf.
- Вислый А.И. Вступаем в электронную эру // Мир библиографии. –2000 г. – №6 – с.14–19;
- Глухов В.А., Лаврик О.Л. Электронная доставка документов. – М.: ИНИОН РАН, 1999 г. – 132с.;
- Сюнтюренко О.В Электронные информационные ресурсы: проблемы создания и использования // Научный сервис в сети Интернет: Тезисы докладов Всероссийской научной конференции 20–25 сент. 1999 г., Новороссийск. – М.: Изд-во МГУ , 1999 г.– с.3–9;
- Земсков А.И. К проекту программы «Российские электронные библиотеки» // НТБ – 2000 г. – №3 – с.4–9;
- Фонотов А. Роль электронных библиотек в передаче технологий // Инф. ресурсы России. – 1999 г. – №4 – с. 22–25;
- Хякли Э. Национальная электронная библиотека // Библиотековедение. – 1998 г. – №5 – с. 44–48.
Предметный указатель к реферату.
(
(*.pdf 16
*
*.djvu 13, 16
*.php 13, 14, 15
*.txt 13, 14, 15
а
авторском праве 10, 11, 20
в
веб-сайт 7
веб-сайты 12
И
Интернет 5, 7, 8, 10, 12, 14, 18, 22, 24, 30
и
информационные технологии 4, 5
И
ИТ 4, 12
о
оцифровка 10
ф
формат 12, 13, 14, 15, 20
Э
ЭБ 4, 5, 6, 7, 8, 9, 10, 11, 14, 17, 19, 20
Электронная библиотека 7
Интернет ресурсы в предметной области исследования.
- ссылка скрыта – электронная библиотека, содержащая материалы по болгарской литературе: информацию об авторах (краткая биография, библиографический список изданных произведений, электронные версии монографических статей об авторе литературоведческой направленности, а также электронные версии произведений). Информация структурирована в алфавитном порядке. В наличии имеются материалы по болгарской литературе на других языках (сербском, английском, французском) и переводы на указанные языки некоторого количества произведений разных авторов.
- ссылка скрыта – электронная библиотека болгарской литературы, схожая по своему содержанию с библиотекой ссылка скрыта. Дополнена статьями о литературном процессе в Болгарии различных периодов, однако, статья никаким образом не упорядочены и даются неструктурированным списком, что затрудняет и замедляет поиск необходимой информации. Библиотека не ограничивается только болгарскими авторами. В достаточной мере представлены русская, сербская, английская, французская, немецкая литературы, частично белорусская; вся информация, естественно, на болгарском языке, хотя иногда размещаются и оригинальные тексты.
- ссылка скрыта – болгарский Интернет-портал, аналог поисковых систем Google, Yahoo, Yandex и т.д. Содержит ленты новостей и разнообразные полезные ссылки, сгруппированные по тематическим разделам «Авто», «Образование», «Игры», «Компьютеры» и т.д.
- www.lib.ru – «Библиотека Максима Мошкова», электронная библиотека, содержащая большое количество оцифрованных текстов (произведения различных авторов, монографические статьи об авторах, различные справочники, словари и учебники).
- ссылка скрыта – электронная библиотека, аналогичная «Библиотеке Максима Мошкова», но специализирующаяся на художественной литературе.
Действующий личный сайт в WWW (гиперссылка).
ссылка скрыта
Граф научных интересов.
Магистрантки Селиной А. А.
филологического факультета
Специальность: литература народов стран зарубежья (болгарская)
Смежные специальности
| Основная специальность
| Сопутствующие специальности
|
Список литературы к выпускной работе.
- Вислый А.И. Вступаем в электронную эру // Мир библиографии. –2000 г. – №6 – с.14–19;
- Глухов В.А., Лаврик О. Л. Электронная доставка документов. – М.: ИНИОН РАН, 1999 г. – 132с.;
- Сюнтюренко О.В Электронные информационные ресурсы: проблемы создания и использования // Научный сервис в сети Интернет: Тезисы докладов Всероссийской научной конференции 20–25 сент. 1999 г., Новороссийск. – М.: Изд-во МГУ , 1999 г.– с.3–9;
- Земсков А.И. К проекту программы «Российские электронные библиотеки» // НТБ – 2000 г. – №3 – с.4–9;
- Фонотов А. Роль электронных библиотек в передаче технологий // Инф. ресурсы России. – 1999 г. – №4 – с. 22–25;
- Хякли Э. Национальная электронная библиотека // Библиотековедение. – 1998 г. – №5 – с. 44–48.
Приложения
Приложение 1
Алгоритмы поиска данных
Пусть у нас есть текст, состоящий из n символов, который в дальнейшем договоримся называть T, а T[i] его i-ый символ. Строку или просто слово, состоящее из m символов, назовем S, где S[i] -i-ый символ строки. Нам нужно проверить, входит ли данная строка в данный текст, и если входит, то начиная с какого символа текста. Мы рассмотрим несколько известных алгоритмов, решающих поставленную задачу.
Простейший алгоритм
Суть метода, о котором пойдет речь ниже, заключается в следующем: мы проверяем, совпадают ли m символов текста (начиная с выбранного) с символами нашей строки, пытаясь примерить шаблон куда только возможно. Естественно, реализовать описанный алгоритм проще всего (код на языке Pascal):
Program SimpleSearch;
Var T : array[1..40000] of char; {выполняет роль текста}
S : array[1..10000] of char; {выполняет роль строки; как и текст, может быть достаточно велика}
i,j: longint;
m,n: longint;
Begin
{Ввод текста и образца}
…
for i:=1 to n-m+1 do
begin
j:=0;
while (j
j: = j+1;
if j=m then {если все символы совпадали}
writeln('Образец входит в текст начиная с ',i,'-ого символа'); {сообщение о нахождении строки в тексте}
end;
End.
Это несложно в исполнении, но и не очень эффективно на практике. В программе присутствуют два цикла (один вложенный), время работы внешнего большей степенью зависит от n, а внутренний в худшем случае делает m операций. Таким образом, время работы всего алгоритма есть O((n-m+1)m). Для маленьких строк поиск проработает быстро, но если в каком-то многомегабайтном файле вы будете искать последовательность длинной 100 Кб, то, боюсь, придется ждать очень долго.
Основной недостаток вышеизложенного метода состоит в том, что приходится выполнять много лишней работы. Например, найдя строку aabc и обнаружив несоответствие в четвертом символе (совпало только aab), алгоритм будет продолжать сравнивать строку, начиная со следующего символа, хотя это однозначно не приведет к результату. Следующий метод работает намного быстрее простейшего, но, к сожалению, накладывает некоторые ограничения на текст и искомую строку.
Алгоритм Рабина-Карпа
Идея, предложенная Рабином и Карпом, подразумевает поставить в соответствие каждой строке некоторое уникальное число, и вместо того чтобы сравнивать сами строки, сравнивать числа, что намного быстрее. Проблема в том, что искомая строка может быть длинной, строк в тексте тоже хватает. А так как каждой строке нужно сопоставить уникальное число, то и чисел должно быть много, а стало быть, числа будут большими (порядка Dm, где D – количество различных символов), и работать с ними будет так же неудобно. Пример: реализация для текста, состоящего только из цифр, и строки длиной до 8 символов.
Program RabinKarpSearch;
Var T: array[1..40000] of 0..9;
S: array[1..8] of 0..9;
i,j: longint;
n,m: longint;
v,w: longint; {v - число, характеризующее искомую строку, w характеризует строку длинны m в тексте}
k: longint;
const D: longint = 10; {количество разных символов (10 различных цифр)}
Begin
{Ввод текста и образца}
…
v:=0;
w:=0;
for i:=1 to m do
begin
v:=v*D+S[i]; {вычисление v, строка представляется как число}
w:=w*D+T[i]; {вычисление начального значения w}
end;
k:=1;
for i:=1 to m-1 do {k нужно для многократного вычисления w и имеет значение Dm-1}
k:=k*D;
for i:=m+1 to n+1 do
begin
if w=v then {если числа равны, то строки совпадают, а значит, образец найден в тексте}
writeln('Образец входит в текст начиная с ',i-m,'-ого символа');
if i<=n then
w:=d*(w-k*T[i-m])+T[i]; {вычисление нового значения w}
end;
End.
Этот алгоритм выполняет линейный проход по строке (m шагов) и линейный проход по всему тексту (n шагов), стало быть, общее время работы есть O(n+m). Это время линейно зависит от размера строки и текста, стало быть программа работает быстро. Но какой интерес работать только с короткими строками и цифрами? Разработчики алгоритма придумали, как улучшить этот алгоритм без особых потерь в скорости работы. Как вы заметили, мы ставили в соответствие строке ее числовое представление, но возникала проблема больших чисел. Ее можно избежать, если производить все арифметические действия по модулю какого-то простого числа (постоянно брать остаток от деления на это число). Таким образом, находится не само число, характеризующие строку, а его остаток от деления на некое простое число. Теперь мы ставим число в соответствие не одной строке, а целому классу, но так как классов будет довольно много (столько, сколько различных остатков от деления на это простое число), то дополнительную проверку придется производить редко.
Var T: array[1..40000] of char;
S: array[1..10000] of char;
i,j: longint;
n,m: longint;
v,w: longint;
k: longint;
const P: longint = 7919; {1000-е простое число}
D: longint = 256; {количество разных символов (количество всех возможных значений символьного типа char)}
Begin
{Ввод текста и образца}
…
v:=0;
w:=0;
for i:=1 to m do {вычисление v и w}
begin
v:=(v*D+ord(S[i])) mod P; {ord преобразует символ в число}
w:=(w*D+ord(T[i])) mod P;
end;
k:=1;
for i:=1 to m-1 do
k:=k*D mod P; {k имеет значение Dm-1 mod P}
for i:=m+1 to n+1 do
begin
if w=v then {если числа равны, то строки принадлежат одному классу, и надо проверить совпадают ли они}
begin
j:=0;
while (j
j:=j+1;
if j=m then {окончательная проверка}
writeln('Образец входит в текст начиная с ',i-m,'-ого символа');
end;
if i<=n then
w:=(d*(w+P-(ord(T[i-m])*k mod P))+ord(T[i])) mod P;
end;
End.
Итак, все-таки приходится производить сравнение строк посимвольно, но так как «холостых» срабатываний будет немного (в 1/P случаях), то ожидаемое время работы малое. Строго говоря, время работы есть O(m+n+mn/P), mn/P достаточно невелико, так что сложность работы почти линейная. Понятно, что простое число следует выбирать большим, чем больше это число, тем быстрее будет работать программа. Этот алгоритм значительно быстрее предыдущего и вполне подходит для работы с очень длинными строками.
Еще один важный метод – алгоритм Кнута-Морриса-Пратта, один из лучших на нынешний момент, работает за линейное время для любого текста и любой строки.
Алгоритм Кнута-Морриса-Пратта
Метод использует предобработку искомой строки, а именно: на ее основе создается так называемая префикс-функция. Суть этой функции в нахождении для каждой подстроки S[1..i] строки S наибольшей подстроки S[1..j] (j
…
var S: array[1..10000] of char;
P: array[1..10000] of word; {массив, в котором хранятся значения префикс-функции}
i,k: longint;
m: longint;
…
Procedure Prefix; {процедура, вычисляющая префикс-функцию}
Begin
P[1]:=0; {префикс строки из одного символа имеет нулевую длину}
k:=0;
for i:=2 to m do {вычисляется для префиксов строки длинной от 2 до m символов}
begin
while (k>0) and (S[k+1]<>S[i]) do
k:=P[k]; {значение функции может быть получено из ранее сделанных вычислений}
if S[k+1]=S[i] then
k:=k+1;
P[i]:=k; {присвоение префикс-функции}
end;
End;
…
Почему же данная процедура вычисляет префикс-функцию правильно? Используется следующая идея: если префикс (он же суффикс) строки длинной i длиннее одного символа, то он одновременно и префикс подстроки длинной i-1. Таким образом, проверяем префикс предыдущей подстроки, если же тот не подходит, то префикс ее префикса, и т.д. Действуя так, находим наибольший искомый префикс. Следующий вопрос, на который стоит ответить: почему время работы процедуры линейно, ведь в ней присутствует вложенный цикл? Ну, во-первых, присвоение префикс-функции происходит четко m раз, остальное время меняется переменная k. Так как в цикле while она уменьшается (P[k]
Program KnutMorrisPrattSearch;
…
{Описание процедуры Prefix и связанных с нею переменных}
…
var n: longint;
T: array[1..40000] of char;
Begin
{Ввод текста и образца}
…
Prefix; {Вычисление префикс-функции}
k:=0; {количество символов, совпавших на данный момент}
for i:=1 to n do
begin
while (k>0) and (S[k+1]<>T[i]) do
k:=P[k];
if S[k+1]=T[i] then
k:=k+1;
if k=m then {если совпали все символы}
begin
writeln('Образец входит в текст начиная с ',i-m+1,'-ого символа');
k:=P[k];
end;
end;
End.
Доказать что эта программа работает за линейное время, можно точно так же, как и для процедуры Prefix. Стало быть, общее время работы программы есть O(n+m), т. е. линейное время.
Простейший алгоритм и алгоритм Кнута-Морриса-Пратта помимо нахождения самих строк считает, сколько символов совпало в процессе работы. Алгоритм Кнута-Морриса-Пратта немногим более громоздок, чем простейший, зато работает намного быстрее.
Автор: Владимир Ткачук (mycоmр.cоm.uа).
Приложение 2
1