Лекция 2 10. Полнотекстовые базы данных

Вид материалаЛекция

Содержание


Электронные документы
Инвертированный файл (inverted file, инверсный файл, инвертированный индекс, инвертированный список)
Активный субъект
Пассивный субъект
Предмет или объект
Действие или процесс
Место события (действия)
Простой поиск
Режим Preview/Index
Режим Clipboard
Полноте́кстовый по́иск
Единицы контекста
Подобный материал:
Лекция 2_10. Полнотекстовые базы данных.

Содержание темы: Основные концепции электронного текста. Полнотекстовые базы данных. Файл полного текста. Частотный словарь, инверсный файл. Поиск в полнотекстовых базах данных. Модели и стратегии поиска. Понятие об ассоциативном поиске. Нечеткий поиск. Полнотекстовый и библиографический поиск. Построение и исследование информационных профилей и частотных словарей. Система ТАСТ. Интерфейс пользователя. Создание базы данных на основе исходного документа. Средства представления базы данных. Возможности поиска. Правила и категории. Изучение взаимосвязей элементов текста и измерение частоты совместной встречаемости.


Электронные документы, как статические, так и динамические, реализуют метафору классического печатного документа, а порталы являются реализациями метафор классической библиотеки (с каталогами и индексами). В связи с этим в электронных системах реализуются все механизмы навигации, существующие в «бумажных» изданиях. Эффективность электронных реализаций некоторых механизмов оказывается очень высокой, другая часть средств навигации из «бумажного» наследия в электронных системах практически не используется. Электронные реализации предлагают ряд средств навигации, которые в «бумажных» книгах и библиотеках были невозможны.

Полнотекстовые БД определяются как БД, в которых хранятся записи полнотекстовых документов или их частей. Полнотекстовые БД значительно расширяют возможности доступа, предоставляя один и тот же текст в различных форматах (ascii text, .php, .sgml, .pdf), включая иллюстрации, графики и таблицы изображения.

Технология создания полнотекстовых ресурсов предполагает получение файла полного текста в библиотеке–держателе документа. Это работает не для всех документов, а только для периодических изданий. Первичный документ в формате Adobe Acrobat создается в библиотеке-филиале. Далее документ передается в отдел создания баз данных для регистрации его в полнотекстовом электронном массиве, который затем синхронизируется во все библиотеки системы. При этом файл полного текста, библиографическое описание и создание ссылки осуществляется в библиотеке-филиале.

Для уменьшения затрат на создание библиографического описания используются различные схемы заимствования из каталогов и баз данных. Для этого используются:
  • БД «Российская национальная библиография 1980-1996 гг.»;
  • базы данных с компакт-дисков ИНИОН;
  • распределенные базы данных библиотек, доступные по протоколу Z39.50;
  • различные ретроспективные базы данных библиотек.

Распределенные технологии создания и ведения электронного каталога без использования постоянного соединения с Интернет предполагают дополнительные технологии по обработке информации в библиографических записях. Для этого используются технологии алгоритмических кодов записей, которые позволяют проводить различные дополнительные проверки данных в библиографических записях на предмет:
  • дублетности записей;
  • степени похожести записей;
  • наличия электронных «невидимых» ошибок (пробелы, нечитаемые символы и пр.).

Частотный словарь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией о частоте их встречаемости. Словарь может быть отсортирован по частоте, по алфавиту (тогда для каждого слова будет указана его частота), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии, и т. д.

Инвертированный файл (inverted file, инверсный файл, инвертированный индекс, инвертированный список) – индекс поисковой системы, в котором перечислены слова коллекции документов, а для каждого слова перечислены все места, в которых оно встретилось.

Все способы поиска в текстах достаточно сильно зависят от конкретной программной реализации различных алгоритмов и требуют от пользователя неплохого знания особенностей программирования запросов на поиск.

Для решения задачи поиска информации по содержанию пользователю обычно предлагается не более двух методов.

Первый основан на использовании различных механизмов поиска групп символов (полных слов или их фрагментов) в текстах документов с учетом нескольких логических условий или их комбинаций (одновременное присутствие в документе нескольких терминов, отсутствие термина или альтернатива присутствия любого из выбранных терминов в одном тексте).

Второй механизм поиска ориентирован на совершенно неподготовленного пользователя и базируется на различных классификаторах информации.

Информация предварительно вручную или автоматически по некоторым ключевым словам отбирается и "привязывается" к соответствующей теме (рубрике) классификатора. Как правило, таких классификаторов предлагается не более двух и их объем не превышает 1000 тематик. Задача потребителя состоит в том, чтобы в предложенном иерархическом списке найти тему в наибольшей степени соответствующей его проблеме, а затем просмотреть все тексты, отнесенные поставщиком информации к просматриваемой рубрике.

Все имеющиеся классификаторы страдают следующими пороками, фатальными с точки зрения успешности процесса поиска:
  • неоднородность (деление материала на одном уровне должно производиться по одному основанию, иначе найти "свою" тему достаточно сложно);
  • недостаточность (классификатор должен исчерпывающе разделить весь существующий материал, в противном случае часть тем в нем вообще никак не отражена);
  • нарушение отношений логической соподчиненности (что существенно затрудняет процесс поиска темы);
  • низкая эргономичность (пользователь не может эффективно осуществлять выбор из альтернатив количеством более 7, также как он не в состоянии просмотреть с экрана компьютера и осмыслить выборку документов более 15).

Существенное затруднение в анализе найденного материала также вызывает также то обстоятельство, что в большинстве случаев единицей классификации является не фрагмент текста, как например, абзац, часть статьи, а полный документ, например, Гражданский кодекс Российской Федерации.

Единственный практический метод решения достаточно нечетких задач типа содержательного поиска в текстах - это применение системного подхода.

В любом высказывании всегда имеется или подразумевается:
  • Активный субъект: одушевленное подлежащее, отвечает на вопрос "кто?" и исполняет действие. Например, "Каждый гражданин Российской Федерации обладает на ее территории всеми правами..." или "Беженцы и вынужденные переселенцы..."
  • Пассивный субъект: одушевление косвенное дополнение или подлежащее, отвечает на вопросы "кому?", "кого?", "кто?", на него направлено действие. Например, "Трудоспособные дети, достигшие 18 лет, должны заботиться о нетрудоспособных родителях" или "преступления против личности".
  • Предмет или объект: неодушевленное прямое дополнение или подлежащее, отвечает на вопросы "что?", "чего?" и является точкой приложения действий. Например, "В Российской Федерации гарантируется единство экономического пространства" или "Государственная граница".
  • Действие или процесс: сказуемое (глагол или любые отглагольные части речи - существительное, причастие, деепричастие), отвечает на вопросы "что делает?", "что?". Например, "Каждый гражданин Российской Федерации обладает на ее территории всеми правами" или "Ответственность за нарушение трудового законодательства"
  • Место события (действия): обстоятельство места отвечает на вопрос "где?" и характеризует расположение субъектов или объектов в пространстве. Например, "Каждый гражданин Российской Федерации обладает на ее территории всеми правами" или "Районы Крайнего Севера".
  • Способ: обстоятельство образа действия, отвечает на вопрос "как?", "каким образом?". Например, "В Российской Федерации признаются и защищаются равным образом частная, государственная, муниципальная и иные виды собственности" или "Претензионный характер урегулирования споров"
  • Время: обстоятельство времени, отвечает на вопросы "когда?", "как долго?" и уточняет вопрос длительности процесса или момента наступления события. Например, "До судебного решения лицо не может быть подвергнуто задержанию на срок более 48 часов" или "Сроки. Исковая давность" или "Действие уголовного закона во времени и в пространстве".

Совокупность таких "элементарных позиций" образует практически содержательное описание явления или события и не зависит от языка текста (с использованием системы классификаторов на различных языках и автоматического перевода она дает возможность работать с материалами на иностранных языках).


Простой поиск

При обработке запроса ключевые слова по умолчанию связываются логическим оператором AND . При составлении поискового выражения можно использовать логические операторы AND , OR , NOT , введенные прописными буквами.

Для принудительного поиска по фразе можно использовать двойные кавычки.

Чтобы ограничить поиск определенной областью описания документа, можно использовать специальные операторы. Специальные операторы заключаются в квадратные скобки и располагаются после ключевого слова без пробела. Специальные операторы можно использовать в сочетании с логическими (например: dna[mh] AND crick[au] AND 1993[dp] ). Круглые скобки используются для составления сложного поискового предписания.

Опции раскрывающихся меню позволяют производить поиск по определенным полям описания документов:

AB - реферат;

AN - номер статьи в БД ;

AS - авторский реферат .

AU - автор;

CY - страна;

DA - дата добавления документа к базе;

DP - дата публикации;

FM - наличие иллюстраций ;

IS - ISSN ;

LA - язык документа;

PG - номер страницы;

PS - имя персоны, как предмет;

PT - тип публикации;

SB - тема журнала;

SO - название журнала ;

SU - предмет ;

TA - аббревиатура название журнала;

TI - слова из заглавия.

Расширенный поиск

Данный режим содержит поле для ввода запроса и набор фильтров, ограничивающих область поиска по различным параметрам.

Режим Preview/Index

Данный режим поиска позволяет узнать количество найденных статей перед тем, как результат будет выведен на экран.

Режим History

ПС PubMed сохраняет информацию о результатах поиска в следующей форме: порядковый номер поиска, время проведения поиска, поисковое выражение и количество найденных статей.

Режим Clipboard

Данный режим дает возможность сгруппировать выбранные записи одного или нескольких исследований. Максимальное количество записей в буфере обмена 500.

Полноте́кстовый по́иск — поиск документа в базе данных текстов на основании содержимого этих документов, а также совокупность методов оптимизации этого процесса. Примером полнотекстового поиска может служить поиск, выполняемый любой поисковой системой типа Google, Yahoo!, Mogmo, Yandex и других.

Полнотекстовый индекс

Первые версии программ полнотекстового поиска предполагали сканирование всего содержимого всех документов в поиске заданного слова или фразы. При использовании такой технологии поиск занимал очень много времени (в зависимости от размера базы), а в интернете был бы невозможен. Современные алгоритмы заранее формируют для поиска так называемый полнотекстовый индекс — словарь, в котором перечислены все слова и указано, в каких местах они встречаются. При наличии такого индекса достаточно осуществить поиск нужных слов в нём и тогда сразу же будет получен список документов, в которых они встречаются.

Библиографические (реферативно-библиографические) БД содержат описания публикуемых (книги, статьи, доклады, тезисы и пр.) и непубликуемых (авторские свидетельства и патенты, отчеты, диссертации и др.) документов, для которых обычно дается полное библиографическое описание, набор ключевых слов и рубрикационных шифров, раскрывающих тематику и содержание документа, а также приводятся рефераты или аннотации работ.

Формирование информационных массивов библиографических и любых иных БД обязательно включает процесс предварительного индексирования первоисточников классификационными шифрами, ключевыми словами и дескрипторами.

Это дает возможность поддерживать жесткую структуру описания индексируемых документов по определенным полям, что обеспечивает гораздо лучшие результаты поиска. В том случае, когда для автоматизированного информационного поиска используются рефераты, это существенно повышает количество найденных релевантных документов.

Поэтому в электронные версии некоторых традиционных библиографических изданий (Index Medicus, Current Conents, Scienc e C itation Iindex) стали включаться авторские резюме.

Компьютерная программа TACT предполагает максимальное исключение личностного фактора на этапе выявления смысловых связей, что существенно повышает объективность исследования.

Программа предоставляет возможность совмещения количественных расчетов с качественным анализом текста, оставляет существенное место "человеческому фактору". Творческая роль исследователя активно проявляется на этапе формирования смысловых категорий контент-анализа, а также на этапе изучения и интерпретации полученных контекстных употреблений тех или иных терминов исследуемого документа (заметим, что именно исключение творческого элемента при использовании метода компьютеризованного контент-анализа всегда вызывало сомнение даже у сторонников этого метода).

К разряду функциональных плюсов следует отнести простоту в использовании, что весьма важно для гуманитариев, возможность исследовать источник одновременно по нескольким параметрам и удобную процедуру сопоставления полученных результатов благодаря работе в многооконном режиме.

TACT позволяет определить количество обращений в документе к интересующим исследователя проблемам, а также выявить контекст, в котором они рассматривались. Весьма важной является возможность определения глубинных взаимосвязей между смысловыми категориями так именуются обобщенные понятия, сформированные на основе индикаторов понятий, наиболее полно описывающих интересующую исследователя проблему, с терминами текста документа.

Это позволяет выявить качественно новые смысловые пласты источника, которые, как правило, бывают неотрефлексированными на уровне его традиционного изучения.

Это становится возможным благодаря наличию специальной функции определения коэффициента смысловой связи (Z-score, или Z коэффициент), который определяется, исходя из близости и частоты совместного употребления терминов в исследуемом документе. На основе определения Z-коэффициента, TACT позволяет обратиться к вариантам совместного употребления смысловых категорий и терминов документа непосредственно в тексте и провести анализ контекстного употребления (наибольший интерес вызывают высокие показатели коэффициента смысловой связи, указывающие на устойчивую взаимосвязь двух терминов в рамках исследуемого документа).

При изучении программных документов оказывается технически задействованным традиционный алгоритм ТАСТа. Для каждого из обозначенных блоков формируется ряд категорий (обычно не более шести), которые в совокупности наиболее полно характеризовали бы позицию партии по отношению к каждому из блоков. Дальнейшее их изучение подразумевает определение количества обращений к исследуемым вопросам в документе, изучение распределения обращений к ним в рамках документа, как основную задачу установление смысловых связей между каждой смысловой категорией и терминами текста документа, определение коэффициентов их смысловой взаимосвязи, изучение контекстов совместного употребления категорий и терминов.

Заслуживающим внимания моментом является также процесс формирования смысловых категорий, который происходит в два этапа. Первоначально для каждой из интересующих проблем, тем исследования формируется набор терминов, индикаторов, наиболее полно их описывающих в рамках анализируемого документа, которые объединяются в смысловые категории анализа. Второй этап заключается в повторном формировании смысловых категорий на основе унификации терминов текста документа.

Это является необходимым в связи с высокой степенью вариативности русского языка (различные суффиксы, окончания), в результате чего имеющие одинаковую смысловую нагрузку термины (например, "кризис", "кризиса", "кризису") интерпретируются ТАСТом как разные, и для каждого из них определяются отдельные коэффициенты смысловой связи со смысловыми категориями, что снижает представительность результата. Унификация производится путем замены вариативных частей терминов условными знаками.

Контент-анализ включает в себя как количественный, так и качественный анализ текста.

Первый дополняет второй,  а их сочетание углубляет понимание смысла любого текста. Контент-анализ позволяет обнаружить в документе то, что ускользает от поверхностного взгляда при его традиционном изучении, но что имеет важный социальный смысл.

Когда контент-анализ выступает единственным методом информации, оперируют не одной, а сразу несколькими единицами анализа.

При использовании самой простой единицы анализа,  слова, очень легко потерять контекст упоминания. Прямой подсчет количества упоминаний дает так называемые «простые частоты». Однако для сравнения, например, количества упоминаний такой показатель не подходит в силу того, что является нестандартизированным. Возникает необходимость использования «относительных частот», т.е. количество упоминаний на какую-либо единицу текста (общее число слов в публикациях, тысячу слов, количество  предложений, абзацев, публикаций и т.д.).

Количественными единицами контент-анализа являются единицы счёта и единицы контекста.

Единицы контекста используются для обозначения того сегмента текста, в пределах которого определяется частота упоминания соответствующих категорий и подкатегорий. Единицей контекста может служить предложение, статья, ответ на вопрос анкеты, интервью и т.д.

Затем устанавливается единица счета, т.е. количественная мера единицы анализа, позволяющая регистрировать частоту (регулярность) появления признака категории анализа в тексте. Единицами счета могут быть число определенных слов или их сочетаний, количество строк, печатных знаков, страниц, абзацев, авторских листов, площадь текста, выраженная в физических пространственных величинах и многое другое.

Богомолова Н.Н. И Стефаненко Т.Г. выделяют два вида подсчётов частоты упоминаний категорий и подкатегорий при квантификации: а) сплошной, терминологический, б) сегментарный, типологический.

При сплошном подсчёте регистрируются, а потом подсчитываются все появления индикаторов данной категории или подкатегории. При сегментарном, тематическом подсчёте упоминаний категорий регистрируется лишь первое появление данной категории в единице контекста, а повторные упоминания этой категории в данной единице контекста не учитываются.

Единицей счёта может быть объём - физическая протяженность или площадь текстов, заполненная смысловыми единицами. Объём упоминаний категорий может измеряться различными способами: подсчётом числа строк, печатных знаков, квадратных сантиметров площади, посвященных данной категории и т.д.

В основу системы кодирования должна быть заложена по крайней мере одна (или несколько) из следующих четырех характеристик содержания текста: частоты, направленности, интенсивности и пространства. Как уже отмечалось выше, чаще всего измеряют частоту и объём занимаемого пространства. В исследовательском проекте, основанном на контент-анализе, исследователь может замерить как одну, так и все четыре характеристики. Поясним, что собой представляет каждая из них.

Частота. Это всего лишь фиксация и подсчет, имеет ли нечто место или нет, а если да, то как часто. Например, сколько пожилых людей появляется в телевизионных программах на протяжении одной недели? Какова их доля среди всех персонажей? Или же какова доля этих программ среди остальных?

Направленность. Речь идет об указании направления сообщений внутри содержания некоего континуума (их позитивный или негативный, поддерживающий или опровергающий характер). Например, исследователь может разработать перечень способов показа ситуаций, в которых действуют пожилые люди. Способы эти могут быть позитивными (например, дружелюбный, мудрый, уравновешенный человек), либо негативными (например, непристойный, тупой, самовлюбленный).

Интенсивность. Это сила или мощь сообщения в заданной направленности. Например, негативная характеристика забывчивости может быть смягчена (забыл взять ключи, уходя из дома; не сразу вспомнил имя человека, которого не видел несколько лет) или преувеличена (не помнит, как его зовут, не узнает своих детей).

Пространство. Исследователь может зафиксировать размер сообщения или количественно охарактеризовать пространство, им занимаемое. Пространство письменного текста измеряется путем подсчета слов, предложений, абзацев или места, отведенного сообщению на странице (например, в квадратных дюймах или сантиметрах). Для измерения видео- и аудиотекстов можно использовать количественные характеристики времени. Например, персонаж может присутствовать в течение нескольких секунд или появляться периодически в каждой сцене двухчасовой программы.