Книги по разным темам Pages:     | 1 | 2 | 3 |

Описывается обработка и интерпретация метафайлов с помощью GDI, а также формирование из записей метафайлов текстовых элементов и лине Система извлечения ЗАДАЧИ ПРЕДМЕТНЫХ Метафайлы табличной информации ОБЛАСТЕЙ из метафайлов EMF EMF Получение данных из метафайла Файлы Базы Хранилища Excel данных данных Страницы (XLS) (текст, EMF EMF разграфка) Обнаружение таблиц на странице Интерпретаторы Виртуальный Ограничивающие структурных описаний таблиц, прямоугольники EMF принтер ориентированные на решения задач таблиц предметных областей Анализ функций ячеек таблиц ЭЛЕКТРОННЫЕ ДОКУМЕНТЫ Таблицы (шапка, боковик, Структурные описания таблиц тело, перерезы) PDF Word (DOC) Сегментация таблиц XML XML XML XML XML Excel Таблицы (линейки, (XLS) ячейки) HTML ASCII Структурный анализ таблиц текст Рис. 2. Технология извлечения табличной информации из электронных документов ек. Предполагается, что каждый метафайл представляет отдельную страни цу. Рассматривается предобработка страницы, которая, в частности, преду сматривает исключение из текста текстовой разграфки (линеек, образован ных символами псевдографики). Линейки текстовой разграфки преобразу ются к графическим линейкам.

Предлагается метод обнаружения таблиц на странице, т. е. поиска огра ничивающих прямоугольников таблиц табличных областей. Для этого тек стовые элементы, близко расположенные в одной строке текста друг к другу и при этом не разделенные линейками, объединяются в текстовые блоки, Рис. 6. Близость расположения двух текстовых элементов вычисляется с по мощью их шрифтовых метрик. Для текстовых блоков вычисляются ограни чивающие прямоугольники по вложенным в них текстовым элементам. Тек стовые блоки группируются в строки. При этом если у двух текстовых бло Ограничивающий Внешний зазор прямоугольник Внутренний зазор Всего за 2008 год Надстрочный а б интервал Текстовые элементы за Всего Подстрочный Межсимвольные интервалы интервал By use Imported Year Total Pulp and logs 1) Total Saw-logs Plywood Others Текстовые в Chips блоки 2000 99,263 18,022 12,798 138 4,749 337 81,Japan 13,352 9,117 90,901 52,604 107 76 550 г Russian Federation 6,406 8,801 29,026 47,781 1,173 5,Switzerland 1,902 2,899 13,713 21,090 144 58 878 Ограничивающие Ограничивающие Вертикальные прямоугольники прямоугольники строк промежутки Рис. 3. Основные объекты страницы: текстовый элемент (а), текстовый блок (б ), стро ки (в), табличный регион (г) Страница документа......

инейка Линейка Табличная область Табличная область...

Табличный регион Табличный регион...

Строка Строка...

Текстовый блок Текстовый блок Текстовый Текстовый Текстовый Текстовый......

элемент элемент элемент элемент Рис. 4. Порядок формирования объектов страницы документа снизу вверх ков их проекции на ось Y пересекаются, то они принадлежат одной строке.

На странице среди всех строк выбираются строки табличного вида. Для это го используется ряд эвристик о составе строк табличного вида. Например, такая строка должна охватывать не менее двух текстовых блоков и иметь ширину пустого места относительно всей своей ширины не менее заданного порога. На странице выполняется поиск последовательностей подряд распо ложенных сверху вниз строк табличного вида, которые имеют схожее распо ложение проекций на ось X своих вертикальных промежутков. Каждая такая Ограничивающие прямоугольники текстовых блоков Вертикальные сегменты bi bi пустого места Вертикальные промежутки а б Рис. 5. Сегментация пустого места (а) и выделение вертикальных промежутков (б ) Текстовые элементы принадлежат Ограничивающие Текстовые Текстовые прямоугольники элементы блоки одному разным текстовых блоков текстовому текстовым блоку блокам Ограничивающие прямоугольники Всего за Всего за строк R&D Fiscal Researchers 1) GDP 2) Females Year expenditures year (1,000) (%) (billion yen) (billion yen) 1997 a) 721 a) 9.8 1996 a) 15,079 506,1998 731 10.2 1997 15,742 510,Строки табличного вида принадлежат одному табличному региону Рис. 6. Обнаружение таблиц на странице документа последовательность образует отдельный табличный регион. Строки страни цы проходятся сверху вниз, если найден табличный регион, то его строки ис ключаются из дальнейшего поиска. Затем из соседних табличных регионов, которые схожи по расположению проекций на ось X своих вертикальных промежутков, формируются табличные области. Предполагается, что каж дая табличная область ограничивает таблицу.

В главе 3 описывается анализ и обработка таблиц, предлагаются ориги нальные эвристические методы анализа функций ячеек, сегментации и струк турного анализа таблицы.

Предлагается теоретико-множественная модель таблицы, которая пред ставляет объекты, связанные с обрабатываемой таблицей. Формализованы ячейка и таблица, составленная из наборов текстовых блоков, строк, верти кальных и горизонтальных линеек, ячеек, базовой точки тела и ограничи вающего прямоугольника. Обсуждается предобработка входных данных табличной области и содержащихся внутри неё текстовых блоков и линеек, -----------------------T-------------T-------------м Базовая точка ж жНамолочено жНамолочено ж ж жзерна, всего жзерна, с 1 гаж тела таблицы ж +------T------+------T------+ ж ж ж ж ж ж ж ж 2004 ж 2005 ж 2004 ж 2005 ж ж ж ж ж ж ж L----------------------+------+------+------+------ Хозяйства всех категорий Иркутская область 7250 9334 30 Область поиска Братский район 640 977 18 Ячейки с Числами Заларинский район 100 141 17 базовой точки Зиминский район 292 1309 25 Иркутский район 799 942 16 тела таблицы Kачугский район 61 98 20 Kуйтунский район 414 722 19 с/х предприятия Иркутская область 3221 5237 23 Братский район 159 488 19 Заларинский район 56 121 18 Рис. 7. Поиск базовой точки тела таблицы по которым выполняется первоначальное формирование таблицы.

Описывается анализ функций ячеек таблицы. Функция (роль) ячейки зависит от её расположения относительно базовой точки тела таблицы. Эта точка делит таблицу на шапку, боковик и тело. Предлагаемый метод анализа функций ячеек строится, как поиск базовой точки табличного тела, Рис. 7.

Для этого внутри таблицы определяется область поиска этой точки, которая начинается непосредственно под самым нижним охватывающим заголовком столбца. Эта область имеет решёточную структуру ячеек. Она сегментиру ется на отдельные ячейки с помощью вертикальных промежутков и ограничи вающих прямоугольников строк таблицы. Данные, содержащиеся в теле ста тистической таблицы, являются числами или специальными обозначениями из ограниченного набора. С помощью заранее заданных регулярных выраже ний каждой непустой ячейке по её тексту сопоставляется один из следующих типов данных: числа, даты или остальной текст. По ячейкам, содержа щим числа, строится ограничивающий прямоугольник тела таблицы. Вер шина в левом верхнем углу этого прямоугольника является базовой точкой тела таблицы. Если непосредственно над этой точкой располагаются таблич ные строки, включающие по одному текстовому блоку, то её y-координата корректируется с помощью эвристик о расположении перерезов и заголовков.

Кроме того, отдельно выделяются строки таблицы, содержащие перерезы.

Рассматривается сегментация таблицы. Статистические таблицы, как пра вило, имеют только частичную разграфку или не имеют её вовсе. Предла ------------------------------------------------------------------------------------- | Все категории |Сельхозпредприятия | Хозяйства | Крестьянские Текстовые блоки | хозяйств | | населения | хозяйств |--------------------------------------------------------------------------- Базовая точка тела таблицы |Валовой | Урожай- |Валовой | Урожай- |Валовой| Урожай- |Валовой | Урожай | сбор | ность | сбор | ность | сбор | ность | сбор | ность | тыс. ц | ц с 1 га| тыс. ц. | ц с 1 га| тыс.ц | ц с 1 га| тыс.ц | ц с 1 га Вертикальные промежутки / ------------------------------------------------------------------------------------- ЗЕРНОВЫЕ И ЗЕРНОБОБВЫЕ КУЛЬТУРЫ Вертикальные линейки 1997 г. 7405 11,6 7152 11,6 19 9,7 134 9,1998 г. 7419 12,2 7155 12,2 20 11,5 234 11,КАРТОФЕЛЬ Горизонтальные промежутки / 1997 г. 9939 148 385 124 9652 149 102 1998 г. 9834 137 322 104 8645 139 67 89 Горизонтальные линейки Рис. 8. Восстановление полной разграфки таблицы hci Ч Заголовки столбцов hrj Ч Заголовки строк hok Ч Перерезы Ч Элементы данных dl hc0 Дерево -----------------------T-------------T-------------м -----------------------T-------------T-------------м ж жНамолочено жНамолочено ж ж жНамолочено жНамолочено ж hc1 hc2 заголовков ж жзерна, всего жзерна, с 1 гаж ж жзерна, всего жзерна, с 1 гаж столбцов ж +------T------+------T------+ ж +------T------+------T------+ ж ж ж ж ж ж ж ж ж ж ж ж ж ж 2004 ж 2005 ж 2004 ж 2005 ж hc3 hc4 hc5 hcж ж 2004 ж 2005 ж 2004 ж 2005 ж ж ж ж ж ж ж ж ж ж ж ж ж L----------------------+------+------+------+------L----------------------+------+------+------+------ho Хозяйства всех категорий d1 d2 d3 dhrИркутская область 7250 9334 30 hr3 d5 d6 d7 dДерево Братский район 640 977 18 hr4 d9 d10 d11 d12 Дерево Заларинский район 100 141 17 заголовков Зиминский район 292 1309 25 hr5 d13 d14 d15 d16 hoИркутский район 942 16 строк hr0 hr6 d17 d18 d19 d20 перерезов Kачугский район 799 98 20 hr7 d21 d22 d23 d Kуйтунский район 414 722 19 hr8 d25 d26 d27 d с/х предприятия Иркутская область 3221 5237 23 hod29 d30 d31 dhr2 Множество Братский район 159 488 19 Заларинский район 56 121 18 hr9 d33 d34 d35 d36 элементов hr10 d37 d38 d39 d40 данных а б Рис. 9. Компоненты структурного описания таблицы (а) и пример связывания элемента данных с заголовками (б ) гаемая сегментация таблицы выполняется, как восстановление полной раз графки таблицы, Рис. 8. По вертикальным промежуткам таблицы восстанав ливаются вертикальные линейки. Далее, по горизонтальным промежуткам таблицы восстанавливаются горизонтальные линейки внутри её шапки. Го ризонтальные линейки под шапкой восстанавливаются по ограничивающим прямоугольникам табличных строк. Восстановленные линейки составляют полную табличную разграфку, которая корректируется с помощью исходной табличной разграфки при её наличии. С помощью своей полной разграфки таблица сегментируется на отдельные ячейки.

Предлагается теоретико-множественная модель структурного описания таблицы, которая служит для представления содержимого заголовков, эле ментов данных и связей между ними. Предлагаемое структурное описание таблицы включает в себя дерево заголовков столбцов, дерево заголовков строк, дерево перерезов и множество элементов данных, Рис. 9, а. Эти деревья соот ветствуют тем иерархиям вложенности, которые образуют заголовки (несмот ря на то, что перерезы не имеют вложенности, их также удобнее рассматри вать, как дерево). Вложенные заголовки являются в этих деревьях подузлами охватывающих заголовков. Корнями этих деревьев являются пустые узлы.

Каждый элемент данных сопоставляется с одним заголовком столбца, одним заголовком строки и одним перерезом, Рис. 9, б.

Предлагается метод структурного анализа таблицы для формирования её структурного описания. Выполняется эвристический анализ компоновки ячеек таблицы. Из содержимого ячеек формируются: 1) дерево заголовков столбцов, 2) дерево заголовков строк, 3) дерево перерезов и 4) множество элементов данных. Выполняется связывание элементов данных с заголовка ми.

Предложенные методы обнаружения, сегментации, анализа функций яче ек таблицы и структурного анализа статистических таблиц обеспечивают их комплексное извлечение из электронных документов.

В главе 4 рассматривается применение созданной технологии.

Предлагается информационная система извлечения табличной инфор мации из метафайлов, которая реализует предлагаемые методы. Эта систе ма имеет графический пользовательский интерфейс, который визуализиру ет процесс извлечения табличной информации. На выбранной странице этот процесс выполняется поэтапно: 1) обнаружение, 2) анализ функций ячеек, 3) сегментация и 4) структурный анализ таблиц. При этом пользователь при необходимости может вручную корректировать результаты каждого из этих этапов. Данная система позволяет представить получаемые структурные опи сания таблиц в виде XML, Рис. 10, структура которого описана на языке XML Schema.

[...] [...] Дерево заголовков столбцов [...] [...] Дерево заголовков строк [...] Дерево перерезов [...] Множество элементов данных
Рис. 10. Фрагмент XML представления структурного описания таблицы Таблица 1. Экспериментальная оценка Обнаружение: таблиц базовых точек тел таблиц линеек Точность 84,5% 91,4% 86,2% Полнота 91,7% X 82,5% Приводится экспериментальная оценка данной системы, Таблица 1. Ис пользуется две оценки: 1) точность процент количества корректно обнару женных таблиц/базовых точек тел таблиц/линеек к общему количеству обна руженных соответственно таблиц/базовых точек тел таблиц/линеек; 2) пол нота процент количества корректно обнаруженных таблиц/линеек к обще му числу существующих соответственно таблиц/линеек. Экспериментальные данные были составлены из государственных статистических отчетов России, США, Евросоюза, Японии, а также из финансовых отчетов различных компа ний. Они были представлены в форматах: PDF, DOC, XLS, HTML. Всего для оценки эффективности обнаружения таблиц/базовых точек тел таблиц было обработано 425 страниц, содержащих 518 таблиц. Для оценки эффективно сти обнаружения линеек из экспериментальных данных случайным образом было выбрано 44 страницы, содержащих 51 таблицу с 275 вертикальными и 1046 горизонтальными линейками.

Pages:     | 1 | 2 | 3 |    Книги по разным темам