Методы статистического анализа текста

Информация - Иностранные языки

Другие материалы по предмету Иностранные языки

¶е легко извлечь информацию о сочетаемости букв, т.е. о предпочтительных связях букв друг с другом.

Результатом таких исследований является таблица, в которой слева и справа от каждой буквы расположены наиболее предпочтительные соседи (в порядке убывания частоты соответствующих биграмм). В таких таблицах обычно указывается также доля гласных и согласных букв (в процентах), предшествующих (или следующих за) данной букве.

 

ГССлеваСправаГС397л, д, к, т, в, р, нАл, н, с, т, р, в, к, м12888020я, е, у, и, а, оБо, ы, е, а, р, у81196832я, т, а, е, и, оВо, а, и, ы, с, н, л, р60407822р, у, а, и, е, оГо, а, р, л, и, в69317228р, я, у, а, и, е, оДе, а, и, о, н, у, р, в68321981м, и, л, д, т, р, нЕн, т, р, с, л, в, м, и12888317р, е, и, а, у, оЖе, и, д, а, н71298911о, е, а, иЗа, н, в, о, м, д51492773р, т, м, и, о, л, нИс, н, в, и, е, м, к, з25755545ь, в, е, о, а, и, сКо, а, и, р, у, т, л, е73277723г, в, ы, и, е, о, аЛи, е, о, а, ь, я, ю, у75258020я, ы, а, и, е, оМи, е, о, у, а, н, п, ы73275545д, ь, н, оНо, а, и, е, ы, н, у80201189р, п, к, в, т, нОв, с, т, р, и, д, н, м15856535в, с, у, а, и, е, оПо, р, е, а, у, и, л68325545и, к, т, а, п, о, еРа, е, о, и, у, я, ы, н80206931с, т, в, а, е, и, оСт, к, о, я, е, ь, с, н32685743ч, у, и, а, е, о, сТо, а, е, и, ь, в, р, с63371585п, т, к, д, н, м, рУт, п, с, д, н, ю, ж16847030н, а, е, о, иФи, е, о, а, е, о, а81199010у, е, о, а, ы, иХо, и, с, н, в, п, р43576931е, ю, н, а, иЦи, е, а, ы9378218е, а, у, и, оЧе, и, т, н66346733ь, у, ы, е, о, а, и, вШе, и, н, а, о, л68328416е, б, а, я, юЩе, и, а9730100м, р, т, с, б, в, нЫл, х, е, м, и, в, с, н56440100н, с, т, лЬн, к, в, п, с, е, о, и24761486с, ы, м, л, д, т,, р, нЭн, т, р, с, к01005842ь, о, а, и, л, уЮд, т, щ, ц, н, п11894357о, н, р, л, а, и, сЯв, с, т, п, д, к, м, л1684

 

Наиболее частое применение частотных характеристик - криптография. Но помимо криптографии частотные характеристики открытых сообщений существенно используются и в других сферах. Например, клавиатура компьютера, пишущей машинки или линотипа - это воплощение идеи ускорения набора текста, связанное с оптимизацией расположения букв алфавита относительно друг друга в зависимости от частоты их применения.

2. Ранжирование данных

 

Существует несколько определений ранжирования. Прежде всего они связаны с областью, в которой применяется этот метод. В общем смысле ранжирование представляет собой расстановку элементов системы по рангу, по признакам значимости, масштабности; установление порядка расположения, места лиц, проблем, целей и задач в зависимости от их важности, весомости.

В большинстве случаев правила ранжирования изучают разработчики сайтов, для того чтобы занять лидирующие позиции, верхнюю строчку при запросе и привлечь как можно больше посетителей на свою страницу.

Ранжирование (от английского - ranking) - применительно к работе поисковой системы - это процесс выстраивания найденных по запросу пользователя страниц в порядке наибольшего соответствия искомому запросу [9].

Далее мы будем рассматривать метод ранжирования данных в рамках поисковой системы, поэтому необходимо дать краткое определение поисковой системе.

Поисковая система - это веб-сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на просторах глобальной сети, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet.

Общая схема ранжирования сайта выглядит примерно так: по определенному запросу поисковик находит все входящие слова запроса на веб-страницу. Далее учитываются следующие факторы:

компактность ключевых слов (расположение друг от друга),

важность (наличие ключевых слов, а также близость слов к началу страницы),

порядок расположения, форма и т.д.

Исходя из всех этих параметров назначается общий вес (который иначе может наименоваться как позиция) страницы в результатах поиска.

Благодаря различным исследованиям были определены общие методы ранжирования, которые подходят для всех поисковых машин.

Цитата

Поисковая машина считает, что те страницы Интернета, в которых слова запроса идут рядом, в том же порядке и в той же форме как в запросе, более релевантны (от англ. relevant - применительно к результатам работы поисковой системы и экспертной системы - степень соответствия запроса и найденного, то есть уместность результата), чем другие страницы, на которых ключевые слова рассыпаны в произвольном порядке или имеют другую грамматическую форму.

Другими словами, стоит использовать в тексте страницы точные формулировки (цитаты) поисковых запросов, и тогда любой сайт начнет занимать верхние строчки.

При этом следует соблюдать и точную форму слов, использовать в тех же падежах и числах, как и в запросе, который является основной целью. Это даст значительное преимущество, ранжирование такой страницы повысится в несколько раз.

Вес ключевых слов запроса

Значительно влияет также наличие ключевых слов в самом тексте страницы и та страница, на которой вес ключевых слов будет выше, и которая, следовательно, будет оцениваться поисковиками как наиболее релевантная.

Но частота употребления ключевых слов должна держаться в определенных рамках, текст должен выглядеть как можно естественно. Та страница, на которой ключевое слово имеет вес 50%, будет признан неестественным, поисковые машины примут такую оптимизацию за поисковой спам и соответственно это сведет все усилия к нулю.

Близость ключевых слов к началу страницы

Как правило, наиболее ценная и важная информация размещается в начале страницы, и если слова запроса находятся на странице ближе к началу, данная страница будет ранжироваться лучше.

Подводя итоги можно резюмировать: для того чтобы