Боте рассматривается подход к ограничению доступа пользователей к ресурсам сети Интернет, основанный на методе автоматической классификации текстовой информации
Вид материала | Документы |
СодержаниеСписок литературы |
- Положение Об организационных мерах по исключению доступа образовательных учреждений, 586.13kb.
- Компьютеные сети компьютерная сеть, 160.37kb.
- Игнатов Владимир Владимирович, Вице-президент ОАО инфотекс, г. Москва, тел. (095) 737-61-92,, 107.54kb.
- Меры безопасности для пользователей интернет, 22.54kb.
- 2. 11. Компьютерные сети. Глобальная компьютерная сеть Интернет, 244.18kb.
- Максим Александров, 82.92kb.
- Анализ сайта туристической фирмы «сам», 125.75kb.
- Инструкция №6 Порядок действий при осуществлении контроля за использованием обучающимися, 39.34kb.
- Регламент по работе учителей и учащихся в сети Интернет I. Общие положения «Точка доступа», 88.92kb.
- Прокси-серверы (proxy server) появились на заре эпохи Интернета, когда пользователей, 327.09kb.
УДК 004.896(06) Интеллектуальные системы и технологии
И.В. СОЧЕНКОВ
Институт системного анализа РАН, Москва
ОГРАНИЧЕНИЕ ДОСТУПА К РЕСУРСАМ СЕТИ ИНТЕРНЕТ С ИСПОЛЬЗОВАНИЕМ МЕТОДА
АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ
В работе рассматривается подход к ограничению доступа пользователей к ресурсам сети Интернет, основанный на методе автоматической классификации текстовой информации.
В крупных сетях передачи данных требуется эффективно решать задачу ограничения доступа к ресурсам нежелательной тематики, а также выявлять нарушения корпоративного регламента, связанные с доступом вполне легитимных приложений (например, web-браузеров) пользователя к информации «нецелевого» характера и ресурсам с нежелательным содержанием. Здесь может быть выделен отдельный класс задач, связанных с тематической классификацией ресурсов, доступ к которым осуществляется с помощью протоколов FTP, HTTP. Огромное количество и постоянный рост числа ресурсов Интернет не позволяют заранее классифицировать все ресурсы и составить списки ресурсов нежелательной тематики и содержания.
Системы контентной фильтрации, решающие поставленную задачу ограничения доступа к ресурсам, функционируют на основе статичных списков доступа к запрещённым/разрешённым ресурсам. Списки доступа формируются на основе заданных критериев вручную (компаниями-производителями систем, системными администраторами).
Основным недостатком такого подхода является неполнота списков доступа и их статичность: пользователь может осуществлять доступ к некоторым ресурсам нежелательной тематики, которые не попали в список. Для поддержания списков в актуальном состоянии требуется проводить их постоянное обновление и пополнение с привлечением редакторов для рассмотрения ресурсов-кандидатов на добавление в список, что является трудоёмкой задачей.
В настоящее время не существует систем контентной фильтрации, использующих средства автоматической классификации для ограничения доступа пользователей к «нежелательной» информации. Поэтому возникает необходимость построения системы автоматической классификации ресурсов, позволяющей осуществлять динамическое разделение информационных ресурсов, доступ к которым осуществляет пользователь, на непересекающиеся категории «нежелательной» и «допустимой» информации, обучаемой по заранее сформированной выборке документов нежелательных ресурсов
Для эффективного решения сформулированной выше задачи предлагается дополнить систему контентной фильтрации, основанную на статических списках доступа, модулем автоматической классификации ресурсов.
Схема функционирования системы контентной фильтрации с применением модуля автоматической классификации предполагает разделение ресурсов на 3 группы: «нежелательные», «допустимые» и «неопределённые» (не отнесённые ни к одной из предыдущих групп).
Если приложение пользователя пытается получить информацию с ресурса, отнесённого к группе «нежелательных», то доступ к этому ресурсу немедленно блокируется; если ресурс входит в число «допустимых», то доступ разрешается. Если же о ресурсе нет информации в списках доступа, т.е. он «неопределённый», то запускается механизм автоматической классификации, позволяющий определить характер ресурса и поместить его в соответствующий список.
При реализации вышеизложенной схемы был разработан метод автоматической классификации документов, учитывающий значимость слов документа относительно классов нежелательных ресурсов.
Преимуществами предложенного подхода являются: гибкий учёт требований ограничения доступа в конкретной сети передачи данных, адаптивность к поведению пользователей сети, снижение нагрузки на администратора сети, а также более полное, по сравнению с существующими методами, покрытие классов нежелательных ресурсов.
Список литературы
Проблемы мониторинга и сбора статистики в больших корпоративных научно-образовательных сетях на примере СПД СО РАН / Шокин Ю.И., Федотов А.М., Белов С.Д. и др. // Вестник ИрГТУ.-2006.- № 2 (26), Т. 3.- С. 6-16.
- Агеев, М.С. Экспериментальные алгоритмы поиска/классификации и сравнение с «basic line» / М.С. Агеев, Б.В. Добров, Н.В. Лукашевич и др. // Труды второго российского семинара по оценке методов информационного поиска. – Санкт-Петербург: НИИ Химии СПбГУ, 2004. – C. 62-89.
- Koller, D. Hierarchically classyffying documents using very few words / Koller D., Sahami M., Proc. ICML-97. – Nashvilee, 1997 – P. 170-176.
ISBN 978-5-7262-0883-1. НАУЧНАЯ СЕССИЯ МИФИ-2008. Том 10