Разработка автоматизированной системы классификации товаров по изображениям

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование



ощных инструментов создания прототипов, проектирования архитектуры и разработки, которые позволяют разрабатывать приложения для всевозможных платформ и технологий, таких как обработка данных в облаке и параллельная обработка данных. Расширенные возможности координирования совместной деятельности наряду с интегрированными инновационными инструментами тестирования и отладки обеспечат повышение производительности группы и создание высококачественных и недорогих решений.

Разработка приложений в Microsoft Visual Studio 2010 Ultimate на языке C# с фреймворком.net Framework 4.0 осуществляется с применением объектно-ориентированного программирования и визуального программирования.

2. Методика

2.1 Способ получения информации с веб-ресурсов

При исследовании средств получения информации с сайта molotok.ru выявлено отсутствие API, позволяющего получить необходимые исходные данные. Поэтому получение информации будет производиться непосредственно с веб-страниц сайта. Для этого необходим программный доступ к элементам страницы. Также необходимо учесть, что часть элементов на странице генерируются при помощи JavaScript и AJAX. Поэтому выполнения простых HTTP запросов (классы WebRequest и WebResponse) недостаточно, необходимо обеспечить выполнение JavaScript и AJAX на странице. В связи с этим в качестве объекта, получающего страницы с сайта, был выбран стандартный для MS Visual Studio класс WebBrowser, который представляет оболочку для неуправляемого объекта на основе браузера Internet Explorer, версии идентичной установленному в системе.

Стандартных методов, предоставляемых классом WebBrowser недостаточно, чтобы эффективно обрабатывать страницы веб-сайта, поэтому было создано расширение для данного класса.

).5000,..-.,.-""-,html-, а уровень вложенности можно различить только при помощи html-тэгов. Поэтому для извлечения информации о категориях применены регулярные выражения. На рисунке далее приведена схема алгоритма для получения категорий.

Алгоритм получения категорий с веб-ресурса

Следующий этап состоит в получении ссылок на изображения товаров. Для этого необходимо посетить страницы каждой категории, учитывая, что в категории может быть несколько страниц с товарами, но одновременно на странице отображается не более 25 товаров. Открывать страницы с самими товарами не обязательно, так как вся необходимая информация о товарах содержится в html-элементе , который содержит в себе товары и всю информацию о каждом из них. Информацию о товаре можно разделить на два типа: текстовая (Идентификатор товара) и графическая (Изображения товара). Интернет-аукцион сохраняет все