Web mining

Web Mining — это использование методов интеллектуального анализа данных для автоматического обнаружения веб-документов и сервисов, извлечения информации из веб-ресурсов и выявления общих закономерностей в Интернете^[1].

В Web Mining можно выделить следующие этапы:

входной этап (англ. input stage) — получение «сырых» данных из источников (логи серверов, тексты электронных документов);
этап предобработки (англ. preprocessing stage) — данные представляются в форме, необходимой для успешного построения той или иной модели;
этап моделирования (англ. pattern discovery stage);
этап анализа модели (англ. pattern analysis stage) — интерпретация полученных результатов.

Это общие шаги, которые необходимо пройти для анализа данных сети Интернет. Конкретные процедуры каждого этапа зависят от поставленной задачи. В связи с этим выделяют различные категории Web Mining:

Web Content Mining;
Web Structure Mining;
Web Usage Mining.

Web Content Mining (Извлечение веб-контента) — процесс извлечения знаний из контента документов или их описания, доступных в Интернете^[2].Поиск знаний в сети Интернет является непростой и трудоёмкой задачей. Именно это направление Web Mining решает её. Оно основано на сочетании возможностей информационного поиска, машинного обучения и интеллектуального анализа данных.

Web Structure Mining (Извлечение веб-структур) — процесс обнаружения структурной информации в Интернете^[3].Данное направление рассматривает взаимосвязи между веб-страницами, основываясь на связях между ними. Построенные модели могут быть использованы для категоризации и поиска схожих веб-ресурсов, а также для распознавания авторских сайтов.

Web Usage Mining (Анализ использования веб-ресурсов) — это автоматическое обнаружение шаблонов в маршруте передвижения пользователя и связанных с ним данными, собранными или приобретёнными в результате взаимодействия с одним или несколькими веб-сайтами^[4].Это направление основано на извлечении данных из логов веб-серверов. Целью анализа является выявление предпочтений посетителей при использовании тех или иных ресурсов сети Интернет.

Web Mining[править | править код]

Web Mining и информационный поиск[править | править код]

Некоторые утверждают, что информационный поиск в Интернете — это частный случай Web Mining, другие ассоциируют Web Mining с интеллектуальным информационным поиском. На самом деле информационный поиск — это автоматический поиск всех необходимых документов, однако, в то же время не исключено получение некоторых нерелевантных документов^[5]. Основные задачи информационного поиска заключаются в поиске полезных документов, полнотекстовом индексировании, и в настоящее время исследования в области информационного поиска включают в себя моделирование, классификацию и категоризацию документов, пользовательских интерфейсов, визуализацию данных, фильтрацию, и т. д..Задача, которую, как считается, выполняет частный случай Web Mining — это классификация или категоризация веб-документов, которые могут быть использованы для индексации. В этой связи, Web Mining является частью процесса информационного поиска. Тем не менее, следует отметить, что не все задачи индексации используют методы интеллектуального анализа данных.

Web Mining и извлечение информации[править | править код]

Целью информационного извлечения является превращение коллекции документов, обычно с помощью информационно-поисковых систем, в легко усвояемую и проанализированную информацию. Процесс извлечения информации направлен на вынимание релевантных фактов из документов, в то время как процесс информационного поиска направлен на селекцию релевантных документов. Первый заинтересован в структуре или представлении документа, то есть работает на уровне тонкой детализации, а второй рассматривает текст документа как коллекцию неупорядоченных слов. Тем не менее, различия между двумя процессами становятся несущественными, если цель информационного поиска — это извлечение информации^[6].

Благодаря динамике и разнообразию веб-содержимого, создание ручного режима систем информационного извлечения не представляется возможным. В связи с этим, большинство систем по извлечению данных сосредотачивают внимание на конкретные веб-сайты. Другие используют обучающие машины или методы интеллектуального анализа данных и способны извлекать веб-документы в автоматическом или полуавтоматическом режиме. С этой точки зрения, Web Mining является частью процесса извлечения информации из Интернета.

Web Mining и машинное обучение[править | править код]

Web Mining работает не по тому же принципу, что и применяющиеся в Интернете методы машинного обучения. С одной стороны, существуют некоторые приложения машинного обучения, не являющиеся частным случаем Web Mining. Примером этого является метод, эффективно использующий веб-паука для конкретной темы, или метод, акцентирующийся на планировании лучшего пути, который будет пройден следующим. С другой стороны, помимо методов машинного обучения, существуют и другие методы, которые применимы к Web Mining. К примеру — некоторые запатентованные алгоритмы, которые используются для добычи хабов и авторитетных страниц, DataGuides и алгоритмы обнаружения веб-схем. Тем не менее, между двумя областями исследований существует тесная связь, и методы машинного обучения могут быть применены к процессам Web Mining. Например, недавние исследования показали, что применение методов машинного обучения может улучшить процесс классификации текстов, по сравнению с результатами работы традиционных методов информационного поиска^[7] .

Web Content Mining[править | править код]

Web Content Mining описывает автоматический поиск информационных ресурсов в Интернете и включает в себя добычу содержимого из веб-данных. По сути, Web Content Mining является аналогом метода интеллектуального анализа данных для реляционных баз данных, так как существует возможность найти похожие типы знаний из неструктурированных данных, находящихся в веб-документах. Веб-документ может содержать несколько типов данных, такие как текст, изображения, аудио, видео, метаданные и гиперссылки. Некоторые из них частично структурированные, такие как HTML-документы, некоторые более структурированные, такие как данные в таблицах или базах данных, но большинство информации хранится в неструктурированных текстовых данных^[8].

Существуют различные методы поиска информации в Интернете. Наиболее распространённым подходом является поиск на основе ключевых слов. Традиционные поисковые системы имеют сканеры для поиска и сбора полезной информации в Интернете, методы индексирования для хранения информации и обработки запросов, чтобы предложить пользователям более точную информацию. Web Content Mining выходит за рамки традиционной технологии IR (англ. Information Retrieval).

Существует два подхода к Web Content Mining: агентный и ориентированный на базу данных. В первом случае, добычу данных осуществляют программные агенты, во втором случае данные рассматриваются как принадлежащие к базе^[9].

Подход, основанный на агентах, включает такие системы^[10]:

интеллектуальные поисковые агенты (Intelligent Search Agents);
фильтрация информации / классификация;
персонифицированные агенты сети.

Примеры систем интеллектуальных агентов поиска:

Harvest (Brown и др., 1994),
FAQ-Finder (Hammond и др., 1995),
Information Manifold (Kirk и др., 1995),
OCCAM (Kwok and Weld, 1996), and ParaSite (Spertus, 1997),
ILA (Information Learning Agent) (Perkowitz and Etzioni, 1995),
ShopBot (Doorenbos и др., 1996).

Подход, основанный на базах данных, включает системы^[10]:

многоуровневые базы данных;
системы web-запросов (Web Query Systems);

Примеры систем web-запросов:

W3QL (Konopnicki и Shmueli, 1995),
WebLog (Lakshmanan и др., 1996),
Lorel (Quass и др., 1995),
UnQL (Buneman и др., 1995 and 1996),
TSIMMIS (Chawathe и др.., 1994).

Web Structure Mining[править | править код]

Web Structure Mining — это процесс выявления структурной информации в Интернете, который может быть разделён на два вида, основанных на типе структуры используемой информации^[3]:

Гиперссылки
Структура документа

Гиперссылки[править | править код]

Гиперссылка является структурной единицей, которая соединяет локацию в веб-странице с другой, или в пределах одной веб-страницы или на другой веб-странице. Гиперссылка, которая подключается к другой части той же страницы называется внутри-документной гиперссылкой, а гиперссылка, которая соединяет две разных страницы называется меж-документной гиперссылкой.

Структура документа[править | править код]

Содержание веб-страницы может быть представлено в древовидном формате, основанном на различных HTML и XML тегах. Задача состоит в том, чтобы автоматически извлечь DOM-структуру(англ. document object model) из документов.

Web Structure Mining пытается обнаружить модель, лежащую в основе ссылочной структуры в Интернете. Модель основана на топологии гиперссылки с или без описания ссылки. Эта модель может быть использована для классификации Веб-страницы и полезна для получения информации, такие как сходство и отношения между веб-сайтами^[11]. Ссылочная структура содержит важную информацию, и может помочь в фильтрации и ранжировании веб-страниц. В частности, ссылка со страницы А на страницу В может считаться рекомендацией страницы B автором А.

Были предложены некоторые новые алгоритмы, использующие ссылочную структуру не только для поиска по ключевым словам, но и других задач, таких как автоматическое создание Yahoo-подобных иерархий или идентификаций сообществ в Интернете. Качественное выполнение этих алгоритмов, как правило, лучше, чем исполнение IR-алгоритмов, поскольку они используют больше информации, чем просто содержимое страниц.

Web Usage Mining[править | править код]

Web Usage Mining — это процесс извлечения полезной информации из пользовательских журналов доступа, журналов прокси-сервера, браузерных журналов, пользовательских сессионных данных. Говоря простым языком, Web Usage Mining — это процесс выяснения того, что пользователи ищут в Интернете. Некоторые пользователи могут быть заинтересованы только в текстовых данных, в то время как другие могут больше уделять внимания мультимедийным данным^[12].

Анализируется следующая информация:

какие страницы просматривал пользователь;
какова последовательность просмотра страниц.

Анализируется также, какие группы пользователей можно выделить среди общего их числа на основе истории просмотра Web-узла.

Web Usage Mining включает следующие составляющие:

предварительная обработка;
операционная идентификация;
инструменты обнаружения шаблонов;
инструменты анализа шаблонов.

На первом этапе происходит сбор данных и предварительная обработка данных. Предварительная стадия обработки включает в себя очистку clickstream-данных (англ. Clickstream — маршрут перемещения пользователя по веб-узлу) и разбиение данных на множество пользовательских транзакций с их визитами на веб-сайт. На стадии обнаружения шаблона, статистические алгоритмы и алгоритмы баз данных выполняются на журналы транзакций, чтобы найти скрытые закономерности и поведение пользователей. На заключительном этапе анализа шаблонов, обнаруженные образцы из предыдущего этапа последовательно обрабатываются и фильтруют произведённые модели, которые впоследствии могут использоваться как входные данные в различные инструменты визуализации и инструменты генерации отчётов^[12].

Статистика фиксирует идентификационные данные веб-пользователей вместе с их поведением на сайте. В зависимости от вида использования данных, результатом работы Web Usage Mining будут являться:

Данные веб-сервера;
Данные серверных приложений;
Данные прикладного уровня.

Данные веб-сервера[править | править код]

Веб-сервером собираются журналы пользователя и обычно включают в себя IP-адрес, ссылку на страницу и время доступа.

Данные серверных приложений[править | править код]

Коммерческие серверы приложений, такие как WebLogic, StoryServer, имеют значительные возможности, позволяющие обосноваться на их вершине приложениям для электронной коммерции. Ключевой особенностью является возможность отслеживать различные виды деловых мероприятий и регистрировать их в журналах сервера приложений.

Данные прикладного уровня[править | править код]

В приложении могут быть определены новые виды событий, регистрация которых, может включать историю создания этих событий. Следует отметить, что многие конечные приложения требуют сочетания одного или нескольких методов, применяемые в категориях, указанных выше.

Плюсы и минусы Web Usage Mining[править | править код]

Плюсы[править | править код]

Web Usage Mining имеет ряд преимуществ, что делает эту технологию привлекательной для корпораций, в том числе государственных учреждений^[13]:

Эта технология позволила электронной торговле создать персонализированный маркетинг, который в конечном итоге привёл к увеличению объёмов торговли.
Государственные учреждения используют эту технологию для классификации угроз и для борьбы с терроризмом.
Возможность прогнозирования может принести пользу обществу путём выявления преступной деятельности.
Компании могут установить более тесные взаимоотношениями с клиентами, предоставляя им именно то, что им нужно.
Компании могут лучше понять потребности клиента и быстрее реагировать на потребности клиентов.
Компании могут найти, привлечь и удержать клиентов, сэкономить на себестоимости продукции за счёт использования приобретённого понимания требований заказчика.
Компании повышают рентабельность за счёт целевого ценообразования на основе созданных профилей.

Минусы[править | править код]

Самый критикуемый этический вопрос, связанный с Web Usage Mining, является вопрос о вторжении в частную жизнь. Защита считается потерянной, когда полученная информация об отдельном пользователе используется или распространяется без их ведома и согласия. Полученные данные будут проанализированы и кластеризованы в форме профилей или будут анонимными до кластеризации без создания личных профилей. Таким образом, эти приложения де-индивидуализируют пользователя, судя о них только по их щелчками мыши^[14].
Другой важной проблемой является то, что компании по сбору данных могут их использовать для совершенно разных целей, что существенно нарушает интересы пользователей.
Растущая тенденция использования персональных данных в качестве товара призывает владельцев веб-сайтов к торговле этими данными, расположенными на их сайтах.
Некоторые алгоритмы интеллектуального анализа могут использовать спорные атрибуты, такие как пол, раса, религия или сексуальная ориентация. Эти методы могут быть против анти-дискриминационного законодательства.

См. также[править | править код]

Надзорный капитализм

Примечания[править | править код]

↑ Web Mining: Machine learning for Web Applications, 2004, с. 290.
↑ Web Mining Functions, 2009, с. 132.
↑ ¹ ² Web Mining — Concepts, Applications, and Research Directions, 2004, с. 3.
↑ Web Usage Mining Description, 2011, с. 527.
↑ A Survey of Web Mining, 2000, с. 2.
↑ A Survey of Web Mining, 2000, с. 2-3.
↑ A Survey of Web Mining, 2000, с. 3.
↑ Web Content, 2000, с. 5.
↑ Web Content Methods, 2008, с. 263.
↑ ¹ ² Agent-based and Database oriented approaches, 2006.
↑ Web Structure Mining, 2007, с. 3.
↑ ¹ ² Web Usage Mining, 2008, с. 7.
↑ Web Usage mining Pros and Cons
↑ Ethical issues, 2004.

Литература[править | править код]

Wang Y. Web Mining and Knowledge Discovery of Usage Patterns (англ.). — 2000. (недоступная ссылка)
Lingras P., Akerkar R. Building an Intelligent Web: Theory and Practice: Theory and Practice (англ.). — Jones and Bartlett Publishers, 2008. — 326 p. — ISBN 978-0-7637-4137-2.
Bing L. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (англ.). — Springer, 2011. — 642 p. — ISBN 978-3642194597.
Wookie L. Hierarchical Web Structure Mining (англ.). — 2007.
Kosala R., Blockeel H. Web Mining Research: A Survey (англ.). — ACM SIGKDD, 2000. — P. 2-3.

Cronin B. Annual Review of Information Science and Technology (англ.). — ARIST, 2004. — 674 p. — ISBN 1573872091.
Чубукова И. А. Data Mining: учебное пособие. — М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006. — 382 с. — ISBN 5-9556-0064-7.
Sivaramakrishnan J., Balakrishnan V. Web Mining Functions in an Academic Search Application. — Dubai: BITS – PILANI, 2009. — С. 132-139.
Sharma A. Web Usage Mining: Data Preprocessing, Pattern Discovery and Pattern Analysis on the RIT Web Data (англ.). — Rochester Institute of Technology, 2008. Архивировано 23 января 2013 года.
Srivastava J., Desikan P., Kumar V. Web Mining — Concepts, Applications, and Research Directions (англ.). — 2004.
Royakkers L, v.Wel L. Ethical issues in web data mining (англ.). — Kluwer Academic Publishers, 2004.

[_02b5c51e72ffb50f-1] Web Mining: Machine learning for Web Applications, 2004, с. 290.

[_ce10d0e6b6630615-2] Web Mining Functions, 2009, с. 132.

[_9662d1668c4dcdd0-3] ¹ ² Web Mining — Concepts, Applications, and Research Directions, 2004, с. 3.

[_3289444e2736ec2c-4] Web Usage Mining Description, 2011, с. 527.

[_190cf641322571e9-5] A Survey of Web Mining, 2000, с. 2.

[_af0f55331fd29a41-6] A Survey of Web Mining, 2000, с. 2-3.

[_190cf641322571e8-7] A Survey of Web Mining, 2000, с. 3.

[_81e94e5523f3b287-8] Web Content, 2000, с. 5.

[_4402e7b00db5fa9f-9] Web Content Methods, 2008, с. 263.

[_1cef2658f1753cce-10] ¹ ² Agent-based and Database oriented approaches, 2006.

[_9ff36cfd43d8f24c-11] Web Structure Mining, 2007, с. 3.

[_42aac9150c6e2347-12] ¹ ² Web Usage Mining, 2008, с. 7.

[13] Web Usage mining Pros and Cons

[_0b6b6b37aa50388d-14] Ethical issues, 2004.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]