Web使用记录挖掘 web数据挖掘

Web使用记录挖掘 1.介绍

在web上执行业务流程易用性和快速性是电子商务迅速增长的关键驱动力量。而且电子商务也把最终用户卷入了一场深重的革命中。跟踪用户浏览行为甚至个体鼠标点击的能力将商家和最终用户前所未有的拉近了。现在对商家来说,针对大量的客户订制行为对每个顾客提供个性化的产品信息是可以实现的。

上面所说的是web 使用挖掘的一个可能的应用场景,是基于应用型数据的挖掘技术到基于web数据的使用模型发现的一个处理过程。与web相关的数据挖掘就称之为web挖掘,广义上可以分为三类,内容挖掘,用途挖掘,结构挖掘。Web内容挖掘和结构挖掘不在文章范围之内。 [29]也提出了早期的一种web挖掘分类方法,并描述了web挖掘系统的架构,给出了web用途挖掘的第一个系统。正在进行的与KDD-1999会议协办的webKDD[41],提供了一些web用途挖分析领域的研究的样本,它包含web使用挖掘。本文提供了学院和工业研究机构以及商业团体最近进行的web使用挖掘工作的最新调查。第二部分描述了对web使用挖掘的各种web数据。第三部分讨论了web数据使用模型挖掘研究中的主要问题以及预处理,模型发现,模型分析这三个处理的阶段第四部分给出了一个web使用挖掘的详细分类。第五部分概述了一个web使用挖掘系统webSIFT。第六部分发表个人的观点。第七部分是总结。

2.WEB 数据

数据库知识发现一个关键步骤是创建一个合适的目标数据集。在Web挖掘中,数据可以从服务器,客户端,代理服务器或者某个组织的数据库(包含业务数据和整理过的Web数据)中收集。数据采集的每个步骤都与从本地数据源采集都有所不同,比如数据的可用性,数据的分块,实现的方法等。

在web挖掘中有以下几类数据可以使用:

l 内容:web页面的真实数据,为传送用户请求而设计的web数据。通常包含文本和图形,但并不仅仅如此。

l 结构:描述内容是如何组织的。页面内部结构信息包括在特定页面里各种HTML和XML标记是如何安排。这个可以用一个树形结构表示,<html>标记是树的根节点。内部页面结构信息主要是超链接。

l 使用:描述web页面使用模型的数据,例如IP地址,页面引用,用户访问的时间和数据。

l 用户代理:能够提供web站点的用户统计信息的数据。包含注册信息和客户代理信息。

2.1 数据来源
Web使用记录挖掘 web数据挖掘

从单用户,单站点的浏览行为到用户,多站点的访问模式,从不同数据源收集的使用数据将表现所有web流量的不同分块对应的不同的导航模型。

2.1.1 服务器端的数据收集

一个web服务器是一个重要的数据来源,因为它明确记录了网站访问者的浏览行为。他反映了多个用户对一个站点的访问信息。这些日志文件可以以不同的格式保存,例如普通log格式和扩展的log格式。图2是一个扩展日志文件格式的例子。然而,在web环境中多缓存的数据可能使日志文件是完全不可靠的。缓存的页面试图没有被记录在日志文件中。而且任何通过POST方法提交的重要信息在日志文件中是无法获取的。包监测技术是另一种从服务器日至中获取数据的方法。包检测技术能够监控来自某web服务器和TCP/IP包的网络流量。Web服务器也可能保存其他使用信息,例如cookies和单个日志的查询数据。Cookie是网站用来跟踪访问者而由服务器生成的客户的数据。HTTP协议的无连接特性使得跟踪单个用户不是一个简单地工作。Cookies隐含的记录用户的操作,而且现在被视为用户的隐私。这种观点在第六部分将被讨论到。查询数据也是服务器记录在线用户查询它们所需要的信息时而成的。除了使用数据,web服务器也记录了内容信息,结构信息及web页元信息(如文件长度和最后修改时间等)。

Web服务器也使用CGI脚本等工具处理用户发送的请求。服务器能根据解析URI来判断用户请求的文件是否是一个应用程序。对某个CGI程序发送的URI(Uniform Resource Identifer)可以包含参数。CGI完成了执行任务,web服务器将把结果返回给用户。

2.1.2 客户端数据收集

可以用远程代理(javascript或者javaapplets)来实现客户端的数据收集。通过修改现存浏览器的源代码(Mosaic或mozilla)可以增强其数据收集的能力。客户端数据采集的方法需要用户写作,比如客户需要把浏览器的javascript和javaapplet的禁用功能取消或者志愿使用开源的浏览器。客户端收集一个比从服务器端收集好的地方就是他改善了缓存和会话(session)识别的问题。然而在确定实际的浏览页时间时,javaapplet执行的效率并不比服务器日志要好,当他第一次载入的时候尤其要花费额外的时间。Javascript由客户端的解释器执行,但不能捕捉到所有的用户点击(例如刷新和后退按钮)。这些方法只能收集单用户单站点的浏览行为。这种方法最困难的是如何确认用户是否使用这个浏览器进行日常的浏览行为。这个可以通过提供愿意使用此浏览器的用户奖励的方法来解决。类似NetZero[9]和AllAdvantage[2]公司便是这样,他们会给与额外的程序功能给那些在网上冲浪是经常点击工具栏上的功高的用户。

2.1.3 代理端的数据收集

Web代理作为一种处于客户浏览器和服务器之间的缓存机制,它能降低某些页面载入的时间,如果这些页面曾经被用户访问过。代理缓存的执行效率依赖于预测将来请求的页面的正确率。代理技术可以揭示多用户访问多服务器的实际HTTP请求。它可以描述一组匿名用户的浏览行为的特征,如果这些用户共享一个通用代理服务器。

2.3 数据抽象

上面提供的几种数据源能抽象成几类数据,特别是用户,服务器session,episode,点击流,浏览页,为了保证术语的一致性。WCA(W3C Web Characterization Activity)发布了一个与web使用分析相关的web术语标准化的草案。 用户是通过浏览器从某台机器访问服务器文件的个体。一个用户可以通过不同的机器访问统一个web,或者在一个机器里面使用不同的代理。 一个浏览页包括在用户某一时刻看到的浏览器内容。浏览页往往与单用户行为联系在一起,可能由几个不同的文件组成,比如框架,图形和脚本。当我们分析用户行为时,往往夸大了浏览页数据的重要性。因为用户不会明确的访问加载到其浏览器中的n个框架和m个图形,用户请求的是一个“web页面”。确定由哪些文件组成一个浏览页这样的数据可以从web服务器上获取到。点击流是一组连续的浏览页的请求,从服务器端提取的数据不会总能够重建对一个站点的完整点击流。通过客户端或代理访问的浏览页在服务器端是不可见的。用户session是单个用户访问整个页面的点击流。既然访问信息对大多数web服务器是不公开的,每个用户访问特定站点的用户session只有一部分是可用的。用户session中对某个web服务器的点击流是一个服务器session。对web用途挖掘和其他数据挖掘工具而言,必须要有一系列的服务器session作为输入。对一个特定的站点当用户浏览会话结束时服务器session也就结束了。然而这只是个简单的概念,实际服务器session很难被可靠的跟踪。W3C WCA提出了episode的概念,它是一个服务器session的一个语义子集。

3.Web使用挖掘

如图1所示,web使用分析或web使用挖掘主要包括三个任务。本节概括描述了web使用挖掘的这三个任务及每个任务需要完成的工作。



3.1预处理

预处理包括将使用记录,内容,结构转化为模式分析所需要的有用的数据。

3.1.1 使用预处理

因为可用数据的不完整性使得使用预处理成为使用挖掘过程中最困难得恶任务。除非客户端的跟踪机制被充分使用,当IP地址,代理,服务器段的点击流都可以准确地标志用户和服务器session。下面列出了一些可能遇到的典型问题:

单个IP地址/多服务器session问题。ISP通常会提供一个代理服务器的池。单个代理服务器可能含有几个用户信息,这些用户在同一时间段内访问了同一个站点。

多个IP地址/单服务器session问题:某些ISP或者私人工具会随机将几个IP地址分配给统一个用户使用。在这里案例中,单个服务器session就会含有多个IP地址。

多IP地址/但用户问题:一个用户可能从拥有不同IP的不同机器上访问同一个站点。这使得跟踪同一个用户的访问比较困难。

多代理/单用户问题:一个用户可能会用不止一个浏览器,即使在同一个机器上,也会被视为多个用户。



假设现在每个用户都被唯一的标识(通过cookies,登录,或者IP/代理/路径分析),每个用户的点击流被分割为不同的sessions。从其他服务器上的页面请求不具有典型性,所以很难知道某用户什么时候推出一个web站点。切断一个点击流默认的方法是设一个30分钟的超时退出。30分超时算法来源于[23]。如果一个session的标志嵌入在URI里面,则服务器可以确定每个session。

当每个用户行为在服务器日志里作为一个字段能够提供确切的信息,有必要访问内容服务器。内容服务器能为每个活动的session维护一个状态变量,所以一个用户请求的内容在URI不能总是被获取到。预处理过程中最后一个问题是推断出被缓存的页面引用。就像在2.2所讨论的那样,唯一可以证实的跟踪缓存中浏  

爱华网本文地址 » http://www.aihuau.com/a/25101012/127849.html

更多阅读

伏安特性测试仪使用方法 伏安特性综合测试仪

HSXVA-III伏安特性测试仪是一款专门为测试互感器:伏安特性、变比、极性、误差曲线、耐压测试和二次侧回路检查等设计的多功能现场试验仪器。在不使用外接标准互感器的情况下;实验时仅需设定测试电压/电流值,设备便能够自动升压/升流,并

Nero刻录软件使用方法 免费的光盘刻录软件

Nero刻录软件使用方法——简介Nero刻录软件主要用来刻录数据光盘或者音乐光盘,下面分别演示一下这两种光盘刻录方法。Nero刻录软件使用方法——工具/原料一张CD光盘或者DVD光盘Nero刻录软件Nero刻录软件使用方法——刻录数据光盘

电脑使用记录如何查看 电脑记录怎么删除

电脑使用记录如何查看——简介很多时候,我们在使用过电脑之后都会留下记录的。但是往往有一些朋友,可能一条信息对自己很重要,但是一下找不到这个文件记录,那是不是很令人烦恼的事情呢?那么这里,由key来给大家分享一下,电脑如何来查看使用

Excel2007-如何做数据透视表 excel2007数据透视图

相信各位一定会面临如何对电子表格内的数据进行分类汇总,借住Excel内置的函数,或者有很多种处理方法,但是效率最好的方法只有一种,那就是对数据进行透视分析,也就是制作数据透视表,以下是需要进行透视的表格,需要汇总各个品种商品的销售额:

声明:《Web使用记录挖掘 web数据挖掘》为网友可怜到底分享!如侵犯到您的合法权益请联系我们删除