您好,欢迎来到爱问旅游网。
搜索
您的当前位置:首页基于Web日志的数据挖掘的研究及应用

基于Web日志的数据挖掘的研究及应用

来源:爱问旅游网
第10卷第ll期2010年4月 科学技术与工程 VoL 10 No.11 Apr.2010 1671-1815(2010)11-2762-O5 Science Technology and Engineering @2010 Sci. I l1. 基于Web日志的数据挖掘的研究及应用 周金枝刘 呖’ 于辰云 (辽宁石油化工大学计算机软件与理论,抚顺113001) 摘要Web日志挖掘是Web数据挖掘中非常重要的一个研究领域和研究方向,首先介绍了web日志挖掘的过程,然后介 ‘.绍了关联规则及关联规则算法——FP—growth算法,最后将关联规则中的FP.growth算法应用在网上书店系统中,实瑰对客户 数据的关联规则挖掘。  .关键词web日志挖掘 关联规则 FP—growth算法 中图法分类号TP311.54;文献标志码A 网上书店  :Web挖掘是从Web资源上发现、抽取、过滤信 息,Web挖掘包括web内容挖掘、Web结构挖掘和 Web日志挖掘。Web日志挖掘是Web数据挖掘的 一几种信息:①访问时间;②请求方法(“GET”、 “POST”等);③访问的uRL;④用户的II'地址;⑤ agent,即用户使用的操作系统类型和浏览器软件; 个主要分支¨ ,Web 13志挖掘主要是从Web服 ⑥返回码。Web 13志挖掘的整个过程可分为:数据 收集、数据预处理、模式识别三个阶段。 1.1数据收集 务器的访问13志文件中抽取用户感兴趣的访问模 式,发现用户的浏览行为,实现个性化推荐服务。 数据挖掘技术在网上购书系统中起着重要作用,使 用数据挖掘技术进行客户数据的挖掘,通过关联规 则挖掘得到不同书籍之间和不同种类书籍之间的 关联关系,在客户购书中可以为客户推荐相关书 籍,从而促进书籍的销售。作为Web挖掘的技术手 段之一的关联规则挖掘,在Web 13志挖掘中起着重 Web 13志挖掘可以通过服务器端、客户端、代 理服务器端进行数据收集。通过Web服务器记录 用户的访问日志,是一种比较全面的数据收集,本 文的数据收集主要来自 b服务器端的13志文件, 不同Web服务器13志文件格式并不完全相同,但通 常都包括以上所列的6种信息。 1.2数据预处理【 】 要作用。关联规则挖掘的过程主要分为三 阶段, 首先是将数据库转换为事务数据库的形式,然后是 数据预处理是对原始的 b日志进行加工,将 其转换为适当的形式,以适合挖掘算法的实施。数 采用合适的算法挖掘出所有的频繁模式,最后生成 关联规则。本文主要是把FP-growth算法应用在网 据预处理的一般步骤包括:数据清洗、用户识剐、会 话识别、路径补充。 上书店中,从而对客户数据进行挖掘。 1.2 1数据清洗 r 1 Web日志挖掘过程 Web日志是指在服务器上有关Web访问的各 数据清洗就是删除Web日志中与挖掘算法无 关的数据,包括后缀是 、jpeg、css、JPg等的数据 项,同时将有用的web日志记录格式转换为适当的 数据格式。 1.2.2用户识别 种日志文件,包括访问13志、引用日志、代理日志、 错误日志等。Web服务器访问13志一般包括以下 2OlO年1月l5日收到 . : 用户识别需要根据不同的日志格式采用不同 的识别方法,如果服务器日志中含有用户标识cook- 第一作者简介:周金枝(1982~),女,山东省成武县人,硕士生。 ie,那么利用cookie就可以准确地识别用户。但是 11期 周金枝,等:基于Web H志的数据挖掘的研究及应用 2763 绝大多数用户出于安全的考虑,使得服务器不能得 因果关联等。这些关联并不总是事先知道的,而是 到cookie。一般的日志格式采用以下方法进行用户 通过对数据的关联分析获得的,因而对商业决策具 识别:①不同的IP属于不同的用户;②如果IP地 有新的价值,可被应用于许多商业领域。关联规则 址相同,但是操作系统类型和浏览器软件不同,则 挖掘的一个典型应用是购物篮分析。该过程通过 认为是不同的用户;③借助站点拓扑,若发现用户 发现顾客放人其购物篮中不同商品之间的联系,从 正请求的页面,不能从已访问的任何页面到达,则 而分析顾客的购买习惯。例如“在购买JSP书的顾 认为是新用户。 客当中,有70%的人同时购买了Java书”。这种关 1.2.3会话识别 联发现可以帮助零售商制定营销策略。 用户会话被定义为用户在对网站的一次访问 2.1关联规则 过程中所请求的URL的集合,若某一用户发出连续 设,={i ,i ,…,i }是所有项的集合,D是一组 两个URL请求的时间差不超过规定的时间阈值,则 事务集。D中的每个事务T是一个项的集合,并且 这两次请求被划分在同一用户会话中,否则分别属 满足T ,。每个事务T都有一个唯一的标识。如 于两个不同的用户会话,经验结果表明时间阈值设 果 T且 I,就说T包含 。关联规则是如下 为25.5分钟比较合适 。 形式的一种蕴含R: y,其中 cI,YCI,且 n l, 1.2.4路径补充 =(2j。 路径补充是将浏览器本地缓存和代理服务器 2.2支持度 缓存的存在而产生的遗漏请求补充到用户会话文 关联规则 y在事务集合D中成立,则具有 件中。当会话识别完成后,如果发现用户会话序列 支持度s,其中s是D中事务包含 u l,的百分比, 中当前访问页和上一次请求页之间没有超文本链 它等于D中包含 和l,的事务个数与D中事务个 接,那么很可能是用户使用了浏览器中的“BACK” 数之比,即概率P( uy)。 按钮调出本地缓存中的页面,这时要根据引用日志 support(X=:}Y)=support(XU Y)=P(XI Y)。 和网络拓扑结构提供的信息,将日志文件中遗漏的 2.3置信度 页面补充在路径中。 规则 y在事务集D中的置信度c为D中包 1.3模式识别 含 的事务个数与D中同时包含 和y的事务个 模式识别是使用各种数据挖掘算法_4 发现隐 数之比,即条件概率P(YI )。即是 藏在数据背后的规律和模式。可以使用统计、数据 confidence( y)=support( u Y)/support 挖掘、机器学习和模式识别等各学科领域中已开发 (X)=P(YI X)。 的方法和算法。但把这些方法和算法应用于Web 2.4最小支持度与强项集 日志挖掘时,要考虑Web日志数据的特性。常用技 最小支持度(Minimum Support)表示挖掘的关 术有统计分析、关联规则挖掘、生成序列模式、聚 联规则要求数据项必须满足的最小支持度阈值 类、分类以及依赖关系的建模等技术。 (minimum support threshold),记为mini—sup,它表示 数据项集关联在一起需要满足的最低联系程度。 2关联规则 只有满足最小支持度的数据项集才有可能在关联 规则中出现,支持度大于最小支持度的数据项集称 关联规则是关联分析中的一种常用技术 引,它 为强项集(Large Itemset),反之,称为弱项集(Small 反映一个事件和其它事件之间的依赖或关联。关 Itemset)。 联规则挖掘的目的就是找出数据间隐藏的关联信 2.5最小置信度 息。关联可以分为简单关联、时序关联、数量关联、 最小置信度表示关联规则必须满足的最小置 2764 科学技术与工程 lO卷 信度阈值(minimum confidence threShold),记为mini _3)产生模式 Ua conf,它反映了一个关联规则的最低可靠度。 4)else for each a 在Tree的头部{ ai.suppo ̄; 一 譬 2.6频繁项集 5)产生一个模式卢=a Ua其支持度supporf= 6)构造 的条件模式基,然后构造 的条件 FP—Tree/3 lll 如果项集U={M。,M:,…,M }出现的频率大于 或等于最小支持计数mini—sup,即满足最小支持度 阈值:则称它为频繁项集(Frequent hemset),频繁k一 项集的集合通常记为 。 2.7强关联规则  .设有关联规则R:A ,若(suppo ̄(R)’mini— sup)^(conifdence(R)l>mini—conf)为真,贝0 R: B为强关联规则。 3 FP-growth算法及其在网上书店中的 应用 , 由于经典Apfiofi算法的固有缺陷,就产生了候 选挖掘频繁项集的FP-growth算法。FP—growth算 法 采用新的分而治之策略:将提供频繁项目集 的事务数据库压缩到一颗频繁模式树(frequent pat— tern tree简称为FP一树),但仍保留项目集关联信息; 然后,将这种压缩后的数据库分成一组条件数据 库,每个关联一个频繁项目,并分别挖掘每组条件 数据库。 3.1 FP・growth算法描述 算法描述如下: 输入:事务数据库TDB,最小支持度阈值min —supO 输出:频繁模式的完全集。 方法: (1)构造FP—tree: ①扫描事务数据库TDB一次。收集频繁项的 集合F和它们的支持度。 ②创建FP.树的根节点,以“null”标记它。 (2)通过调用FP-growth(FP・tree,nul1)实现FP— tree的挖掘。该过程实现如下: Procedure FP—growth(Tree,口) 1)if Tree含单个路径P then ’ 2)f0r路径P中结点的每个组合(记作 ) 7)if Tree ≠Othen ・i, 8)调用FP-growth(Tree ,卢);} 3.2 FP-rgowth算法在网上书店系统中的应用 网上书店客户数据的关联规则频繁项集挖掘 可采用FP—growth算法实现。本文以当当网为嘭 截 取2009年9月10日到9月l7日所销售图书的 Web日志,应用Web 13志预处理技术,得出表1(由 于数据太多,为了便于举例本文只选取了部分数 据),其中数据库TDB中有9个事务,且事务中的项 目按字母顺序存放,最小支持计数为2(即rain—sup =2/9=22%)。Ii代表具体的书目或者一类图书 比如I1—Java,I:—JsP,I,一网页制作图书,I —数据 结构,I5一C++。 表1事务集TDB 利用FP—growth算法挖掘关联规则频繁项集的 过程如下: . (1)扫描事务数据库TDB。导出频繁项目的集 合(即频繁1一项目集),并得到它们的支持度计数 频繁项目的集合按支持度计数的递减顺序排月 结 果集记作L。L={I2:7,I1:6,I3:6,I4:2,I5:2}。 (2)第二次扫描数据库TDB,构造FP,tree。 ll期 周金枝,等:基于Web日志的数据挖掘的研究及应用 2765 FP.tree的挖掘过程:有长度为1的频繁模式 (即项目头表中的频繁项目)开始,构造它的条件模 then产生强关联规则A B并存储 (3)if(F中所有元素被遍历) 输出所有的强关联规则 else返回(1)继续执行 对于上面讨论的实例,根据频繁项集产生关联 式基。然后构造它的条件FP-tree,并递归地在该树 上进行挖掘,模式增长通过后缀模式与由条件FP— tree产生的频繁模式连接实现。对于FP-tree的挖 掘如图1。由图1生成的频繁模式如表2所示。 图1 FP.tree及项目头表 表2频繁模式 由以上分析,可以看出,最后得到的频繁模式 及其支持度:12I1I5:2,I2I5:2,I1I5:2,I2I4:2,I2I1I3: 2,I1I3:2,I2I3:4,I2I】:4。 3.3发现关联规则 由上面得到的频繁模式,可以找出强关联规则 (同时满足最小支持度和最小置信度)。 confidence(A B)=supp(A U B)/supp(A)。 可以通过以下方法判断: (1)对集合F中的任意两个元素A和B,做 判断: if(AnB= 并且AuB也是一个频繁集(即A u B也在F中)) then supp(AUB)/supp(A) (2)if(supp(AOB)/supp(A)I>min—conf) 规则,针对频繁项集{I。I .,I,},它的非空子集有{I 。 I,},{I .I },{I .I,},{I },{I },{I3} I1八I2==>I3 confidence=2/4=50% Il^I3jI2 confidence=2/2:100% I2八I3jI1 confidence=2/4=50% I1 I2 A I3 confidence=2/6=33% I3 Il^I2 confidence=2/6=33% 12 I1^I3 confidence=2/7=29% 设min—conf(最小置信度)为90%,则只有I ^ 13 I:的规则可以输出,即“同时购买Java和网页制 作图书的人就会购买JSP”。 4关联规则挖掘在网上书店中的应用 挖掘的目的是为了应用,把关联规则挖掘应用 在网上书店中主要体现在两个方面:一方面是可以 在网上书店系统中进行个性化推荐,把关联图书推 荐给客户;另一方面在购进图书时要考虑书籍之间 的关联性,相关联书籍之间的库存数量不应该相差 太大。从关联规则中我们可以分析出各图书之间 的关联性,预测客户的个性化行为,也可以了解到 客户在购买图书时的兴趣和习惯。因此书店管理 人员可以根据这些关联规则更好地规划书店,从而 增加书店的销售额。利用关联规则挖掘也可以帮 助书店管理者进行决策和管理,减少决策的风险。 因此关联规则挖掘在网上书店中起着重要作用。 5结束语 关联规则挖掘用于从大量客户数据中揭示项 集之间的有趣关联或相关联系。本文首先介绍了 Web日志挖掘的过程,接着对关联规则的基本概念 和对挖掘频繁项集的FP—growth算法进行了分析,最 2766 科学技术与工程 lO卷 后将FP-growth算法应用在网上书店中,实现对客户 3 郭崇慧,田凤占.数据挖掘教程.北京:清华大学出版社,20O6: 数据的关联规则挖掘。FP.growth算法与经典的 179一l80 Apfiofi算法相比,去除了候选项集和重复扫描事务 。 WittenIH,Frank E.数据挖掘实用机器学习技术.董琳,邱 数据库的步骤,它的性能也明显高于Apriori算法。 泉,于晓峰,等译.机械工业出版社,2006:241—243 梁循.数据挖掘算法与应用.北京:北京大学出版社,20O6: 本文所讨论的方法和思路在其它比如超市等方面 1--39 ’ 有一定的借鉴意义,但由于Web日志挖掘本身的复 6 Ning Pang,Steinbach M,Kumar V.数据挖掘导论.范 明,范宏 杂性,仍有许多有待于改进的地方,比如在处理大 建,等译.北京:人民邮电出版社,2007:2—_6 项集的数量,并且由原数据库得到的FP.tree的分支 Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in large databases.Proceedings of the ACM SIGMOD 很多时,如何提高算法的时间效率。 Conference on Management of data,1993:20r7—_2l6 参考文 献 。 冯志新,钟诚.基于FP-tree的最大频繁模式挖掘算法.计算机 工程,2004;3O(11):l23—124 1李雄飞.数据挖掘与知识发现.北京:高等教育出版社,2003: 9 Wang K,Tang L,Hart J,et a1.Top down FP-Growth for association 97— 8 rule mining.Paciifc Asia Conference OIl【Knowledge Discovery and 2高哲,魏海平,王福威,等.基于Web日志挖掘的Web文档聚 Data Mining,2002;334删 类.计算机工程与设计,2008;18:4708—47l0 The Research and Application of Data Mining Based on Web Log ZHOU Jin—zhi,LIU Yang,YU Chen—yun (School of Computer and Communication Engineering,Liaoning University of Petroleum&Chemical Technology,Fushun 113 ̄1,P.R.China) [Abstract]Web log mining is very important research field and research direction in the Web data mining.The process of Web log mining is ifrst introduced,and then introduced association rules and FP—growth algorihtm,final- ly applies FP—growth algorithm of association rules to a Oil—line bookshop.Mining associationrules of client data is .realized. [Key words]Web log mining association rules FP—growth algorithm Oil—line bookshop 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- awee.cn 版权所有 湘ICP备2023022495号-5

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务