关于网友关注网站内容的关联度分析方面的思考

最近关于数据挖掘方面的操作过程当中,碰到了如标题所说的那样寻求用户的关注情况数据挖掘分析。
首先我把简单的图片放上来:
关于网友关注网站内容的关联度分析方面的思考
这样的数据挖掘模型建立的目标是要对公司商务人员给一个很好数据挖掘决策支持,数据来源是网络访问用产生的游客朋友们的历史记录。
说到数据挖掘,肯定会是海量数据了。对海量数据的数据挖掘能力我通过sql server 2005 做了一些测试,不如我想象的那么好。
不管怎样,我要对这个模型的建立要有验证过程。我用某网站的按天留下来的用户访问日志上(大概一天有上百万条记录),建立一个如上图所示完整流程。
[1]游客:网站*问的用户,给他们一个唯一的cookie id标示;
[2]用户访问Weblog日志记录:通用的方式,使用javascript嵌套。能和其他系统独立,又能独立出挖掘系统的夸网站采集过程;
[3]获取url对应的主要关键词:对网页的关键词提取方式有很多种算法,我在测试的时候,使用了一个特殊化处理方式,简化的算法,提高准确度。
[4]获取用户一段时间内关注的关键词:从[1]、[2]、[3]关联上能够得到每一个cookie id 关注的关键词排序(kw1(29次关注)、kw2(23次)、kw3(10次)、。。。kwn)。
表格形式:
userKeyword( id ,userid, keyword ,accesscount)(嵌套表)
当然,要有一个用户在一段时间内关注的用户记录表
userlog(id ,cookieid ,accesstime )(主表)
[5]清理数据:对于当前情况来看,用户这段时间很好浏览,或者少于4次(自控控制这个参数),视为挖掘模型中的无效数据,清理相关数据。用户浏览太多,或者大于100(自行定义),视为一端时间异常情况,抛出清理相关数据。没有cookieid的无法做关联用户操作,清理这些相关数据。这就是一项很有意义,且不可获取的洗礼工作了。
[6]进入关联度分析模型:关联度分析模型在数据挖掘当中基本模型,很好建立。我用SQL Server Business Intelligence Development Studio执行这个操作,生成的cube。
[7]关联分析结果数据导入到关系型数据库:从[6] cube 中,通过mdx query做了循环访问,并把数据填写到关系型数据表格当中。
[8]查看用户关注的关键词关联度数据:对于已经存在关系表格数据,查询几乎是每一个程序擅长的事情了。
通过上面的流程,做一个比较简单的用户访问次数上关注的关键词进行了分析挖掘,得到用户关注关键词之间的关联度情况数据。