求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Modeler   Code  
会员   
 
  
 
 
     
   
分享到
数据挖掘学习
 
作者 Derrick Harris,火龙果软件    发布于 2013-10-30
 

01 - 数据挖掘工具调研

主要集中到weka和KNIME两个工具上

1.weka支持分析模块的直接API调用,这样可以方便集成到项目中。同时,提供GUI,可以感性的分析和比较数据。

2.KNIME貌似无法直接调用分析API,但是易用性和清爽的界面比weka好,也可以结合R和weka使用

由于偏实际应用,并且希望可以将分析过程集成到系统中,对GUI没有太多要求,所以目前决定使用weka作为数据挖掘工具。

02 - 使用weka的kmeans聚类分析

本文目的

weka是一套使用java开发的数据挖掘工具集合,提供GUI/CLI界面和Java API使用方式。所以,在学习和解决数据挖掘问题时,可以先尝试用weka的GUI或CLI做出合适的分析,找到适当的算法,然后在将此算法集成到自己的项目中。最近在的项目中遇到了文本聚类的问题,kmeans是一种常见的聚类算法,这里先拿此算法和示例数据做一些实验,以便熟悉weka的界面操作。

什么是kmeans

详细的描述,参见这里。通俗的解释,就是将K个点,称为中心点(K需要预先给出),随机的放到数据集中,然后针对数据集中的每个点计算与这K个中心点的距离,找到每个点最近的中心点。然后更新这K个中心点,使每个中心点是最近的点的平均中心点。如此循环,直到这K个点的位置不能再移动,得到K个聚类。

数据集

weka定义了自己的数据集文件格式,以.arrf结尾,整体感觉就是一张表格,主要分为四个部分(如下图):

1.注释,comment

2.数据集名称,relation

3.属性,attribute,相当于列

4.数据,每行是一个实例,每一行中的每个字段用逗号隔开,字符串在引号中间,也可以是数字或枚举

获取并安装weka

到官网上获取weka,如果本机有jre,那么直接下载weka安装包,如果没有jre,又不想手动安装java,可以安装带有jre的weka,后者会比前者大。

获取后,直接双击,然后一步步OK,就行,最后会在桌面上生成小图标image

执行Kmeans聚类操作

双击小图标,弹出如下对话框,

选择“Explorer”,如果以后高级用户,可以选择最后的“Simple CLI”,直接命令行操作。

弹出如下对话框

这里,需要实验数据集,点击这里下载,然后点击“open file …”,导入刚刚下载的数据集,出现如下界面,说明导入OK。

现在,选取最上面的第三个tab“Cluster”,进入聚类分析主界面

点击“Choose”按钮,选择聚类算法。这里先选择了SimpleKMeans,单机“Choose”旁边的输入框,可以设置算法参数

这里需要将”numClusters”修改为一个合适的值,其他保留默认即可。

记下来,点击开始,weka就开会帮你算出结果,结果会以文件的方式存储在Result List中,方便后面分析。右边是计算结果。

结果可视化

Explorer主界面最上面最后一个tab是数据结果可视化,目前只能支持2纬可视化,所以个人觉得比较鸡肋,因为一般数据纬度都为大于2纬。

具体如何使用可视化,可以参见最后的链接。

以上就是利用weka进行kmeans聚类操作的过程。

03 - 统计工具R学习和使用小结

本文目的

最近在使用R做一些文本聚类方面的计算,感觉R还是很好用的,特别是R有很多计算扩展,可以方便的运用这些扩展和数据进行试验。所以,在此记录一些使用心得,作为备忘。

R是什么

R是一个开源软件,起初主要用于数学统计计算。通过R脚本与R环境交互,脚本中内置了许多统计相关的函数,使用十分方便。但是,最近几年R被广泛使用到了数据挖掘领域,据 Rexer Analytics 5th Annual Data Miner Survey - 2011调查显示,有47%的数据挖掘从业人员使用R作为主要工具。

R有一个活跃的社区CRAN(The Comprehensive R Archive Network),此社区提供了大概2000个R扩展,文档和不同平台(Linux, Mac和Windwos)的版本。即使没有找到符合要求的扩展,也可以根据R的标准,编写自己的扩展。R提供API接口,可以在程序中使用R相关的模块。

总而言之,R非常灵活。

安装R(windows)

点击这里,下载R的windows版本。双击安装文件,然后一路OK,就可以成功安装R。安装好后的目录结构如下:

安装R扩展(windows)

R有许多扩展,安装也很方便,R的安装目录下面有个library,此目录就是存放R扩展的目录,随R安装时,默认会安装一些扩展。

如果需要添加新的扩展,直接去CRAN下载相关平台的扩展,将解压后的文件直接拷到library目录下即可,此方法是手动安装,主要适用于网络受限制的情况,比如在公司内网,端口被防火墙阻挡了,无法连接到CRAN货相关镜像。但是此方法有个弊端:需要自己手动去下载所有依赖扩展,当依赖较多时,就比较麻烦。比较方便的方法是直接通过R主菜单上的“程序包->安装程序包”自动安装扩展,系统会自动下载相关依赖,很方便。

R自助小结

R有许多函数,忘记函数使用方法和参数很正常,关键是要知道如何找到相关资料。可以在R命令行中输入“hlep(function_name)”的方式,查看任何函数的详细说明。当然,更多帮助,可以通过R主菜单的帮助下获得,如下图

这里面的资料 R Language Definiton 详细的描述了R的基本语法。当然使用google或bing等E文搜素引擎寻找R相关资料也会事半功倍。

相关文章 相关文档 相关视频



我们该如何设计数据库
数据库设计经验谈
数据库设计过程
数据库编程总结
数据库性能调优技巧
数据库性能调整
数据库性能优化讲座
数据库系统性能调优系列
高性能数据库设计与优化
高级数据库架构师
数据仓库和数据挖掘技术
Hadoop原理、部署与性能调优
 
分享到
 
 
     


MySQL索引背后的数据结构
MySQL性能调优与架构设计
SQL Server数据库备份与恢复
让数据库飞起来 10大DB2优化
oracle的临时表空间写满磁盘
数据库的跨平台设计
更多...   


并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理


GE 区块链技术与实现培训
航天科工某子公司 Nodejs高级应用开发
中盛益华 卓越管理者必须具备的五项能力
某信息技术公司 Python培训
某博彩IT系统厂商 易用性测试与评估
中国邮储银行 测试成熟度模型集成(TMMI)
中物院 产品经理与产品管理
更多...