01
- 数据挖掘工具调研
主要集中到weka和KNIME两个工具上
1.weka支持分析模块的直接API调用,这样可以方便集成到项目中。同时,提供GUI,可以感性的分析和比较数据。
2.KNIME貌似无法直接调用分析API,但是易用性和清爽的界面比weka好,也可以结合R和weka使用
由于偏实际应用,并且希望可以将分析过程集成到系统中,对GUI没有太多要求,所以目前决定使用weka作为数据挖掘工具。
02 - 使用weka的kmeans聚类分析
本文目的
weka是一套使用java开发的数据挖掘工具集合,提供GUI/CLI界面和Java
API使用方式。所以,在学习和解决数据挖掘问题时,可以先尝试用weka的GUI或CLI做出合适的分析,找到适当的算法,然后在将此算法集成到自己的项目中。最近在的项目中遇到了文本聚类的问题,kmeans是一种常见的聚类算法,这里先拿此算法和示例数据做一些实验,以便熟悉weka的界面操作。
什么是kmeans
详细的描述,参见这里。通俗的解释,就是将K个点,称为中心点(K需要预先给出),随机的放到数据集中,然后针对数据集中的每个点计算与这K个中心点的距离,找到每个点最近的中心点。然后更新这K个中心点,使每个中心点是最近的点的平均中心点。如此循环,直到这K个点的位置不能再移动,得到K个聚类。
数据集
weka定义了自己的数据集文件格式,以.arrf结尾,整体感觉就是一张表格,主要分为四个部分(如下图):
1.注释,comment
2.数据集名称,relation
3.属性,attribute,相当于列
4.数据,每行是一个实例,每一行中的每个字段用逗号隔开,字符串在引号中间,也可以是数字或枚举
获取并安装weka
到官网上获取weka,如果本机有jre,那么直接下载weka安装包,如果没有jre,又不想手动安装java,可以安装带有jre的weka,后者会比前者大。
获取后,直接双击,然后一步步OK,就行,最后会在桌面上生成小图标image
执行Kmeans聚类操作
双击小图标,弹出如下对话框,
选择“Explorer”,如果以后高级用户,可以选择最后的“Simple CLI”,直接命令行操作。
弹出如下对话框
这里,需要实验数据集,点击这里下载,然后点击“open file …”,导入刚刚下载的数据集,出现如下界面,说明导入OK。
现在,选取最上面的第三个tab“Cluster”,进入聚类分析主界面
点击“Choose”按钮,选择聚类算法。这里先选择了SimpleKMeans,单机“Choose”旁边的输入框,可以设置算法参数
这里需要将”numClusters”修改为一个合适的值,其他保留默认即可。
记下来,点击开始,weka就开会帮你算出结果,结果会以文件的方式存储在Result
List中,方便后面分析。右边是计算结果。
结果可视化
Explorer主界面最上面最后一个tab是数据结果可视化,目前只能支持2纬可视化,所以个人觉得比较鸡肋,因为一般数据纬度都为大于2纬。
具体如何使用可视化,可以参见最后的链接。
以上就是利用weka进行kmeans聚类操作的过程。
03 - 统计工具R学习和使用小结
本文目的
最近在使用R做一些文本聚类方面的计算,感觉R还是很好用的,特别是R有很多计算扩展,可以方便的运用这些扩展和数据进行试验。所以,在此记录一些使用心得,作为备忘。
R是什么
R是一个开源软件,起初主要用于数学统计计算。通过R脚本与R环境交互,脚本中内置了许多统计相关的函数,使用十分方便。但是,最近几年R被广泛使用到了数据挖掘领域,据
Rexer Analytics 5th Annual Data Miner Survey - 2011调查显示,有47%的数据挖掘从业人员使用R作为主要工具。
R有一个活跃的社区CRAN(The Comprehensive R Archive Network),此社区提供了大概2000个R扩展,文档和不同平台(Linux,
Mac和Windwos)的版本。即使没有找到符合要求的扩展,也可以根据R的标准,编写自己的扩展。R提供API接口,可以在程序中使用R相关的模块。
总而言之,R非常灵活。
安装R(windows)
点击这里,下载R的windows版本。双击安装文件,然后一路OK,就可以成功安装R。安装好后的目录结构如下:
安装R扩展(windows)
R有许多扩展,安装也很方便,R的安装目录下面有个library,此目录就是存放R扩展的目录,随R安装时,默认会安装一些扩展。
如果需要添加新的扩展,直接去CRAN下载相关平台的扩展,将解压后的文件直接拷到library目录下即可,此方法是手动安装,主要适用于网络受限制的情况,比如在公司内网,端口被防火墙阻挡了,无法连接到CRAN货相关镜像。但是此方法有个弊端:需要自己手动去下载所有依赖扩展,当依赖较多时,就比较麻烦。比较方便的方法是直接通过R主菜单上的“程序包->安装程序包”自动安装扩展,系统会自动下载相关依赖,很方便。
R自助小结
R有许多函数,忘记函数使用方法和参数很正常,关键是要知道如何找到相关资料。可以在R命令行中输入“hlep(function_name)”的方式,查看任何函数的详细说明。当然,更多帮助,可以通过R主菜单的帮助下获得,如下图
这里面的资料 R Language Definiton 详细的描述了R的基本语法。当然使用google或bing等E文搜素引擎寻找R相关资料也会事半功倍。
|