Python数据分析与挖掘实战
上QQ阅读APP看书,第一时间看更新

1.4 常用数据挖掘工具

数据挖掘是一个反复探索的过程,只有将数据挖掘工具提供的技术和实施经验与企业的业务逻辑和需求紧密结合,并在实施过程中不断地磨合,才能取得好的效果。常用的几种数据挖掘建模工具如下。

1.Python

Python是一种面向对象的解释型计算机程序设计语言,它拥有高效的高级数据结构,并且能够用简单而又高效的方式进行面向对象编程。但是Python并不提供一个专门的数据挖掘环境,而是提供数据挖掘的众多扩展库,如NumPy、SciPy和Matplotlib。这3个十分经典的科学计算扩展库分别为 Python 提供了快速数组处理、数值运算和绘图功能。此外scikit-learn 库中包含很多分类器的实现及聚类相关的算法。有了这些扩展库,Python 成为了数据挖掘的常用语言。

2.IBM SPSS Modeler

IBM SPSS Modeler原名Clementine,其2009年被IBM收购,之后IBM对其功能和性能进行了大幅度改进和提升。它封装了先进的统计学和数据挖掘技术,以获得预测知识并将相应的决策方案部署到现有的业务系统和业务过程中,从而提高企业的效益。IBM SPSS Modeler拥有直观的操作界面、自动化的数据准备和成熟的预测分析模型,结合商业技术可以快速建立预测模型。

3.KNIME

KNIME(Konstanz Information Miner)是基于Java开发的,可以扩展使用Weka中的挖掘算法。KNIME采用类似数据流(Data Flow)的方式来建立分析和挖掘流程。挖掘流程由一系列功能节点组成,每个节点有输入/输出端口,用于接收数据或模型、导出结果。

4.RapidMiner

RapidMiner也叫YALE(Yet Another Learning Environment),它提供图形化界面,采用类似Windows资源管理器中的树状结构来组织分析组件,树上每个节点表示不同的运算符(Operator)。RapidMiner中提供了大量的运算符,包括数据处理、变换、探索、建模、评估等环节。RapidMiner是用Java开发的,基于Weka来进行构建,可以调用Weka中的各种分析组件。RapidMiner有拓展的套件Radoop,可以与Hadoop集成,并在Hadoop集群上运行任务。

5.TipDM开源数据挖掘建模平台

TipDM开源数据挖掘建模平台是基于Python引擎、用于数据挖掘建模的开源平台。该平台采用B/S结构,用户不需要下载客户端,可通过浏览器对其进行访问。平台支持数据挖掘流程所需的主要过程:数据探索(相关性分析、主成分分析、周期性分析等);数据预处理(特征构造、记录选择、缺失值处理等);分析与建模(聚类模型、分类模型、回归模型等);模型评价(R-Squared、混淆矩阵、ROC曲线等)。用户可在没有Python编程基础的情况下,通过拖曳的方式进行操作,将数据输入/输出、数据预处理、分析与建模、模型评价等环节通过流程化的方式进行连接,以达到数据分析挖掘的目的。