特性
下面我们按照CRISP-DM过程描述Clementine的主要特性。(红色部分为Clementine12.0较Clementine10.1新增功能)
商业理解
Clementine的可视化操作界面使得您的企业可以更容易地把业务知识应用高数据挖掘项目中。
此外,使用针对特定商业目标的Clementine应用模板(CATs),您可以在数据挖掘工作中使用
成熟的、最佳的方法。CATs使用的样本数据可以以平面文件或者关系型数据库表的形式安装。
- 客户关系管理(CRM) CAT*
- 电信 CAT*
- 欺诈探测 CAT*
- 微阵列 CAT*
- 网页挖掘 CAT*(需要购买WebMining for Clementine)
数据理解
- 使用Clementine的数据审核节点获取对数据的初步认识
- 通过图形、统计汇总或数据质量评估快速浏览数据
- 创建基本的图表类型,如直方图、分布图、线形图和点状图
- 在图形面板节点中通过自动帮助方式创建比过去更多的基本图形及高级图形
- 通过表格定制节点轻松创建复杂的交叉表
- 编辑图表使分析结果交流变得更容易
- 通过可视化联接技术分析数据的相关性
- 与数据可视化互动,可在图形中选择某个区域或部分数据,然后对选择的数据部分再进行观
察或在后续分析中使用这些信息
- 在Clementine中直接使用SPSS统计分析、图形以及报表功能
数据准备
访问数据
–结构化 (表格) 数据
- 通过SPSSDataAccess Pack访问支持ODBC的数据源,包括IBMDB2,Oracle,Microsoft SQLServer,Informix和Sybase数据库
- 导入用分隔符分隔和固定宽度的文件,任何SPSS的文件,SAS 6,7,8, 和9文件
- 在读取Excel文件时,可以限定工作表和数据范围
–非结构化 (原文) 数据
- 使用TextMining forClementine*自动从任何类型的文本中提取各种概念
–网站数据
- 使用WebMiningfor Clementine*自动从网络日志中提取网站上的事件
–调查数据
- 直接访问存储在Dimensions数据模型或Dimensions*产品中的数据文件
–数据输出
- 可以输出为分隔符分隔,固定宽度的文件,所有主流数据库数据,Microsoft Excel,SPSS,和SAS6,7,8和9文件
- 使用Excel导出节点导出成XLS格式
- 为市场调研输出数据到Dimensions*中
各种数据清洗选项
–移出或者替换无效数据
–使用预测模型自动填充缺失值
–自动侦测及处理异常值或极值
数据处理
–完整的记录和字段操作,包括:
- 字段过滤、命名、导出、分段、重新分类、值填充以及字段重排
- 对记录进行选择、抽样(包括簇与分层抽样)、合并(内连接、完全外连接、部分外连接以及反连接)和追求;排序、聚合和平衡
- 数据重新结构化,包括转置
- 分段节点能够根据预测值对数字值进行最优分段
- 使用新的字符串函数:字符串创建、取子字符串、替换、查询和匹配、空格移除以及截断
- 使用时间区间节点为时间序列分析做准备
–将数据拆分成训练、测试和验证集
–对多个变量自动进行数据转换
可视化的标准数据转换
–数据转换在Clementine中直接使用SPSS数据管理和转换功能
- RFM评分:对客户交易进行汇总,生成与最近交易日期、交易频度以及交易金额相关的评分,并对这些评分进行组合,从而完成完整的RFM分析过程
建模
提供了非常广泛的数据挖掘算法以及更多高级功能,从而帮助企业从数据中得到尽可能最优的结果
- 提供交互式建模、方程式浏览器及专业统计输出
- 图形化显示不同变量对预测目标影响的重要程度
- 用元建模合并模型
–合并多个模型或者将一个模型的预测应用于建立另外一个模型
–模型合并节点能够自动整合预测值从而优化预测结果的准确性及稳定性
- 用PMML导入其它工具生成的模型,例如AnswerTree和SPSSforWindows
- 使用Clementine扩展性架构客户化算法
Clementine提供的数据挖掘算法包括:
- C&RT、CHAID&QUEST—决策树算法 包括交互式决策树创建
- 决策列表—交互式业务规则创建算法能够让分析人员把业务知识集成在预测模型中
- C5.0决策树及规则集算法
- 神经网络—向后传播的多层感知器以及径向基函数
- 支持向量机—为宽表提供更准确的分析结果
- 贝叶斯网络—可视化的概率模型
- 二元及多元回归
- 自学习响应模型—增量学习的贝因斯模型
- 线性回归—最佳拟和线性方程式模型
- 广义线性模型(GLM)
- Cox回归—分析某类事件的发展趋势
- 时间序列—自动生成时间序列预测模型
- K-means—聚类
- Kohonen—神经元网络聚类算法
- 两步聚类—自动选择合适的聚类数
- 异常侦测—基于聚类算法侦测那些异常记录
- 主成分/因子分析—通过主成分/因子分析对数据降维
- GRI—规则归纳相关性探索算法
- Apriori—提供高级评估功能的演绎关联算法
- CARMA—提供多后项的关联算法
- 时序分析—针对顺序相关性分析的时序关联算法
- 二元分类器和数值型预测器—自动化创建及评估多个模型
评估
使用提升、收益、利润和响应图表可以方便地评估模型
–使用一步到位的流程评估多个模型,缩短项目用时
–定义命中和得分条件来评估模型的性能
使用一致性矩阵以及其它自动评估工具分析模型的总体精度
使用倾向性评分来简化部署及多模型比较
部署
Clementine提供多种部署方式从而满足企业不同的需要。
ClementineSolutionPublisher(可选*)
–自动导出所有操作,包括数据访问、数据处理、文本挖掘、模型评分(包括模型组合)以及后加工过程
–使用runtime在给定的平台上执行图像文件
将生成的模型导出为SQL或PMML(针对预测模型的标准XML文件)
自动把Clementine数据流导入到SPSS企业级预测服务器中
–合并导出的Clementine数据流以及隐含业务规则的预测模型,从而优化企业运营过程
Cleo(可选*)
–基于网页的快速模型部署
–通过可定制的浏览器界面,允许多个用户同时访问并立即评估单个记录、多个记录甚至整个数据库
Clementine批处理
–在用户界面之外自动进行工作,使用Clementine批处理模式您可以:
- 从其它应用或者调度系统中自动启动Clementine流程
- 生成编码密码
- 使用命令行执行Clementine的数据挖掘过程
脚本
–自动执行命令行脚本或者与Clementine流程相关的脚本,以自动执行用户界面重复工作。脚本通常执行与鼠标和键盘同样的工作。
- 使用工具栏中的图标执行Clementine流中选定的行、超级节点或者独立的脚本
- 用单独的脚本更新流参数
将生成的模型导出为PMML2.1
–对数据库内对数据进行评分,减少在客户端代价昂贵的数据转移和计算工作
–将ClementinePMML模型部署到IBM DB2 Intelligent Miner™ 可视化和Intelligent Miner打分中
使用数据库的大批量输入程序
–在数据导出时,使用为每个特定数据库定制的大批量输入程序。您可以调整各种选项,包括为使用ODBC的载入进程确定行或列的约束条件,以及为数据库中执行的批处理调整其规模。
在线留言
尊敬的客户朋友,如您有任何意见建议,请通过下表反馈给我们,我们会尽快与您联系。
|