注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

零售创新,创新那些事儿,SPSS,VBA

零售创新

 
 
 

日志

 
 
关于我

新浪微博,零售创新 研究经理,数据分析师 希望和市场研究和零售业的同事共同进步! 本博客发表的都是免费或试用的资料,如果有版权问题请发邮件wangli12a@163.com联系删除。 spss excel vba blog

网易考拉推荐

【转载】Tree analysis  

2012-06-28 16:32:23|  分类: spss学习 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
本文转载自南半球《Tree analysis》

建立得分模型

 

分类树过程最实用的特征和最有力的功能之一就是有从所建模型中提取数据到其他数据文件中参与预测的能力。例如,基于包含人口统计信息和车辆购买价格信息的数据文件,我们能够建立一个模型,用于预测有相似人口统计特征的人中有多少人可能购买新车 ——然后将这个模型用于有人口统计信息但没有车辆购买信息的数据文件。

一、建立模型

从菜单中选择:

  Analyze

    Classify

      Tree...

选择  Price of primary vehicle 作为因变量。

选择所有剩余变量作为自变量。(过程会自动排除对最终模型没有显著性贡献的变量。)

在生成方法下来列表框中选择 CRT(分类和回归树。适用于二元变量分类)。

点击 Output。

点击  Rules 页。

选择 (打勾) Generate classification rules.

Syntax栏中选择  SPSS。

Type栏中选择Assign values to cases.

在Export rules to a file 中打勾并输入文件名和路径。

注意:文件名和路径必须写下来,因为不久你会用到这个文件。如果不包括路径,你就不会知道文件保存在什么地方。可以使用浏览按钮寻找(有效的)路径。

二、评估模型

在应用模型到其他数据文件之前,你可能想证实使用原始数据建立的模型合理吗。

(1)    模型汇总

模型汇总表显示只有三个自变量对最终模型有显著性的贡献:  income, age, 和education。如果你想在其它数据中使用这个模型,知道这些非常重要。因为这个模型中使用的自变量必须出现在其它数据文件中。   

汇总表也显示树模型自身可能比较复杂因为它有29个节点15个端点。  如果模型可信这根本就无所谓,使用实际的模型比简单的模型更加容易解释或描述。当然,从实际考虑,你可能不希望模型里有太多的自变量。本例中,这不是问题因为只有三个自变量包含在最终模型中。

(2)    树形图

树形图有许多节点以致立刻在目测的范围内看到节点信息全貌很困难。使用tree map可以解决这个问题。

在Viewer 窗口双击树,打开树编辑器。从树编辑器菜单中选择:

  View

    Tree Map


tree map 显示完整的树,在窗口四边拖动可以改变窗口的大小,图形按照窗口的大小自动显示完整的图形。
tree map 中红色区域是当前显示的树。
可以使用 tree map 浏览树和选择节点。

对连续因变量,每个节点显示因变量的均值和标准差。根节点显示购车价格的总平均值约为  29.9 (千美元), 标准差为 21.6.


节点1表示收入小于75(千美元)的购买者,购车价格平均只有 18.7。


与此相反,在节点2,收入大于75的购买者,购车均价为60.9。

进一步研究显示年龄和教育与购车价格有相关性,但是目前我们主要关心模型的实际应用而不是它的成分的细节检查。 

 

(3)    风险估计

到目前为止提供不出什么结果证明模型如何好。模型性能的一个指示因子是风险估计。对连续因变量而言,风险估计是节点内方差的度量,单独看它不能告诉你多少信息。方差小表示模型较好,但是方差大小是相对观念,例如,如果价格是按照个位而不是千位计算,风险估计将相差上千倍。

要提供对连续因变量风险估计有意义的解释还需要做一点工作:


总方差等于节点内(误差)方差加上节点间(已解释)方差。
节点内方差是风险估计值:68.485.


总方差是没有考虑自变量前因变量的方差,它在根节点上。  
在根节点的标准方差显示是 21.576;所以总方差是这个值的平方465.524.


未解释的方差是 68.485/465.524 = 0.147。
由模型解释的方差是 1–0.147 = 0.853,或 85.3%,它表示这是个相当不错的模型。(类似的解释是分类因变量的总正确分类率)。

三、应用模型到其它数据集

 

已经确定模型相当不错,现在可以应用模型到包含年龄,收入和教育变量的其它数据文件中,并产生一个新变量,它表示消费者购车的预测价格。

这种处理手法就是常常提到的得分模型。

在生成模型时,我们定义了指定个案保存在文本文件值的“规则” —用SPSS命令句法形式。现在我们在那个文件中使用命令产生另一个数据文件的得分。

SPSS安装文件夹 \sample_files 下打开数据文件  tree_score_car.sav 。

接下来从SPSS菜单中选择:

  File

    New

      Syntax

在命令句法窗口中键入:

INSERT FILE= 'c:\temp\car_scores.sps'.

如果使用不同的文件名或路径,可以做适当的改变。

有两个新变量增加到数据文件中:


nod_001 包含按照模型预测的端点数。


pre_001 包含购车价格的预测值。

因为我们需要些规则为端点指定值,可能的预测值数就是与端点相同的数。例如,预测节点数为10的个案都有相同的购车价格预测值30.56。 这同原始模型中端点10的均值不太一致。

 

虽然你将模型用在因变量值未知的数据文件中,在这个例子中,我们使用实际包含哪些信息的数据文件以便你能比较模型预测值和实际值。

从菜单中选择:

  Analyze

    Correlate

      Bivariate...

选择 Price of primary vehicle 和 pre_001。点击 OK 运行该过程。 

相关系数0.92 表示在实际购车价与预测购车价间存在很高的正相关,它也表示模型拟和良好。

你能使用分类树过程建立模型然后应用到其它数据文件中预测结果。目标数据文件必须有与在最终模型自变量有相同名的变量,包括相同的度量单位和相同的缺失值。然而,排除在最终模型外的即不是因变量又不是自变量需要出现在目标数据文件中。

 

  评论这张
 
阅读(239)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017