下面是小编为大家整理的课,程,实,验,报,告,供大家参考。
课 程 实 验 报 告
专
业
年
2012 年
课 程 名 称
应用多元统计分析
指 导 教 师
***
学 生 姓 名
**
学
号
*************** 实 验 日 期
**********
实 验 地 点
实验室
实 验 成 绩
教务处制
2013
年 1 1 月
12 日
实验项
目名称
系统聚类分析与主成分分析的上机实验
实验目的
SPSS 软件中 factor analysis 的计算机操作及结果分析,使学生能熟练应用计算机
及要求
软件进行聚类分析与主成分分析与结果分析,培养实际应用能力 。
题目:
实
某地区 35 个城市 2004 年的 7 项经济统计指标数据(见附表)
(1)试用最短距离聚类法对35个城市综合实力进行系统聚类分析,验
并画出聚类谱系图。
(2)试用主成分分析法对 35 个城市 7 项经济指标进行主成分分析,内
并分析其综合实力。
注:对输出结果进行分析!
容
要求:
将 SPSS 软件的分析过程的关键步骤截图说明,需要计算
的地方要写出详细计算步骤。
实
聚类分析:
1.选择菜单项:分析分类系统聚类分析,在系统聚类分析对话 验
框 中 将“城市编号”变量选入“标注个案(C)”中,将其他变量选入“变量框”中,如图一所 步 步
在“分群”单选框中选中“个案”,表示进行的是 Q 型聚类。在“输出”复选框中选中“统计量” 骤 骤
和“图”,表示要输出的结果包含以上两项。
图一:
2. 单击“统计量(S)”按钮,在“系统聚类分析:统计量”对话框中选择“合并进程表”、“相似性矩阵”,表示输出结果将包括这两项内容。
3.单击“绘制(T)”按钮,在“系统聚类分析:图”对话框中选择“树状图”、“冰柱”,表示输出的结果将包括谱系聚类图(树状)以及冰柱图(垂直)。
4.单击“方法(M)”按钮,弹出“系统聚类分析:方法”对话框。“聚类方法(M)”选项条中可选项包括的几种方法,本实验中选择“组间联接”:“度量标准-区间(N)”选项条中可选项包括的几种度量方法,本实验中选择“平方 Euclidean 距离”:
“转换值-标准化(S)”选项条中可选项包括几种将原始数据标准化的方法,本实验中选择“全局从 0 到 1”。
输出结果 分析:
图二显示的是用平方 Euclidean 距离计算的近似矩阵表,其实质是一个不相似矩阵,其中的数值表示各个样本之间的相似系数,数值越大,表示两样本距离越大。
图二
近似矩阵表
图三显示的是聚类表,该表反映的是每一阶段聚类的结果,系数表示的是“聚合系数”,第 2 列和第 3 列表示的是聚合的类。
图三 聚类表 阶 群集组合 系数 首次出现阶群集 下一阶 群集 1 群集 2 群集 1 群集 2 1 17 25 .004 0 0 8 2 5 29 .004 0 0 8 3 33 34 .007 0 0 12 4 26 35 .008 0 0 22 5 30 31 .011 0 0 7 6 8 18 .012 0 0 15 7 20 30 .015 0 5 13
图 四是冰柱图,是反映样本聚类情况的图,如果按照设定的类数,在那类数的行上从左到右就可以找到各类所包含的样本。
图四
8 5 17 .016 2 1 18 9 16 32 .016 0 0 12 10 6 21 .023 0 0 17 11 14 22 .026 0 0 13 12 16 33 .027 9 3 18 13 14 20 .038 11 7 23 14 13 15 .039 0 0 21 15 8 12 .042 6 0 19 16 19 28 .046 0 0 20 17 6 11 .048 10 0 26 18 5 16 .048 8 12 23 19 7 8 .051 0 15 20 20 7 19 .060 19 16 21 21 7 13 .083 20 14 24 22 4 26 .090 0 4 30 23 5 14 .101 18 13 27 24 7 9 .114 21 0 25 25 3 7 .155 0 24 27 26 2 6 .168 0 17 28 27 3 5 .263 25 23 28 28 2 3 .280 26 27 31 29 1 23 .400 0 0 32 30 4 24 .429 22 0 31 31 2 4 .578 28 30 33 32 1 10 .817 29 0 34 33 2 27 1.677 31 0 34 34 1 2 2.211 32 33 0
图五是用“组间联接”聚类法生成的树状聚类图 。
图五
从聚类分析谱系图可以看出,在不同的聚类标准下,聚类结果不同:
当距离为 0 时,每个样本为单独的一类;当距离标准逐渐放大,35个城市被一次聚类。当距离为 5 时,样本被聚为 6 类;当距离为 10时,样本被聚为 3 类;当距离为 15 时,样本被聚为 3 类;当距离为 20 时,样本被聚为 2 类;当距离为 25 时,样本被聚为 1 类
主成分分析 :
1. 选择菜单项:分析描述统计描述,在描述性对话框中将变量选入变量框中, 如图一所示,点“将标准化得分另存为变量(Z)”,点击确定。
图一
得到图二,描述统计量
图二
描述统计量
N 极小值 极大值 均值 标准差 总人口 35 54.38 3072.34 614.8580 530.21897 非农业人口比例 35 .21 .84 .4800 .16494 农业总产值 35 4.48 416.88 121.1574 94.67638 工业总产值 35 66.12 5452.91 840.7317 1017.73823 地方财政预算内收 35 4.91 431.85 66.7606 84.66236 城乡居民年底储蓄 35 81.41 2680.66 646.6091 622.47013 在岗职工工资总额 35 17.86 577.33 118.4957 127.39093 有效的 N (列表状态)
35
2.选择菜单项:分析降维因子分析,在因子分析对话框中,将以字母Z开头的变量选入变量框内,如图三所示 图三
图四 公因子方差
初始 提取 总人口 1.000 .946 非农业人口比例 1.000 .989 农业总产值 1.000 .915 工业总产值 1.000 .909 地方财政预算内收 1.000 .976 城乡居民年底储蓄 1.000 .939 在岗职工工资总额 1.000 .954 提取方法:主成份分析。
图四给出了 8 个原始变量的变量共同度。变量共同度反映每个变量对提取出的所有公共因子的依赖程度。图四可以看出,所有的变量共同度都在 90%以上,说明提取的因子已经包含了原始变量的大部分信息,因子提取的效果比较理想。
图五
图五给出了因子的碎石图。图中横坐标为因子的序号,纵坐标为相应特征根的值。从图中可以看到,前 3 个因子的特征根普遍较高,连接成了陡峭的折线,而第 4 个因子之后的特征根普遍较低,连接成了平缓的折线,这进一步说明提取 3 个因子是比较适当的。
图六
成份矩阵a a
成份 1 2 3 总人口 .613 -.686 .316 非农业人口比例 .212 .866 .442 农业总产值 .549 -.775 .117 工业总产值 .910 .210 -.193 地方财政预算内收 .954 .234 -.103 城乡居民年底储蓄 .963 .096 -.040 在岗职工工资总额 .962 .162 -.042 提取方法 :主成份。
a. 已提取了 3 个成份。
图七
图八
旋转成份矩阵a a
成份 1 2 3 总人口 .260 .932 -.097 非农业人口比例 .286 -.334 .892 农业总产值 .243 .870 -.315 工业总产值 .943 .122 .069 地方财政预算内收 .960 .170 .159 城乡居民年底储蓄 .910 .309 .127 在岗职工工资总额 .927 .258 .165 提取方法 :主成份。
旋转法 :具有 Kaiser 标准化的正交旋转法。
a. 旋转在 5 次迭代后收敛。
成份转换矩阵 成份 1 2 3 1 .903 .417 .104 2 .277 -.750 .601 3 -.329 .513 .793 提取方法 :主成份。
旋转法 :具有 Kaiser 标准化的正交旋转法。
图九
成份得分系数矩 阵
成份 1 2 3 总人口 -.257 .774 .501 非农业人口比例 -.237 .319 1.245 农业总产值 -.102 .517 .033 工业总产值 .396 -.268 -.338 地方财政预算内收 .327 -.144 -.131 城乡居民年底储蓄 .251 .000 -.035 在岗职工工资总额 .262 -.029 -.019 提取方法 :主成份。
旋转法 :具有 Kaiser 标准化的正交旋转法。
构成得分。
图十
成份得分协方差矩阵 成份 1 2 3 1 1.000 .000 .000 2 .000 1.000 .000 3 .000 .000 1.000 提取方法 :主成份。
旋转法 :具有 Kaiser 标准化的正交旋转法。
构成得分。
附表( ( 输入数据 ):