下面是小编为大家整理的、多元统计分析重点和内容和方法(全文完整),供大家参考。
一、什么是多元统计分析 多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广。
多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科。
二、多元统计分析的内容和方法 1 、简化数据结构(降维问题)
将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。
(1 )主成分分析
(2 )因子分析
(3 )对应分析等 2 、分类与判别(归类问题)
对所考察的变量按相似程度进行分类。
(1 )聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。
(2 )判别分析:判别样本应属何种类型的统计方法。
例 例 5 :根据信息基础设施的发展状况,对世界 20 个国家和地区进行分类。
考察指标有 6 个:
1 、X1 :每千居民拥有固定电话数目
2 、X2 :每千人拥有移动电话数目
3 、X3 :高峰时期每三分钟国际电话的成本
4 、X4 :每千人拥有电脑的数目
5 、X5 :每千人中电脑使用率
6 、X6 :每千人中开通互联网的人数 3 、变量间的相互联系
一是:分析一个或几个变量的变化是否依赖另一些变量的变化。(回归分析)
二是:两组变量间的相互关系(典型相关分析)
4 、多元数据的统计推断
点估计
参数估计
区间估计
统
u 检验
计
参数
t 检验
推
F 检验
断
假设
相关与回归
检验
卡方检验
非参
秩和检验
秩相关检验
1 、假设检验的基本原理
小概率事件原理 小概率思想是指小概率事件(P<0.01 或 或 P<0.05 等)在一次试验中基本上不会发生。反证法思想是先提出假设( 检验假设 H0) ,再用适当的统计方法确定假设成立的可能性大小,如可能性小, 则认为假设不成立;反之,则认为假设成立。
2 、假设检验的步骤
(1 )提出一个原假设和备 择假设
例如:要对妇女的平均身高进行检验,可以先假设妇女身高的均值等于 160 cm (u=160cm )。这种原假设也称为零假设( null hypothesis ),记为 H 0 。
2.1 均值向量的检验 1 、正态总体均值检验的类型
根据样本对其总体均值大小进行检验( One-Sample T Test )
如妇女身高的检验。
根据来自两个总体的独立样本对其总体均值的检验( Indepent Two-Sample T Test )
如两个班平均成绩的检验。
配对样 本的检验( Pair-Sample T Test )
如减肥效果的检验。
多个总体均值的检验 A 、总体方差已知
用 u 检验,检验的拒绝域为
即
B 、总体方差未知
用样本方差
代替总体方差
,这种检验叫 t 检验.
首先,可以画出这些重量的直方图(下图)
判断样本是否服从正态分布
( (2 )根据来自两个总体的独立样本对其总体均值的检验
目的是推断两个样本分别代表的总体均数是否相等。其检验过程与上述两种 t 检验也没有大的差别,只是假设的表达和 t 值的计算公式不同。
两样本均数比较的 t 检验,其假设一般为:
12{ } W z u 1 12 2{ } W z u z u 或2s2总体方差2 已知 统计量 z=nX 0 总体方差2 未知 统计量 tnsX0
H 0 H 1 在显著水平 下拒绝 H 0 ,若 Ⅰ 0
0
21 u z
) 1 (21 n t t Ⅱ 0
0
1u z
) 1 (1 n t t Ⅲ 0
0
1u z
) 1 (1 n t t
H0:µ1=µ2,即两样本来自的总体均数相等.
H1:µ1>µ2 或 µ1<µ2,即两样本来自的总体均数不相等,检验水准为 0.05。
计算 t 统计量时是用两样本均数差值的绝对值除以两样本均数差值的标准误。
相应的假设检验问题为:
H0:
μ 1= μ 2
H1: μ 1 大于 μ 2
μ 1 为第一组的总体均值,而 μ 2 为第二组的总体均值。
用 SPSS 处理数据:
Spss 选项:Analyze —Compare Means — Independent-Samples T Test
3 、配对样本的检验( paired samples )
(针对同样的样本)考察实验前后样本均值有无差异。能够很好地控制非实验因素对结果的影响注意:实验前后两个样本 两个样本并不独立 注意:同一样本实验前后 并不独立,但不同样本之间却相互独立。
配对样本的检验实际上是用配对差值与总体均数“0”进行比较,即推断差数的总体均数是否为“0”。故其 其检的 验过程与依据样本均数推断总体均数大小的 t 检验类似,即:
A 、建立假设
H0:µd=0,即差值的总体均数为“0”,H1:µd>0 或 µd<0,即差值的总体均数不为“0”,检验水平为 α
。
B. 计算统计量
进行配对设计 t 检验时 t 值为差值均数与 0 之差的绝对值除以差值标准误的商,其中差值标准误为差值标准差除以样本含量算术平方根的商。
C. 确定概率,作出判断
以自由度 v(对子数减 1)查 t 界值表,若 P< α ,则拒绝 H0,接受 H1,若 P>= α ,则还不能拒绝 H0。
例 例 4 :要比较 50 个人在减肥前和减有 肥后的重量。这样就有了两个样本,每个都有 50 个数目。
这里不能用前面的独立样本均值差的检验;这是因为两个样本并不独立。
每一个人减肥后的重量都和自己减肥前的重量有关。但不同人之间却是独立的。令减肥前的重量均值为 为 μ 1 ,而减肥后的均值为 μ 2 ;这样所要进行的检验为:
H0 :
μ 1= = μ 2
H1 :
μ 1 大于 μ 2
一、方差分析的基本思想 1 、定义
方差分析又称变异数分析或 F 检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义。
2、 、 了解方差分析中几个重要概念:
( (1 )观测因素或称为观测变量
如:考察农作物产量的影响因素。农作物产量就是观测变量。
( (2 )控制因素或称控制变量
进行试验( 实验) 时, 我们称可控制的试验条件为因素(Factor), 因素变化的各个等级为水平(Level) 。
影响农作物产量的因素,如品种、施肥量、土壤等。
如果在试验中只有一个因素在变化, 其他可控制的条件不变, 称它为单因素试验;
若试验中变化的因素有两个或两个以上, 则称为双因素或多因素试验 。
方差分析就是从观测变量的方差入手,研究诸多控 制变量(因素)中哪些变量是对观测变量有显著影响的变量
3 、方差分析的基本原理
设有 r 个总体,各总体分别服从
……
,假定各总体方差相等。现从断 各总体随机抽取样本。透过各总体的样本数据推断 r 个总体的均值是否相等?
: 至少有一组数据的平均值与其它组的平均值有显著性差异。
分析的思路:用离差平方和(SS )描述所有样本总的变异情况,将总变异分为两个来源:
(1 )组内变动(within groups ),代表本组内各样本与该组平均值的离散程度,即水平内部(组内)方差
(2 )组间变动(between groups ),代表各组平均值关于总平均值的离散程度。即水平之间(组间)方差 即:SS 总=SS 组间+SS 组内 消除各组样本数不同的影响-- 离差平方和除以自由度(即均方差)。从而构造统计量:
的 方差分析的基本思想就是通过组内方差与组间方差的比值构造的 F 统计量,将其与给定显著性水平、的 自由度下的 F 值相对比,判定各组均数间的差异有无统计学意义。
零假设否定域:
例 例 2
SIM 手机高、中、低三种收入水平 被调查者的用户满意度是否有显著性差异
即:研究被调查者的收入水平是否会影响其对 SIM 手机的满意程度。
SPSS 处理:Analyze — Compare Mean — One-Way ANOVA
例 多元方差分析(操作参见书例 2.1 ,第 36 页):
SPSS 选项:
Analyze— General Linear Model — Multivariate
可用男、女生的身高、体重、胸围组成的样本均数向量推论该年级男、女生身体发育指标的总体均数向量μ1 和μ2 相等与否, 得到:
F=8.8622 ,P=0.0008 。拒绝该年级男女生身体发育指标的总体均数向量相等的假设,从而可认为该校男女生身体发育状况不同。
4 、方差分析的应用条件
(1 )可比性,若资料中各组均数本身不具可比性则不适用方差分析。
21( , ) N 22( , ) N 2( , )rN 0 1 2:rH 1H( 1) SS rFSS组间组内(n-r)1,( )r n rF F
(2 )正态性,各组的观察数据,是从服从正态分布的总体中随机抽取的样本。即偏态分布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。
( (3 )方差齐性,各组的观察数据,是从具有相同方差的相互独立的总体 中抽取得到的。即若组间方差不齐则不适用方差分析。
依据涉及的分析变量多少分为:一元方差分析、多元方差分析 依据对分析变量的影响因素的数量分为:单因素方差分析、多因素方差分析 一、什么是聚类分析? 聚类分析(P54)
是根据“ 物以类聚” 的道理,对样品或指标进行分类的一种多元统计分析方法。
将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。
聚类分析的目的(P54)
使类内对象的同质性最大化和类间对象的异质性最大化。
二、聚类分析的基本思想:
是 是 根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕.
相似样本或指标的集合称为类。
1 、聚类分析的类型有:
对样本分类,称为 Q 型聚类分析
对变量分类,称为 R 型聚类分析
Q 型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。
R 型聚类是对变量进行聚类,它使具有相似性的变 量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。
2 、聚类分析的方法:
系统聚类(层次聚类)
非系统聚类(非层次聚类)
系统聚类法包括:凝聚方式聚类、分解方式聚类 非系统聚类法包括:模糊聚类法、K -均值法(快速聚类法)等等 常用距离:
(1 )、明考夫斯基距离(Minkowski distance)
明氏距离有三种特殊形式:
(1a )、绝对距离(Block 距离):当 当 q=1 时 ( (1b) 欧氏距离(Euclidean distance):当 当 q=2 时
(1c) 切比雪夫距离: 当
时 gpkgjk ik ijx x d11) | | ( pkjk ik ijx x d11 2112) ( 2 pkjk ik ijx x dq
jk ikp kijx x d 1max ) (
当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。常用的标准化处理:
其中
为第 j 个变量的样本均值;
为第 j 个变量的样本方差。
( (4 )马氏距离
*1,2, , 1,2, ,ij jijjjx ** i n j ps 11nj ijix xn211( )1njj ij jis x xn ) ( ) (2j i1j ix x x x ijd1/2[( ) ( )]ijd 1i j i jx x x x
马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离不仅考虑了观测变量之间的相 关性,而且也考虑到了各个观测指标取值的差异程度,为了对马氏距离和欧氏距离进行一下比较,以便更清楚地看清二者的区别和联系,现考虑一个例子。
1 、类的定义
相似样本或指标的集合称为类。
(数学表达见 63-64 页定义 3.1-3.4 )
2 、类的特征描述:
设类 G 这一集合有 x x xm...... ,2 1
m 为 为 G 内的样本数。其特征:
(1 )均值(或称为重心)
( (2 )协方差矩阵
(3) G 的直径
d 12 =[(7.9-7.68) 2 +(39.77-50.37) 2 +(8.49-11.35) 2 +(12.94-13.3) 2 +(19.27-19.25) 2 +(11.05-14.59) 2 +(2.04-2.75) 2 +(13.29-14.87)2 ] 0.5 =11.67 d 13 =13.80
d 14 =13.12
d 15 =12.80
d 23 =24.63
d 24 =24.06
d 25 =23.54
d 34 =2.2
d 35 =3.51
d 45 =2.21
1
2
3
4
5
D1=
1
0
河南与甘肃的距离最近,
2
11.67
0
先将二者(3 和 和 4 )合为
3
13.80
24.63
0
一类 G6={G2 ,G4}
4
13.12
24.06
2.20
0
5
12.80
23.54
3.51
2.21
0
...
推荐访问:、多元统计分析重点和内容和方法 统计分析 完整 重点