样卷(仅供参考)
一、判断
:(每小题2分,共10分)
1.p维随机向量
的协差阵及相关阵一定是非负定阵. ( )
2.多元正态分布的任何边缘分布为正态分布. ( )
3.系统聚类法中的“离差平方和法”的基本思想来源于同类样品的离差平方和应该较大,不同类样品之间的离差平方和应该较小. ( )
4.复相关系数度量了一个随机变量和一组随机变量之间的相关关系的强弱;偏相关系数度量了剔除给定变量的影响之后,变量间相关关系的强弱. ( )
5.Q型聚类是指对变量进行聚类. ( )
答案:1.√ 2.√ 3.× 4.√ 5. ×
二、选择题:(每小题2分,共10分)
1.下列不是系统聚类法是( )
A.重心法 B.对应分析法 C.可变法 D.类平均法
2.设S是
的样本协差阵,样本容量为n,则S为正定的充要条件是( )
A .n>p B. n
标准
化”之后的欧氏距离
答案:1.B 2.A 3.D 4. C 5. A
三、填空题(每空2分,共18分)
1.设随机向量
的
期望和协方差矩阵分别为
和
令
,
,
,则
的期望
= ,协方差矩阵
= .
2.设
,
是取自总体
的一组样本,且
,则当
时,
和
的极大似然估计为
,
.
3.
未知参数
的置信区间好坏的常用准则有: 和 .
4.常用的多元统计分析方法有: 、 、 、因子分析和典型相关分析.
答案:1、
,
.
2、
,
或
.
3、置信度、精确度. 4、判别分析、聚类分析、主成分分析、对应分析、典型相关分析(答对任意3个即认为正确).
四、简答题(每小题7分,共14分)
1.比较主成分分析与因子分析的异同点.
答: 主成分分析与因子分析的相同点:两者都是一种降维,简化数据的技术;两种方法的求解过程是类似的,都是从协方差阵(相关阵)出发,利用特征值、特征向量求解. ……………………………………………………………………….............4分
不同点:主成分分析的数学模型本质上是一种线形变换,将原始坐标变换到变异程度最大的方向上,突出数据变异的方向,归纳重要信息.而因子分析是从现在变量去提取潜在因子的过程;因子分析可以通过因子旋转得到因子的解释,而主成分分析中的主成分解释一般比较困难;主成分分析的求解方法固定,而因子分析有多种方法求解,还有极大似然法. ………………………...………………….............7分
2.设
为取自
的样本,欲对均值
做检验.在协差阵
已知和未知的两种情形下,如何分别构造检验统计量?
答:对于一个总体均值向量的检验,在
已知时,构造如下统计量:
…........................4分
在
未知时,构造如下统计量:
,其中
.......7分
五、计算题(每小题12分,共48分)
1.设
,协方差阵
,其中
为
和
的相关系数
.
(1)试从
出发求
的两个总体主成分;
(2)求
的等概率密度椭圆的主轴方向;
(3)试问当
取多大时才能使第一主成分的贡献率达95%以上.
(1)协差阵
的特征根为
,对应的特征向量为
,故第一主成分为:
,第二主成分为
..........................7分
(2)长轴的方向为
,
短轴的方向为
….........................................................................................9分
(3)为使第一主成分的贡献率达95%以上,即要求:
,则
.............................................................................12分
2.测量了6名选手的成绩,分别是1,2, 5,7, 9,10,样品间采用绝对值距离
,用最长距离法进行聚类.试写出聚类过程中每一步的距离矩阵,并画出聚类过程树形图。若采用k均值法聚类,初始凝聚点为2,7,9,k=3,结果又如何?
解:采用最长距离法聚类:
,将G1,G2合并为G7={G1,G2},距离为1;
同时将G5,G6合并为G8={G5,G6},距离为1;并计算
:………...............4分
,将G3,G4合并为G9={G3,G4},距离为2;并计算
:
将G8,G9合并为G10={G8,G9}={G3,G4,G5,G6},距离为5;
计算
,将G10,G7合并为一类G11={G10,G7}={G1,G2,G3,G4,G5,G6},距离为9;过程中止.聚类图见右图;....................................................................................9分
(2)若采用k均值聚类,则最终分类为:
.....................................12分
3.设先验概率,误判代价及概率密度值已列于下
:
判别为
真
实
组
C(1|1)=0 C(2|1)=20 C(3|1)=80
C(1|2)=400 C(2|2)=0 C(3|2)=200
C(1|3)=100 C(2|3)=50 C(3|3)=0
先验概率
=0.55
=0.15
=0.30
概率密度
=0.46
=1.5
=0.70
试用贝叶斯判别法将样品
分到组
中的一个.如果不考虑误判代价,则判别结果又将如何?
解:
现采用最小ECM准则进行判别:
:
:
:
由于
时,
最小,所以将
判为
。----------6分
若不考虑误判代价,则采用最大后验概率准则进行判别:
由于
时,
,所以将
判为
。----12分
解: