数据挖掘
AB卷及参考
课程名称: 数据挖掘(A卷) 考试时间: 姓名: 班级: 学号: 一、名词解释(每题5分,共20分)
1、数据挖掘
2、聚类
3、关联规则
4、分类
二、数据挖掘方法应用题(每空20分,共60分)
1、表一是痛风疾病病人的一些临床数据,现准备采用关联规则的挖掘方法对这些数 据进行挖掘,请计算“发作部位”属性中各个值的“支持度”、“可信度”,并简要说 明各个规则的意义。
表一 痛风疾病病人临床数据
序号 性别 年龄 发作疼痛发病发作血尿诊断
部位 情况 时间 部位酸测结果
皮色 定
1 男 小于趾关频繁 不定 黯红 高 是
50岁 节
2 男 大于趾关频繁 不定 黯红 极高 是
50岁 节
3 男 大于指关不频不定 偏红 偏高 是
50岁 节 繁
4 男 大于指关频繁 不定 黯红 高 是
50岁 节
5 男 小于指关频繁 不定 黯红 极高 是
50岁 节
6 男 大于指关频繁 不定 黯红 极高 是
50岁 节
7 男 大于多关不频夜间正常 偏高 是
50岁 节 繁 加重
8 男 小于多关频繁 夜间黯红 高 是
50岁 节 加重
9 男 小于指关频繁 不定 正常 高 是
50岁 节
10 男 小于多关频繁 不定 正常 高 是
50岁 节
11 男 小于指关频繁 不定 黯红 极高 是
50岁 节
12 男 小于趾关不频不定 正常 高 是
50岁 节 繁
2、表二是部分基因表达数据,请用K-Means方法对数据进行聚类分析,聚类分析时 只需要考虑t0、t0.5、t2三项,将数据聚成二个类,且只需要计算一次质心即可。
质心计算公式如下:
1centroid, m,X,inX,C ii
欧几里德距离计算机公式如下:
2d
d(Xi,Xj),( )1/2 (x,x),ikjk
k1,
误差平方和计算机公式为:
k2 J,|X,m|,,ei
,,iXC1i
表二 基因表达数据
2014.00 7.00 t0 t0.5 t2
overcast 64 65 TRUE yes
rainy 71 91 TRUE no
rainy 75 80 FALSE yes
sunny 75 70 TRUE yes
overcast 72 90 TRUE yes
3、表三是天气情况和外出运动情况的数据表,现准备使用ID3对数据进行挖掘分析, 请用该算法对数据进行计算,并画出数据所对应的决策树(只给出第一次分类所对应 的决策树)。
表三 Weather and Sport
outlook temperature humidity windy play
overcast 64 65 TRUE yes
rainy 71 91 TRUE no
rainy 75 80 FALSE yes
sunny 75 70 TRUE yes
overcast 72 90 TRUE yes
sunny 85 85 FALSE no
sunny 80 90 TRUE no
rainy 65 70 TRUE no
sunny 69 70 FALSE yes
overcast 83 86 FALSE yes
rainy 70 96 FALSE yes
sunny 72 95 FALSE no
rainy 68 80 FALSE yes
overcast 81 75 FALSE yes
三、综合题(第1题5分,第2题15分,共20分) 1、请简述神经网络分类的基本原理。
2、结合你自己所学专业,谈谈目前数据挖掘在本专业的应用情况,你认为在本专业哪些方面 还可以应用数据挖掘,
课程名称: 数据挖掘(B卷) 考试时间:
姓名: 班级: 学号: 一、名词解释(每题5分,共20分)
1、数据挖掘
2、关联规则
3、簇
4、分类
二、数据挖掘方法应用题(每空20分,共60分)
1、表一是天气情况和外出运动情况的数据表,现准备使用ID3对数据进行挖掘分析, 请用该算法对数据进行计算,并画出数据所对应的决策树(只给出第一次分类所对应 的决策树)。
期望信息计算式:
I(s1,s2,„„,sm)=,?Pi log2(pi) (i=1,„,m)
S是数据样本的集合。类别属性具有m个不同值Ci。
si是类Ci中的样本数。pi是任意样本属于Ci的概率,并用si/S估计。
非类别属性A划分为子集的熵的计算式:
E(A)= ?(s1j+ „„+smj)/S * I(s1j, „„,smj)
(j=1,2,„,v)
属性A具有v个不同值,a1,a2,„,av,。利用A将S划分为v个子集,S1,S2,„,
Sv,; 其中Sj包含S中在A上具有值aj的样本数。Sij是子集Sj中类Ci的样本数。
信息增益:Gain(A)= I(s1,s2,„„,sm) , E(A)
表一 Weather and Sport
outlook temperature humidity windy play
overcast 64 65 TRUE yes
rainy 71 91 TRUE no
rainy 75 80 FALSE yes
sunny 75 70 TRUE yes
overcast 72 90 TRUE yes
sunny 85 85 FALSE no
sunny 80 90 TRUE no
rainy 65 70 TRUE no
sunny 69 70 FALSE yes
overcast 83 86 FALSE yes
rainy 70 96 FALSE yes
sunny 72 95 FALSE no
rainy 68 80 FALSE yes
overcast 81 75 FALSE yes
2、表二是部分基因表达数据,请用K-Means方法对数据进行聚类分析,聚类分析时 只需要考虑t0、t0.5、t2三项,将数据聚成二个类,且只需要计算一次质心即可。
质心计算公式如下:
1centroid, m,X,inX,C ii
欧几里德距离计算机公式如下:
2d
d(Xi,Xj),( )1/2 (x,x),ikjk
k1,
误差平方和计算机公式为:
k2J,|X,m| ,,ei
,,iXC1i
表二 基因表达数据
t0 t0.5 t2
1 0.50 1.19 1.11
2 0.04 0.79 1.08
3 -0.06 1.27 0.71
4 0.33 0.18 0.27
5 0.16 0.22 -0.25
3、表三是痛风疾病病人的一些临床数据,现准备采用关联规则的挖掘方法对这些数 据进行挖掘,请计算“发作部位”属性中各个值的“支持度”、“可信度”,并简要说 明各个规则的意义。
表三 痛风疾病病人临床数据
序号 性别 年龄 发作疼痛发病发作血尿诊断
部位 情况 时间 部位酸测结果
皮色 定
1 男 小于趾关频繁 不定 黯红 高 是
50岁 节
2 男 大于趾关频繁 不定 黯红 极高 是
50岁 节
3 男 大于指关不频不定 偏红 偏高 是
50岁 节 繁
4 男 大于指关频繁 不定 黯红 高 是
50岁 节
5 男 小于指关频繁 不定 黯红 极高 是
50岁 节
6 男 大于指关频繁 不定 黯红 极高 是
50岁 节
7 男 大于多关不频夜间正常 偏高 是
50岁 节 繁 加重
8 男 小于多关频繁 夜间黯红 高 是
50岁 节 加重
9 男 小于指关频繁 不定 正常 高 是
50岁 节
10 男 小于多关频繁 不定 正常 高 是
50岁 节
11 男 小于指关频繁 不定 黯红 极高 是
50岁 节
12 男 小于趾关不频不定 正常 高 是
50岁 节 繁
三、综合题(第1题5分,第2题15分,共20分)
1、请简述聚类的基本原理。
2、结合你自己所学专业,谈谈目前数据挖掘在本专业的应用情况,你认为在本专业哪些方面
还可以应用数据挖掘,