乳腺癌的判别模型
摘要
本文针对医院如何有效诊断患者乳腺肿瘤属于“良性” 还是 “恶性”的问题,建立了Logistic回归模型,得到了判别方法。最后还利用了逐步回归法,得到了区分“良性”“恶性”的主要指标。
对问题一:我们对确诊病例1-40号数据运用
回归思想进行回归分析,利用
得到回归系数
,建立了
回归模型,进而得出了肿瘤病患者确诊为良性、恶性的判别方法。并对41-78号病例进行
回归诊断检验,得出仅有2例检查有误,准确率达到94.7%。
对问题二:运用问题一所得出的判别方法对问题二的病例数据进行判别,得出诊断结果为:18名是良性肿瘤患者,12名是恶性肿瘤患者。肿瘤病患者的具体检查结果如下表(0代表良性,1代表恶性):
病例号
1
2
3
4
5
6
7
8
9
10
结果
1
0
1
1
0
1
0
1
0
1
病例号
11
12
13
14
15
16
17
18
19
20
结果
0
1
0
0
1
0
0
0
0
0
对问题三:首先我们利用逐步回归法对9个检测指标进行了逐一检测,保留对因变量影响显著的检查指标,剔除影响小的检测指标,运用
最终得到乳腺肿瘤肿块的厚度,单层上皮细胞的大小、裸核、有丝分裂四个主要检测指标。
然后以这四个指标为自变量建立
回归模型,进而得出主要检测指标区分“良性”“恶性”乳腺肿瘤的检测方法。然后用41-78号病例进行回归检验,得出仅有两例检查有误,准确率达到94.7%。
关键词:
回归模型 最大似然估计 逐步回归法
1问题重述
1.1问题背景
全世界每年约有120万妇女患乳腺癌,50万人死于乳腺癌,乳腺癌已经成为全球女性发病率最高的恶性肿瘤。
下面是某医院乳腺肿瘤患者的一组数据,其中前面9个指标分别表示乳腺肿瘤肿块的厚度、细胞大小的均匀性、 细胞形状的均匀性、边缘的粘连、单层上皮细胞的大小、裸核、温和的染色质、正常的核仁、有丝分裂,尾数0表示确诊为“良性”,1表示确诊为“恶性”,数据已经归一化为0到10之间的自然数。(数据见附录一)
1.2需要解决的问题
问题一、根据以上数据,请提出一种或多种判别乳腺肿瘤属于“良性” 还是 “恶性”的方法,并检验你提出的方法的正确性。
问题二、现有一组乳腺肿瘤患者的九个指标数据如下,请你按照你在问题一中提出的方法分别判别属于“良性”还是“恶性”。(数据见附录三)
问题三、试确定哪些指标是区分乳腺肿瘤是“良性”还是“恶性”的主要指标,请采用主要指标建立区分“良性”和“恶性” 乳腺肿瘤的模型,以便用于乳腺肿瘤的辅助诊断时可以减少化验的指标。
2问题假设与符号说明
2.1问题假设
假设一:诊断结果只与已知的九种因素有关,与其他因素无关
假设二:题目所给数据是合理、正确的,医生的诊断是准确无误的
假设三:不考虑其他病情对检测指标的影响
假设四:诊断结果只有两种,良性与恶性
2.2符号说明
乳腺肿瘤患者的第
个检测指标(
)
乳腺肿瘤患者确诊评判指数
乳腺肿瘤患者各个检测指标的回归系数
乳腺肿瘤患者确诊为恶性的概率
引入变量后回归方程的方差和
引入变量后回归方程的残差和
引入变量的检验统计量
的偏回归方差和
3问题分析
本文首先给出42组良性肿瘤患者和38组恶性肿瘤患者的检测结果,需要根据这80组数据中的九个检测指标值分析确定一种有效的判别准则,并根据该判别准则来判别问题二中患者的肿瘤属于良性还是恶性。根据对原始数据的统计分析,检测乳腺肿瘤是“良性”还是“恶性”的九个指标中有主要指标也有次要指标。我们需找到一种合理的方法找出主要指标并重新建立模型,并用题题目所给的37组数据对其进行验证,判断其合理性。
针对问题一:问题一中因变量仅有两种:乳腺癌患者确诊为恶性肿瘤和乳腺癌患者确诊为良性肿瘤。乳腺癌良性恶性的判别依据9个检测指标,我们定义各个检测指标的回归系数为
,于是可以得到各个患者的诊断为良性的概率。通过最大似然法求出各个检测指标的回归系数,然后对回归参数进行检验,建立二元
回归模型,得出乳腺癌良性恶性的判别方法。最后将题给数据进行
回归检验,进而算出该检验方法的准确率。
针对问题二:通过问题一所建的二元
回归模型,对问题二中20组数据进行判别,得到问题二的判别结果。
针对问题三:我们运用逐步回归法对题设的九个检测指标进行了定量分析。首先将题设九个指标看成由九个变量组成的集合,然后确定初始自变量为
。依次从子集外影响显著的变量中引入一个对因变量
影响最大的自变量X,再对原来子集中变量的影响进行检测排序,从变得不显著的变量中剔除一个影响最小的,直到不能引入和剔除为止。我们利用
软件对因变量
作逐步回归,得到对
影响较大几个自变量
,即所求的主要指标。将求得的主要指标同模型Ⅰ建立Logistic回归模型Ⅱ,将21~41和62~78组检测数据进行Logistic回归诊断检验,进而验证其准确度。
4数据分析与处理
我们对题给的80组数据运用
进行了初步统计,剔除两组不完整数据得到78组数据,其中41位患者确诊为良性(
),37位患者确诊为恶性(
).对78组原始数据重新编号为1-78号(见附录二)。求出41位良性肿瘤患者的各种检测指标平均值和37位恶性肿瘤患者的各种检测指标的平均值,最后利用
得出肿瘤病患者确诊为良性、恶性的各个检测指标的对比图:
:乳腺肿瘤肿块的厚度
:细胞大小的均匀性
:细胞形状的均匀性
:边缘的粘连
:单层上皮细胞的大小
:裸核
:温和的染色质
:正常的核仁
:有丝分裂
我们根据对比图分析得出:恶性肿瘤患者的各项检测指标的平均值均大于良性肿瘤患者的各项监测指标的平均值,说明各项检测指标值越大,肿瘤越倾向于恶性。
然后对问题二的20组数据进行重新编号为1-20号(见附录三)。
5问题一的解答
5.1模型一的建立
5.1.1
回归模型的引入:
在医疗研究中经常碰到因变量的取值仅有两个即二分类变量,乳腺癌肿瘤确诊为良性恶性即属于二分类变量问题,这类问题显然不满足多元(重)线性回归的条件,于是我们引入
回归模型。
回归的基本思想是,不是直接对
进行回归,而是先定义一种概率函数
,令
则
其中
。
此时,如果直接对
进行回归,得到的回归方程可能不满足这个条件。在现实生活中,一般有
。直接求
的表达式,是比较困难的一件事,于是,人们改为考虑:
一般的,
。
人们经过研究发现,令
其中
即
是一个
型的函数,而
函数利用线性回归的思想效果是很理想的。于是我们对
函数进行通常的线性回归。
在本题中各参数的意义如下所示:
:乳腺癌患者确诊为恶性肿瘤;
:乳腺癌患者确认为良性肿瘤;
:
=1的概率;
:
的概率;
:乳腺癌良性恶性判别的9个检测指标(其中
);
:
对应的9个相关回归系数(其中
)。
5.1.2
回归系数的求解
我们讨论
函数,其中概率
。可设
判别是恶性的概率。因为
个数据有
个为0,
个为1,
,良性与恶性的比例接近
,于是我们取概率的分界值0.5,令
由于我们并不知道判别后是良性的概率
的具体值,也不可能通过检测指标数据把
对应的
值算出来,于是,为了方便做回归运算,我们取区间的中值,
对应
;
,对应
。运用
软件对
进行通常的线性回归求出回归系数如下表:(程序见附录三)
EMBED Equation.DSMT4
1.7551
-0.1490
0.0168
-0.1103
0.0059
-0.1124
-0.0058
-0.0124
-0.0934
-0.0283
则回归方程为
EMBED Equation.DSMT4
5.1.3
回归模型的检验
stats = 0.8478 18.5620 0.0000 0.2450
得到:
=0.8478 说明回归方程刻画原问题较好。
检验值=18.5620>0.0000 说明拟合程度很好。
值=0.2450>
说明变量间存在线性相关关系。
5.2综上所述,得问题一的
回归模型
肿瘤病患者确诊为恶性的概率:
肿瘤病患者良性恶性的判别依据
5.4
函数的回归诊断检测
将剩余的41~78号通过以下公式进行检验
通过MATLAB编程(见附录四)进行诊断的如下结果:
从图可以看出,第41-78号数据中,只有3、4号数据不符合即正确率为94.7%
6问题二的解答
6.1问题二的判别方法
运用模型一的结果,肿瘤病患者确诊为恶性的概率为:
肿瘤病患者良性恶性的判别依据:
7问题二的解答
通过
的公式进行判别结果如下:图2
从以上结果图可得出(0代表良性,1代表恶性):
病例号
乳腺肿瘤肿块的厚度
细胞大小的均匀性
细胞形状的均匀性
边缘的粘连
单层上皮细胞的大小
裸核
温和的染色质
正常的核仁
有丝分裂
良恶
1
10
4
7
2
2
8
6
1
1
1
2
5
2
2
2
2
1
2
2
1
0
3
8
6
7
3
3
10
3
4
2
1
4
6
5
5
8
4
10
3
4
1
1
5
1
1
1
1
1
1
2
1
1
0
6
10
3
3
1
2
10
7
6
1
1
7
2
1
1
1
2
1
1
1
1
0
8
7
6
4
8
10
10
9
5
3
1
9
1
1
1
1
1
1
1
3
1
0
10
4
2
3
5
3
8
7
6
1
1
11
5
1
1
1
2
1
3
1
2
0
12
5
4
6
6
4
10
4
3
1
1
13
1
1
1
1
2
1
1
1
1
0
14
1
1
1
1
2
1
3
1
1
0
15
8
5
5
5
2
10
4
3
1
1
16
1
1
1
1
2
1
3
1
1
0
17
1
1
1
1
2
1
1
1
1
0
18
1
1
1
1
2
1
1
1
1
0
19
3
4
4
10
5
1
3
3
1
0
20
5
1
1
3
2
1
1
1
1
0
上表总共12名良性肿瘤患者,8名恶性肿瘤患者。
7问题三的解答
7.1良性、恶性主要检测指标的确立
肿瘤病患者良性、恶性的检测指标总有9个,我们要从中找出主要检测指标,即我们要从中找出对患者病情影响显著的检测指标。
首先我们采用逐步回归方法,然后确定一个选择标准,将对因变量影响显著的都引入模型,对影响不显著的都不应入模型。首先从9个检测指标中选出
作为模型的初始变,然后逐渐引入其他检测指标。每次只引入或剔除一个变量。
首先方程中已引入
,若方程中已引入
个自变量,如果在考虑引入变量
,记引入
后方程的回归平方和为
,残差为
,之前含
个自变量(不包含
)方程的回归平方和
,则
的偏回归平方和为
检验统计量为:
其中
服从
分布
如果
,则
选入方程;否则不如选。
在回归模型中,当检测指标的显著性水平小于0.05时,就将该检测指标提出模型。然后运用matlab软件编程得出
从图可以得出
被剔除,
被保留,则
对判别结果的影响显著,则乳腺肿瘤肿块的厚度,单层上皮细胞的大小、裸核、有丝分裂是区分乳腺肿瘤是“良性”还是“恶性”的主要指标.
7.2 模型三的建立
7.2.1回归系数的求解
我们讨论
函数,其中概率
。可设
判别是良性的概率。因为
个数据有
个为0,
个为1,
,良性与恶性的比例接近
,于是我们取概率的分界值0.5,令
由于我们并不知道判别后是良性的概率
的具体值,也不可能通过检测指标数据把
对应的
值算出来,于是,为了方便做回归运算,我们取区间的中值,
对应
;
,对应
。运用
软件对
进行通常的线性回归求出回归系数如下表:(程序见附录七)
1.7486
-0.1871
-0.1418
-0.0182
-0.0955
5.2.2
回归模型的检验
stats = 0.8368 44.8644 0.0000 0.2251
得到:
=0.8368 说明回归方程刻画原问题较好。
检验值=44.8644>0.0000 说明拟合程度非常好。
值=0.2251>
说明变量间存在线性相关关系
5.3综上所述,得问题三的
回归模型
肿瘤病患者确诊为恶性的概率:
肿瘤病患者良性恶性的判别依据
5.4
函数的回归诊断检测
将剩余的41~78号通过以下公式进行检验
通过MATLAB编程(见附录八)进行诊断的如下结果:
从图可以看出,第41-78号数据中,只有3、4号数据不符合,即正确率为94.7%
8模型的评价改进与推广
8.1模型的评价
优点:
1.在研究乳腺癌肿瘤良性与恶性的判别方面,我们采用logistic回归模型。该模型通过logistic对数转换将二分类变量问题转换为常见的线性回归问题,再通过对线性回归的求解得到我们的判别结果。结果准确率很高,判别的效果是很理想的。
2.对于如何确定哪些指标是区分乳腺肿瘤是“良性”还是“恶性”的主要指标问题上,我们采用的方法是逐步回归法。该方法较准确地找出了主要指标而且该方法上机操作简单。应用此法,最终结果与问题一的结果很相符。
3.问题一和问题二的求解均采用了多重检验,包括F检验,R2检验和P检验,较大程度地避免了结果出错的概率。
缺点:
1.本文中所给病例数据太少,导致Logistic回归的诊断结果与实际的结果产生一定的偏差。
2.模型一中没有求出 的具体值,对结果可能产生负面影响。
8.2模型的改进
本文第一问运用了二元logistic回归的模型,该模型是广义线性模型的一个分支。在初步得出回归系数以后需对其进行残差检验,以考察模型的稳定性。其次计算logistic回归系数的极大似然估计的一个常用方法是Newton迭代法,而Newton迭代法中遇见Hessian矩阵接近0就无法进行计算。为了避免这一情况,我们可以将求解系数的方法改为Levenberg-Marquardt法。
对模型二,我们建立了逐步回归的模型,从而剔除了对结果影响不显著的变量。但是变量的剔除标准及变量的引入标准是我们主观设定的,从而减弱了模型的稳定性。对此我们应对模型的结果做进一步检验。
8.3模型的推广
本文建立了两个模型,模型一可以用于其它地理观测,诸如气象观测站观测各个地点的降雨量。模型二可以用于经济
参考文献
[1]罗登发,条件logistic回归模型的残差分析和影响诊断,中卫出版社。
[2]孙荣恒、伊享云、何中市 重庆大学出版社:概率论和数理统计,2006
[3]赵东方 数学模型与计算,北京:科学出版社,2007
附录
附录一:题目所给的原始数据
5,1,1,1,2,1,3,1,1, 0 5,4,4,5,7,10,3,2,1, 0
3,1,1,1,2,2,3,1,1, 0 6,8,8,1,3,4,3,7,1, 0
4,1,1,3,2,1,3,1,1, 0 8,10,10,8,7,10,9,7,1, 1
1,1,1,1,2,10,3,1,1, 0 2,1,2,1,2,1,3,1,1, 0
2,1,1,1,2,1,1,1,5, 0 4,2,1,1,2,1,2,1,1, 0
1,1,1,1,1,1,3,1,1, 0 2,1,1,1,2,1,2,1,1, 0
5,3,3,3,2,3,4,4,1, 1 1,1,1,1,2,3,3,1,1, 0
8,7,5,10,7,9,5,5,4, 1 7,4,6,4,6,1,4,3,1, 1
4,1,1,1,2,1,2,1,1, 0 4,1,1,1,2,1,3,1,1, 0
10,7,7,6,4,10,4,1,2, 1 6,1,1,1,2,1,3,1,1, 0
7,3,2,10,5,10,5,4,4, 1 10,5,5,3,6,7,7,10,1, 1
3,1,1,1,2,1,2,1,1, 0 8,4,5,1,2,?,7,3,1, 1
1,1,1,1,2,1,3,1,1, 0 5,2,3,4,2,7,3,6,1, 1
3,2,1,1,1,1,2,1,1, 0 5,1,1,1,2,1,2,1,1, 0 2,1,1,1,2,1,2,1,1, 0 1,1,3,1,2,1,1,1,1, 0
3,1,1,1,1,1,2,1,1, 0 10,7,7,3,8,5,7,4,3, 1
2,1,1,2,2,1,3,1,1, 0 3,1,2,1,2,1,2,1,1, 0
2,1,1,1,2,1,2,1,1, 0 10,10,10,8,6,1,8,9,1, 1 6,2,1,1,1,1,7,1,1, 0 5,4,4,9,2,10,5,6,1, 1
2,5,3,3,6,7,7,5,1, 1 6,6,6,9,6,?,7,8,1, 0
10,4,3,1,3,3,6,5,2, 1 6,10,10,2,8,10,7,3,3, 1
5,6,5,6,10,1,3,1,1, 1 10,10,10,4,8,1,8,10,1, 1
1,1,1,1,2,1,2,1,2, 0 3,7,7,4,4,9,4,8,1, 1
1,1,1,1,2,1,2,1,1, 0 4,1,1,3,2,1,3,1,1, 0
7,8,7,2,4,8,3,8,2, 1 9,5,8,1,2,3,2,1,5, 1
5,3,3,4,2,4,3,4,1, 1 10,3,6,2,3,5,4,10,2, 1
5,5,5,8,10,8,7,3,7, 1 10,5,5,6,8,8,7,1,1, 1
10,6,6,3,4,5,3,6,1, 1 8,10,10,1,3,6,3,9,1, 1
8,2,4,1,5,1,5,4,4, 1 5,2,3,1,6,10,5,1,1, 1
9,5,5,2,2,2,5,1,1, 1 5,3,5,5,3,3,4,10,1, 1
1,1,1,1,2,2,2,1,1, 0 9,10,10,1,10,8,3,3,1, 1
6,3,4,1,5,2,3,9,1, 1 1,1,1,1,2,1,2,1,1, 0
10,4,2,1,3,2,4,3,10, 1 4,1,1,1,2,1,3,1,1, 0
5,3,4,1,8,10,4,9,1, 1 8,3,8,3,4,9,8,9,8, 1
1,1,1,1,2,1,3,2,1, 0 5,1,3,1,2,1,2,1,1, 0
6,10,2,8,10,2,7,8,10, 1 1,3,3,2,2,1,7,2,1, 0
9,4,5,10,6,10,4,8,1, 1 10,6,4,1,3,4,3,2,3, 1 1,1,2,1,2,2,4,2,1, 0 1,1,4,1,2,1,2,1,1, 0
5,3,1,2,2,1,2,1,1, 0 3,1,1,1,2,3,3,1,1, 0
2,1,1,1,3,1,2,1,1, 0 2,2,2,1,1,1,7,1,1, 0
附录二:对原始数据进行排序后的数据
病例号
乳腺肿瘤肿块的厚度
细胞大小的均匀性
细胞形状的均匀性
边缘的粘连
单层上皮细胞的大小
裸核
温和的染色质
正常的核仁
有丝分裂
良恶
1
5
1
1
1
2
1
3
1
1
0
2
3
1
1
1
2
2
3
1
1
0
3
4
1
1
3
2
1
3
1
1
0
4
1
1
1
1
2
10
3
1
1
0
5
2
1
1
1
2
1
1
1
5
0
6
1
1
1
1
1
1
3
1
1
0
7
4
1
1
1
2
1
2
1
1
0
8
3
1
1
1
2
1
2
1
1
0
9
1
1
1
1
2
1
3
1
1
0
10
3
2
1
1
1
1
2
1
1
0
11
2
1
1
1
2
1
2
1
1
0
12
3
1
1
1
1
1
2
1
1
0
13
2
1
1
2
2
1
3
1
1
0
14
2
1
1
1
2
1
2
1
1
0
15
6
2
1
1
1
1
7
1
1
0
16
1
1
1
1
2
1
2
1
2
0
17
1
1
1
1
2
1
2
1
1
0
18
1
1
1
1
2
2
2
1
1
0
19
1
1
1
1
2
1
3
2
1
0
20
1
1
2
1
2
2
4
2
1
0
21
5
3
3
3
2
3
4
4
1
1
22
8
7
5
10
7
9
5
5
4
1
23
10
7
7
6
4
10
4
1
2
1
24
7
3
2
10
5
10
5
4
4
1
25
2
5
3
3
6
7
7
5
1
1
26
10
4
3
1
3
3
6
5
2
1
27
5
6
5
6
10
1
3
1
1
1
28
7
8
7
2
4
8
3
8
2
1
29
5
3
3
4
2
4
3
4
1
1
30
5
5
5
8
10
8
7
3
7
1
31
10
6
6
3
4
5
3
6
1
1
32
8
2
4
1
5
1
5
4
4
1
33
9
5
5
2
2
2
5
1
1
1
34
6
3
4
1
5
2
3
9
1
1
35
10
4
2
1
3
2
4
3
10
1
36
5
3
4
1
8
10
4
9
1
1
37
6
10
2
8
10
2
7
8
10
1
38
9
4
5
10
6
10
4
8
1
1
39
8
10
10
8
7
10
9
7
1
1
40
7
4
6
4
6
1
4
3
1
1
41
5
3
1
2
2
1
2
1
1
0
42
2
1
1
1
3
1
2
1
1
0
43
5
4
4
5
7
10
3
2
1
0
44
6
8
8
1
3
4
3
7
1
0
45
2
1
2
1
2
1
3
1
1
0
46
4
2
1
1
2
1
2
1
1
0
47
2
1
1
1
2
1
2
1
1
0
48
1
1
1
1
2
3
3
1
1
0
49
4
1
1
1
2
1
3
1
1
0
50
6
1
1
1
2
1
3
1
1
0
51
5
1
1
1
2
1
2
1
1
0
52
1
1
3
1
2
1
1
1
1
0
53
3
1
2
1
2
1
2
1
1
0
54
4
1
1
3
2
1
3
1
1
0
55
1
1
1
1
2
1
2
1
1
0
56
4
1
1
1
2
1
3
1
1
0
57
5
1
3
1
2
1
2
1
1
0
58
1
3
3
2
2
1
7
2
1
0
59
1
1
4
1
2
1
2
1
1
0
60
3
1
1
1
2
3
3
1
1
0
61
2
2
2
1
1
1
7
1
1
0
62
10
5
5
3
6
7
7
10
1
1
63
5
2
3
4
2
7
3
6
1
1
64
10
7
7
3
8
5
7
4
3
1
65
10
10
10
8
6
1
8
9
1
1
66
5
4
4
9
2
10
5
6
1
1
67
6
10
10
2
8
10
7
3
3
1
68
10
10
10
4
8
1
8
10
1
1
69
3
7
7
4
4
9
4
8
1
1
70
9
5
8
1
2
3
2
1
5
1
71
10
3
6
2
3
5
4
10
2
1
72
10
5
5
6
8
8
7
1
1
1
73
8
10
10
1
3
6
3
9
1
1
74
5
2
3
1
6
10
5
1
1
1
75
5
3
5
5
3
3
4
10
1
1
76
9
10
10
1
10
8
3
3
1
1
77
8
3
8
3
4
9
8
9
8
1
78
10
6
4
1
3
4
3
2
3
1
附录三:问题二中待检测的数据
病例号
乳腺肿瘤肿块的厚度
细胞大小的均匀性
细胞形状的均匀性
边缘的粘连
单层上皮细胞的大小
裸核
温和的染色质
正常的核仁
有丝分裂
1
10
4
7
2
2
8
6
1
1
2
5
2
2
2
2
1
2
2
1
3
8
6
7
3
3
10
3
4
2
4
6
5
5
8
4
10
3
4
1
5
1
1
1
1
1
1
2
1
1
6
10
3
3
1
2
10
7
6
1
7
2
1
1
1
2
1
1
1
1
8
7
6
4
8
10
10
9
5
3
9
1
1
1
1
1
1
1
3
1
10
4
2
3
5
3
8
7
6
1
11
5
1
1
1
2
1
3
1
2
12
5
4
6
6
4
10
4
3
1
13
1
1
1
1
2
1
1
1
1
14
1
1
1
1
2
1
3
1
1
15
8
5
5
5
2
10
4
3
1
16
1
1
1
1
2
1
3
1
1
17
1
1
1
1
2
1
1
1
1
18
1
1
1
1
2
1
1
1
1
19
3
4
4
10
5
1
3
3
1
20
5
1
1
3
2
1
1
1
1
附录四:模型一回归系数求解的源程序
X=[
1 5 1 1 1 2 1 3 1 1;
1 3 1 1 1 2 2 3 1 1;
1 4 1 1 3 2 1 3 1 1;
1 1 1 1 1 2 10 3 1 1;
1 2 1 1 1 2 1 1 1 5;
1 1 1 1 1 1 1 3 1 1;
1 4 1 1 1 2 1 2 1 1;
1 3 1 1 1 2 1 2 1 1;
1 1 1 1 1 2 1 3 1 1;
1 3 2 1 1 1 1 2 1 1;
1 2 1 1 1 2 1 2 1 1;
1 3 1 1 1 1 1 2 1 1;
1 2 1 1 2 2 1 3 1 1;
1 2 1 1 1 2 1 2 1 1;
1 6 2 1 1 1 1 7 1 1;
1 1 1 1 1 2 1 2 1 2;
1 1 1 1 1 2 1 2 1 1;
1 1 1 1 1 2 2 2 1 1;
1 1 1 1 1 2 1 3 2 1;
1 1 1 2 1 2 2 4 2 1;
1 5 3 3 3 2 3 4 4 1;
1 8 7 5 10 7 9 5 5 4;
1 10 7 7 6 4 10 4 1 2;
1 7 3 2 10 5 10 5 4 4;
1 2 5 3 3 6 7 7 5 1;
1 10 4 3 1 3 3 6 5 2;
1 5 6 5 6 10 1 3 1 1;
1 7 8 7 2 4 8 3 8 2;
1 5 3 3 4 2 4 3 4 1;
1 5 5 5 8 10 8 7 3 7;
1 10 6 6 3 4 5 3 6 1;
1 8 2 4 1 5 1 5 4 4;
1 9 5 5 2 2 2 5 1 1;
1 6 3 4 1 5 2 3 9 1;
1 10 4 2 1 3 2 4 3 10;
1 5 3 4 1 8 10 4 9 1;
1 6 10 2 8 10 2 7 8 10;
1 9 4 5 10 6 10 4 8 1;
1 8 10 10 8 7 10 9 7 1;
1 7 4 6 4 6 1 4 3 1;
];
a0=0.25*ones(20,1);
a1=0.75*ones(20,1);
y0=[a0;a1];
Y=log((1-y0)./y0);
[b,bint,r,rint,stats]=regress(Y,X)
rcoplot(r,rint)
附录五:模型一用求解的回归方程检验第41-78组数据的源程序
X=[
1 5 3 1 2 2 1 2 1 1;
1 2 1 1 1 3 1 2 1 1;
1 5 4 4 5 7 10 3 2 1;
1 6 8 8 1 3 4 3 7 1;
1 2 1 2 1 2 1 3 1 1;
1 4 2 1 1 2 1 2 1 1;
1 2 1 1 1 2 1 2 1 1;
1 1 1 1 1 2 3 3 1 1;
1 4 1 1 1 2 1 3 1 1;
1 6 1 1 1 2 1 3 1 1;
1 5 1 1 1 2 1 2 1 1;
1 1 1 3 1 2 1 1 1 1;
1 3 1 2 1 2 1 2 1 1;
1 4 1 1 3 2 1 3 1 1;
1 1 1 1 1 2 1 2 1 1;
1 4 1 1 1 2 1 3 1 1;
1 5 1 3 1 2 1 2 1 1;
1 1 3 3 2 2 1 7 2 1;
1 1 1 4 1 2 1 2 1 1;
1 3 1 1 1 2 3 3 1 1;
1 2 2 2 1 1 1 7 1 1;
1 10 5 5 3 6 7 7 10 1;
1 5 2 3 4 2 7 3 6 1;
1 10 7 7 3 8 5 7 4 3;
1 10 10 10 8 6 1 8 9 1;
1 5 4 4 9 2 10 5 6 1;
1 6 10 10 2 8 10 7 3 3;
1 10 10 10 4 8 1 8 10 1;
1 3 7 7 4 4 9 4 8 1;
1 9 5 8 1 2 3 2 1 5;
1 10 3 6 2 3 5 4 10 2;
1 10 5 5 6 8 8 7 1 1;
1 8 10 10 1 3 6 3 9 1;
1 5 2 3 1 6 10 5 1 1;
1 5 3 5 5 3 3 4 10 1;
1 9 10 10 1 10 8 3 3 1;
1 8 3 8 3 4 9 8 9 8;
1 10 6 4 1 3 4 3 2 3;
];
for j=1:38;
f=1/(1+exp(1.7551-0.1490*X(j,2)+0.0168*X(j,3)-0.1103*X(j,4)+0.0059*X(j,5)-0.1124*X(j,6)-0.0058*X(j,7)-0.0124*X(j,8)-0.0934*X(j,9)-0.0283*X(j,10)));
if f<=0.5;
y=0;
plot(j,y,'*')
hold on
else
y=1;
plot(j,y,'*')
hold on
end
end
附录六:用问题一的方法判别问题二中20组数据的源程序
X=[
1 10 4 7 2 2 8 6 1 1;
1 5 2 2 2 2 1 2 2 1;
1 8 6 7 3 3 10 3 4 2;
1 6 5 5 8 4 10 3 4 1;
1 1 1 1 1 1 1 2 1 1;
1 10 3 3 1 2 10 7 6 1;
1 2 1 1 1 2 1 1 1 1;
1 7 6 4 8 10 10 9 5 3;
1 1 1 1 1 1 1 1 3 1;
1 4 2 3 5 3 8 7 6 1;
1 5 1 1 1 2 1 3 1 2;
1 5 4 6 6 4 10 4 3 1;
1 1 1 1 1 2 1 1 1 1;
1 1 1 1 1 2 1 3 1 1;
1 8 5 5 5 2 10 4 3 1;
1 1 1 1 1 2 1 3 1 1;
1 1 1 1 1 2 1 1 1 1;
1 1 1 1 1 2 1 1 1 1;
1 3 4 4 10 5 1 3 3 1;
1 5 1 1 3 2 1 1 1 1;
];
for j=1:20;
f=1/(1+exp(1.7551-0.1490*X(j,2)+0.0168*X(j,3)-0.1103*X(j,4)+0.0059*X(j,5)-0.1124*X(j,6)-0.0058*X(j,7)-0.0124*X(j,8)-0.0934*X(j,9)-0.0283*X(j,10)));
if f<=0.5;
y=0;
plot(j,y,'*')
hold on
else
y=1;
plot(j,y,'*')
hold on
end
end
附录七:逐步回归法选出主要指标的程序
clc,clear
x0=[
5 1 1 1 2 1 3 1 1 0
3 1 1 1 2 2 3 1 1 0
4 1 1 3 2 1 3 1 1 0
1 1 1 1 2 10 3 1 1 0
2 1 1 1 2 1 1 1 5 0
1 1 1 1 1 1 3 1 1 0
4 1 1 1 2 1 2 1 1 0
3 1 1 1 2 1 2 1 1 0
1 1 1 1 2 1 3 1 1 0
3 2 1 1 1 1 2 1 1 0
2 1 1 1 2 1 2 1 1 0
3 1 1 1 1 1 2 1 1 0
2 1 1 2 2 1 3 1 1 0
2 1 1 1 2 1 2 1 1 0
6 2 1 1 1 1 7 1 1 0
1 1 1 1 2 1 2 1 2 0
1 1 1 1 2 1 2 1 1 0
1 1 1 1 2 2 2 1 1 0
1 1 1 1 2 1 3 2 1 0
1 1 2 1 2 2 4 2 1 0
5 3 1 2 2 1 2 1 1 0
2 1 1 1 3 1 2 1 1 0
5 4 4 5 7 10 3 2 1 0
6 8 8 1 3 4 3 7 1 0
2 1 2 1 2 1 3 1 1 0
4 2 1 1 2 1 2 1 1 0
2 1 1 1 2 1 2 1 1 0
1 1 1 1 2 3 3 1 1 0
4 1 1 1 2 1 3 1 1 0
6 1 1 1 2 1 3 1 1 0
5 1 1 1 2 1 2 1 1 0
1 1 3 1 2 1 1 1 1 0
3 1 2 1 2 1 2 1 1 0
4 1 1 3 2 1 3 1 1 0
1 1 1 1 2 1 2 1 1 0
4 1 1 1 2 1 3 1 1 0
5 1 3 1 2 1 2 1 1 0
1 3 3 2 2 1 7 2 1 0
1 1 4 1 2 1 2 1 1 0
3 1 1 1 2 3 3 1 1 0
2 2 2 1 1 1 7 1 1 0
5 3 3 3 2 3 4 4 1 1
8 7 5 10 7 9 5 5 4 1
10 7 7 6 4 10 4 1 2 1
7 3 2 10 5 10 5 4 4 1
2 5 3 3 6 7 7 5 1 1
10 4 3 1 3 3 6 5 2 1
5 6 5 6 10 1 3 1 1 1
7 8 7 2 4 8 3 8 2 1
5 3 3 4 2 4 3 4 1 1
5 5 5 8 10 8 7 3 7 1
10 6 6 3 4 5 3 6 1 1
8 2 4 1 5 1 5 4 4 1
9 5 5 2 2 2 5 1 1 1
6 3 4 1 5 2 3 9 1 1
10 4 2 1 3 2 4 3 10 1
5 3 4 1 8 10 4 9 1 1
6 10 2 8 10 2 7 8 10 1
9 4 5 10 6 10 4 8 1 1
8 10 10 8 7 10 9 7 1 1
7 4 6 4 6 1 4 3 1 1
10 5 5 3 6 7 7 10 1 1
5 2 3 4 2 7 3 6 1 1
10 7 7 3 8 5 7 4 3 1
10 10 10 8 6 1 8 9 1 1
5 4 4 9 2 10 5 6 1 1
6 10 10 2 8 10 7 3 3 1
10 10 10 4 8 1 8 10 1 1
3 7 7 4 4 9 4 8 1 1
9 5 8 1 2 3 2 1 5 1
10 3 6 2 3 5 4 10 2 1
10 5 5 6 8 8 7 1 1 1
8 10 10 1 3 6 3 9 1 1
5 2 3 1 6 10 5 1 1 1
5 3 5 5 3