您好,欢迎来到爱问旅游网。
搜索
您的当前位置:首页Bayes 判别分析及应用 201009014119

Bayes 判别分析及应用 201009014119

来源:爱问旅游网
Bayes 判别分析及应用

班级:计算B101姓名:孔维文 学号201009014119

指导老师:谭立云教授

【摘 要】判别分析是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方

法,在社会生产和科学研究上应用十分广泛。在判别分析之前,我们往往已对各总体有一定了解,样品的先验概率也对其预测起到一定作用,因此进行判别时应考虑到各个总体出现的先验概率;由于在实际问题中,样品错判后会造成一定损失,故判别时还要考虑到预报的先验概率及错判造成的损失,Bayes判别就具有这些优点;然而当样品容量大时计算较复杂,故而常借助统计软件来实现。本文着重于Bayes判别分析的应用以及SPSS的实现。

【关键词 】 判别分析 Bayes判别 Spss实现 判别函数 判别准则

Class: calculation B101 name: KongWeiWen registration number 201009014119

Teacher: TanLiYun professor

【.Abstract】Discriminant analysis is based on the study of certain indicators of individual observations to infer that the individual belongs as a type of statistical methods in social production and scientific research is widely used. In discriminant analysis, we often have a certain understanding of the overall sample of the a priori probability of its prediction play a role, it should be taken into account to determine the overall emergence of various prior probability; because of practical problems, samples will result in some loss of miscarriage of justice, so identification must be considered when the prior probability and wrongly predicted loss, Bayes discriminant to have these advantages; However, when the sample is large computing capacity of more complex, often using statistical software Guer to achieve. This article focuses on the application of Bayes discriminant analysis, and implementation of SPSS.

【Key words】 Discriminant analysis; Bayes discriminant; Spss achieve; Discriminant

function; Criteria;

1.1.1 判别分析的概念

在科学研究中,经常会遇到这样的问题:某研究对象以某种方式(如先前的结果或经验)已划分成若干类型,而每一种类型都是用一些指标X(X1,X2,Xp)T来表征的,即不同类型的X的观测值在某种意义上有一定的差异。当得到一个新样品(或

山东轻工业学院2010届本科生毕业论文

个体)的关于指标X的观测值时,要判断该样品(或个体)属于这几个已知类型中的哪一个,这类问题通常称为判别分析。也就是说,判别分析是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方法。

判别分析的目的是得到体现分类的函数关系式,即判别函数。基本思想是在已知观测对象的分类和特征变量值的前提下,从中筛选出能提供较多信息的变量,并建立判别函数;目标是使得到的判别函数在对观测量进行判别其所属类别时的错判率最小。

判别函数的一般形式是:Ya1x1a2x2anxn.

其中,Y为判别函数判别值;x1,x2,,xn为反映研究对象特征的变量;a1,a2,,an 为各变量的系数,即判别系数。常用的判别法有距离判别法、Fisher判别法和Bayes判别法。

用统计语言来描述判别分析,就是已知有g个总体G1,G2,,Gg(每个总体Gi可认为是属于Gi的指标X(X1,X2,,Xp)T取值的全体),它们的分布函数

F1(x),F2(x),,Fg(x)均为p维函数,对于任一给定的新样品关于指标X的观测值

x(x1,x2,,xp)T,我们要判断该样品应属于这g个总体中的哪一个。

1.1.2 判别分析的应用及意义

判别分析的应用十分广泛。例如,在工业生产中,要根据某种产品的一些非破坏性测量指标判别产品的质量等级;在经济分析中,根据人均国民收入、人均工农业产值、人均消费水平等指标判断一个国家、某个省市经济发展程度所属的类型;在考古研究中,根据挖掘的古人头盖骨的容量、周长等判断此人的性格;在地质勘探中,根据某地的地质结构、化探和物探等各项指标来判断该地的矿化类型;在医学诊断中,医生要根据某病人的化验结果和病情征兆判定病人患哪一种疾病,等等。值得注意的是,作为一种统计方法,判别分析所处理的问题一般都是机理不甚清楚或基本不了解的复杂问题,如果样品的某些观测指标和其所属类型有必然的逻辑关系,也就没有必要应用判别分析方法了。

在实际应用中,通常由取自各总体的关于指标X的样本为该总体的代表,该样本称为训练样本,判别分析即提取训练样本中各总体的信息以构造一定的准则来决定新样品的归属感。训练样本往往是历史上对某现象长期观察或者是用昂贵的试验手段得到的,因此对当前的新样品,我们自然希望将其指标中的信息同各总体训练样本中的信息作比较,使可在一定程度上判定新样品的所属类型。概括起来,下述几方面体现了判别分析的重要意义。

第一,为未来的决策和行动提供参考。例如,以前对一些公司在破产前两年观测到某些重要的金融指标值。现在,要根据另一个同类型公司的这些指标的观测值,预测该公司两年后是否将频临破产的危险,这便是一种判别,其结论可以帮助该公司决策人员及早采取措施,防止将来可能破产的结局。

1

山东轻工业学院2010届本科生毕业论文

第二,避免产品的破坏。例如,一只灯泡的寿命只有将它用坏时才能得知;一种材料的强度只有将它压坏时才能获得。一般地,我们希望根据一些非破坏性的测量指标,便可将产品分出质量等级,这也要用到判别分析。

第三,减少获得直接分类信息的昂贵代价。例如在医学诊断中,一些疾病可用代价昂贵的化验或手术得到确诊,但通常人们往往更希望通过便于观测的一些外部症状来诊断,以避免过大的开支和患者不必要的损伤。

第四,在直接分类信息不能获得的情况下可用判别分析。例如,要判断某未署名的文学作品是否出自某已故作家之手,很显然,我们不能直接去问他。这是可以用判别分析方法在一定程度上判定该署名作品是否由该作家所作。

从以上例子也可以清楚地看出,如果不是利用直接明确的分类信息来判断某新样品的归属问题,难免会出现误判的情况,判别分析的任务是依据训练样本所提供的信息,建立在某种意义下最优(如误判概率最小或误判损失最小)的准则来判定一个新样品属于哪一个总体。

2.1 Bayes判别分析的前提假设

在介绍具体判别方法前首先来看判别分析的假设条件。这一点非常重要,如果数据不满足分析的前提条件,分析的结果是值得怀疑的。

(1)各个判别变量服从正态分布,由各个判别变量的联合分布是多元正态分布。只有在这个条件下,我们才可以进行有关的显著性检验。

(2)各判别变量不能存在多重共线性。这样变量组成的矩阵将不存在逆,判别分析的计算不能进行。

(3)每个变量在各类中的取值应存在显著性差异。只有在这个假设下才能通过变量建立有效地判别函数将各类区分出来。

2.2 Bayes判别的基本思想

Bayes 统计是现代统计学的重要分支,其基本思想[1]是:假定对所研究的对象(总体)在抽样前已有一定的认识,常用先验分布来描述这种认识,然后给予抽取的样本再对先验认识作修正,得到后验分布,而各种统计推断均基于后验分布进行。将Bayes统计的思想用于判别分析,就得到Bayes判别方法。

用统计的语言来描述Bayes判别分析[2]: 已知有g个p维总体G1,G2,,Gg(每个总体Gi可认为是属于Gi的指标XX1,X2,,Xg取值的全体),它们的先验概率分别为q1,q2,,qg(他们可由经验给出也可以估计出),显然应有qi0(i1,2,,g)且

qi1gi1。各总体分别具有互不相同的p维密度函数f1(x),f2(x),,fgx(在离散情形

是概率函数),在观测到一个样本x的情形下,可用著名的Bayes公式计算它来自第k总

2

山东轻工业学院2010届本科生毕业论文

体的后验概率(相对先验概率来说,将它又称为后验概率):

P(k/x)qkfk(x)qi1g k1,2,,g (2-2-1)

ifi(x)并且当 P(h/x)maxP(k/x) 时,则判X来自第h个总体.

1kg有时还可以使用错判损失最小的概念作判别函数。这时把x错判归第h总体的平均损失定义为

E(h/x)khqkfk(x)qi1gLh/k (2-2-2)

ifi(x)其中L(h/k)称为损失函数。它表示本来是第k总体的样品错判为第h总体的损失。显然上式是对损失函数依概率加权平均或称为错判的平均损失。当hk时,有

L(h/k)=0,当hk时,有L(h/k)>0.建立判别准则为

如果 E(h/x)minE(k/x) ,则判x来自第h个总体.

1kg原则上说,考虑损失函数更为合理,但是在实际应用中L(h/k)不容易确定,因此常常在数学模型中就假设各种错判的损失皆相等,即

hk0L(k/x)1 hk (2-2-3)

这样一来,寻找h使后验概率最大和使错判的平均损失最小是等价的,即

hhp(h/x)maxE(h/x)min

2.3 两正态分布的Bayes判别[6]

2.3.1马氏 (Mahalanobis) 距离和判别函数

设G是p维总体,数学期望为,协方差矩阵为,p维样本x到总体G的马氏距离定义为

12d(x,G)ˆ[(x)T1(x)] (2-3-1)

设G1,G2为不同的两个p维总体,数学期望分别为1和2,协方差矩阵分别为1和2, 考察样品x到两总体的马氏距离的平方差,并根据式(1)可得

d2(x,G2)d2(x,G1)2(x)T1(12),(12)/2 (2-3-2)

W(x)为判别函数, 令

W(x)(x)T1(12) (2-3-3)

2.3.2 Bayes判别函数

3

山东轻工业学院2010届本科生毕业论文

设G1,G2为两个不同的p维正态总体,这时其概率密度为

fi(x)(2)p2i121exp(xi)Ti1(xi),i1,2 (2-3-4)

2其中i和i(i1,2)为两总体的均值向量和协方差矩阵,i表示矩阵i的行列式(i1,2)。假设两正态总体的协方差矩阵相等,即12。这时可得

f1(x)1exp(x2)T1(x2)(x1)T1(x1) f2(x)21 expd2x,G2d2x,G1

2 expWx, 其中 W(x)[x112]T1(12) (2-3-5) 2ˆ1=x(1),ˆ2=x(2)和实际应用中,若1,2和未知,则用训练样本作估计,即以ˆ(n11)S1(n21)S2代替式(5)中的1和2和. n1n222.4 多正态总体的 Bayes判别

将两正态总体的 Bayes判别推广到多正态总体的判别分析中.设g个p维正态总体G1,G2,,Gg其概率密度函数同式(4).

假设各正态总体的协方差矩阵相等,即12g, 则判别函数为W1xiT1x1T1iilnqi,其中i1,2,3,,g. 2实际应用中,若i,i未知,则以训练样本作估计,即以训练样本的样本均值x(i)和样本方差Si作为i和i的估计,此时

n11S1n21S2ng1Sg/(n1n2ngg). 2.5 判别准则

在此介绍错判的平均损失最小原则的理论。

(1)两正态总体的Bayes判别准则.设总体G1,G2的先验概率分布分别为q1和q2, 误判损失分别为c(2|1)和c(1|2).对给定的样品x,计算两总体的概率密度函数在x处的函数值,其Bayes判别准则为

q2c1|2若W(x)ln,xG1,qc2|11 , (2-3-6)

qc1|2若W(x)ln2,xG2q1c2|1 4

山东轻工业学院2010届本科生毕业论文

(2)多正态总体的Bayes判别准则.设总体G1,G2,,Gg的先验概率分布分别为

q1,q2,,qg ,误判损失为c(j|i)(i,j1,2,,g,ij). 记c(j|i)=0在等误判损失下, 其 Bayes判别准则为

Wk(x)Wi(x),则xGi (2-3-7) 若 max1kg2.6 判别准则的评价[1]

当一个判别分析提出后,很自然的问题就是它们的优良性如何。通常,一个判别准则的优势,用它的误判率来衡量。以两个总体为例,一个判别准则的误判率即x属于G1而判归G2后的概率,但只有当总体的分布完全已知时,才有可能精确计算误判概率。在实际应用中,这种情况是很少见的,因为在大多数情况下,我们可利用的资料只是来自各总体的训练样本,而总体的分布是未知的。下面我们以两个总体为例,介绍两种以训练样本为基础的评价判别准则优劣的方法。它们很容易推广到多个总体的情况。

1.貌似误判率方法

当利用各总体的训练样本构造出判别准则后,评估此准则优劣的一个可行的办法是通过对训练样本中的各样品逐个回判(即将各样品代入判别准则中进行再判别),利用回判的误判率来衡量判别准则的效果,具体办法如下:

(k)(k)(k)设G1,G2为两个总体,x1k1,2 为来自G1和G2的容量分别为n1和,x2,,xnk以此按一定方法(如Bayes判别法)构造一个判别准则(或判别函数),n2的训练样本,

以全体训练样本作为n1n2个新样品,逐个代入已建立的判别准则中判别其归属,这个过程称为回判,为明了起见,将回判结果连同其实际分类列成如下的四格表2-6-1。

表1 两总体回判结果

回判情况 实际归类 G1 G2 合计 n1 n2 G1 G2 n11 n12 n21 n22 其中 n11:属于G1的样品被正确判归G1的个数,

n12:属于G1的样品被正确判归G2的个数,

n21:属于G2的样品被正确判归G1的个数,

n22:属于G2的样品被正确判归G2的个数。 很显然有

n11+n12=n1 , n21+n22=n2。

5

山东轻工业学院2010届本科生毕业论文

ˆ,即 定义貌似误判率为回判中判错样品的比例,记为aˆ an12n21 (2-3-8)

n1n2ˆ在一定程度上反映了某判别准则的误判率且对任何判别准则都易于计算。但是, aˆ是由建立判别函数的数据反过来又用作评估准则优劣的数据而得到的,ˆ作为真a因此a实误判率的估计是有偏的,往往要比真实的误判率来的小。但作为误判概率的一种近似,当训练样本容量较大时,还是具有一定的参考价值。

2.刀切法

刀切法也称为交叉确认法(Cross-Validation)。其基本思想: 每次剔除训练样本中的一个样品, 利用其余容量为n1n21的训练样本建立判别函数,再用所建立的判别函数对删除的那个样品作判别。对训练样本中的每个样品重复上述步骤 , 以其误判的比例作为误判概率的估计。具体步骤如下:

(1)从总体G1的容量为n1的训练样本开始, 剔除其中的一个样品, 用剩余的n11个训练样本和总体G2的容量为n2的训练样本建立判别函数;

(2)用步骤(1)中建立的判别函数对剔除的样品作判别;

(3)重复步骤(1)和(2),直到总体G1的训练样本中的n1个样品依次被剔除和判别,

J)用n1(M记误判样品个数;

J)(4)对总体G2的容量为n2 的训练样本重复步骤(1)~(3),用n2(M记误判的样品个

数.则总的误判比例为

n1Mn2Mˆ . Jn1n2可以证明它是实际误判概率的渐进无偏估计。

刀切法比貌似误判率方法要更合理些,但缺点是计算量大。

(J)(J)3. 实例分析

为研究舒张期血压和血浆胆固醇对冠心病的作用[5],某医师测定了50—59岁冠心病人15例和正常人16例的舒张压和胆固醇指标,结果如表3-3所示。试做判别分析,建立判别函数以便在临床中用于筛选在临床中用于筛选冠心病人。

表:2数据表

编号 1 冠心病人组 舒张压 胆固醇 编号 9.86 5.18 16 正常人组 舒张压 胆固醇 10.66 2.07 6

山东轻工业学院2010届本科生毕业论文

2 3 4 5 6 7 8 9 10 11 12 13 14 15 13.33 14.66 9.33 12.8 10.66 10.66 13.33 13.33 13.33 12 14.66 13.33 12.8 13.33 3.73 3.89 7.1 5.49 4.09 4.45 3.63 5.96 5.7 6.19 4.01 4.01 3.63 5.96 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 12.53 13.33 9.33 10.66 10.66 9.33 10.66 10.66 10.66 10.4 9.33 10.66 10.66 11.2 9.33 4.45 3.06 3.94 4.45 4.92 3.68 2.77 3.21 5.02 3.94 4.92 2.69 2.43 3.42 3.63

4.判别分析的结果

1.各组的描述统计量和对各组均值是否相等的检验。

表3: 分析个案综合统计量

Analysis Case Processing Summary Unweighted Cases Valid Excluded Missing or out-of-range group codes At least one missing discriminating variable Both missing or out-of-range group codes and at least one missing discriminating variable Total Total N 31 0 0 Percent 100.0 .0 .0 0 0 31 .0 .0 100.0

表3反映的是有效样本量及变量缺失的情况;按变量“组别”分组共有31个样本为判别基础数据进入分析,其中第一组十五例,第二组十六例

表4: 分组统计量

7

山东轻工业学院2010届本科生毕业论文

Group Statistics 类别 冠心病人组 正常人组 Total Mean 12.4940 4.8680 10.6287 3.6625 11.5313 4.2458 Std. Deviation 1.6406 1.1295 1.0968 .9247 1.6600 1.1823 Valid N (listwise) Unweighted Weighted 15 15.000 15 15.000 16 16.000 16 16.000 31 31.000 31 31.000 舒张压 胆固醇 舒张压 胆固醇 舒张压 胆固醇

表4是各组变量的描述统计分析列表;表中给出分组变量和合计的均数(means)、标准差(standard deviation)和有效个案的例数。

表5: 各组均值相等性检验

Tests of Equality of Group Means 舒张压 胆固醇 Wilks' Lambda .674 .732 F 14.017 10.633 df1 1 1 df2 29 29 Sig. .001 .003

表5是对各组均值是否相等的检验,F值越大,Wilks’Lsmbda越小,平均数的差异越大;由sig值可以看出,在0.01的显著性水平上拒绝变量在两组的均值相等的假设,即认为变量在两组的均值是有极显著性差异的。

2.对各组协方差矩阵是否相等的Box's M检验。

表6: Log Determinants表 Log Determinants 类别 冠心病人组 正常人组 Pooled within-groups Rank Log Determinant 1.048 .004 .605 2 2 2 The ranks and natural logarithms of determinants printed are those of the group covariance matrices.

表:6反映协方差矩阵的秩和行列式的对数值。由行列式值可以看出协方差矩阵不是病态矩阵。

表:7: Test表

8

山东轻工业学院2010届本科生毕业论文

3 177952 2.8.4 Sig. hypothesis 57 of equal Tests null population covariance matrices. Box's MF Approx. df1 df Test Results 2.815 .868

表7是对各总体协方差阵是否相等的统计检验。又F值及其显著性水平,我们在0.05的显著性水平下拒绝原假设(原假设假定各总体协方差阵相等),即变量遵从正态分布。所以认为选取的变量是满足判别分析的假定的。

3.典型判别函数的分析

表8: 典型判别函数的特征值表

Eigenvalues Function 1 Eigenvalue % of Variance a 1.239 100.0 Cumulative % 100.0 Canonical Correlation .744 a. First 1 canonical discriminant functions were used in the analysis.

表:8所示是典型判别函数的特征值表,其特征(Eigenvalue)为组间平方和与组内平方和之比,计算得1.239,典型相关系数(Canonical Corr)为0.744。

表9: Wilks 检验

Wilks' Lambda Test of Function(s) 1 Wilks' Lambda Chi-square .447 22.571 df 2 Sig. .000

表9是对第一个判别函数的显著性检验。其中Wilks值为0.447,卡方检验统计量的观测值为22.571,概率sig值为0.001,小于0.05,认为判别函数在0.01的显著性水平上是极显著的。

4.判别函数系数表

表10: 标准化典型判别函数系数

9

山东轻工业学院2010届本科生毕业论文

Standardized Canonical Discriminant Function Coefficients Function 1 .884 .823 舒张压 胆固醇 表:10给出典型判别函数的标准化系数,其标准化函数为:f0.884x10.823x2 判别函数方程的标准化系数就是前面提到的判别权重,即根据判别函数方程的标准化系数,可以确定各变量对结果的作用大小,本例舒张压的标准化系数为0.884大于胆固醇的标准化系数0.823,因而舒张压对冠心病的影响作用大于胆固醇。

Canonical Discriminant Function Coefficients Function 1 .638 .800 -10.753 表:11: 典型判别函数系数 舒张压 胆固醇 (Constant) Unstandardized coefficients

表11所示为典型判别函数的系数,其典型函数为:f10.7530.638x10.8x2 5.以下输出结果是分类的统计结果

表12 分类过程摘要表

Classification Processing Summary Processed Excluded Missing or out-of-range group codes At least one missing discriminating variable 31 0 0 31 Used in Output

表12概括了分类过程,说明31个观测都参与分类。

表13: 先验概率表

10

山东轻工业学院2010届本科生毕业论文

Prior Probabilities for Groups 类别 冠心病人组 正常人组 Total Prior .500 .500 1.000 Cases Used in Analysis Unweighted Weighted 15 15.000 16 16.000 31 31.000

表13包括各类别和全部对应的先验概率(Prior)和参与分析的未加权(Unweighted)和经过加权(weighted)的个案数(Cases Used in Analysis)。各类别的先验概率等于1除以类别数。本例中,我们在Classify选项中选择的是所有组的先验概率相等,类别数等于2,所以各类别的先验概率等于0.5。

表14 费歇尔线性判别函数系数表 Classification Function Coefficients 类别 冠心病人组 正常人组 8.418 7.043 8.181 6.457 -73.191 -49.948 舒张压 胆固醇 (Constant) Fisher's linear discriminant functions

利用该表得到两个类别的分类判别函数为:

冠心病人组:f173.1918.418x18.181x2 正常人组:f249.9486.457x17.043x2

我们可以计算出每个观测在各组的分类函数值,然后将观测分类到较大的分类函数值中。例如某个个案的指标为12、6.19.代入函数得到,f1=78.459,f2=71.132,可以看出f1较大,所以将此个案归入冠心病人组。

表15: 分类矩阵表

11

山东轻工业学院2010届本科生毕业论文

b,c Classification Results Original Count % a Count Cross-validated% 类别 冠心病人组 正常人组 冠心病人组 正常人组 冠心病人组 正常人组 冠心病人组 正常人组 Predicted Group Membership 冠心病人组 正常人组 12 3 3 13 80.0 20.0 18.8 81.3 12 3 4 12 80.0 20.0 25.0 75.0 Total 15 16 100.0 100.0 15 16 100.0 100.0 a. Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case. b. 80.6% of original grouped cases correctly classified. c. 77.4% of cross-validated grouped cases correctly classified.

表中Predicted Group Membership表示预测的所属组关系,Original表示原始数据的所属组关系,Cross-validated表示交叉验证的所属组关系,这里交叉验证是采用“留一个在外”的原则,即每个观测是通过除了这个观测以外的其他观测推导出来的判别函数来分类的。

由表15可以看出,通过判别函数预测,有25个观测是分类正确的,其中y=1组15个观测中有12个观测被判对,y=2组16个观测中有13个观测被判对,从而有25/31=80.6%的原始观测被判对。在交叉验证中,y=1组15个观测中有12个观测被判对,y=2组16个观测中有12个观测被判对,从而有24/31=77.4%的原始观测被判对。还可以通过分类结果分析判对和判错的百分比。最后系统对回代判别情况做出评价,即病人组正确率为80.0%,正常人组为81.3%,总判别正确率为80.65%;交叉验证法的正确率为77.4%,说明该判别函数的正确率还是较高的。

12

参考文献

[1] 梅长林、周家良.实用统计方法[M].北京:科学出版社,2002.86-110

[2] 茆诗松、王静龙、濮晓龙.高等数理统计[M].北京:高等教育出版社;海德堡:

施普林格出版社,1998.7.362-381

[3] 于秀林、任雪松.多元统计分析[M].北京:中国统计出版社,1995.5.128-152 [4] 米红、张文璋.实用统计分析方法与SPSS应用[M].2000.10 [5] 苏金明.统计软件SPSS for Windows 实用指南[M].2000.9. 478-492

[6] 李静萍、谢邦昌.多元统计分析方法与应用[M].北京:中国人民大学出版

社,2008.71-87

13

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- awee.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务