承 诺 书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): B 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 延安大学西安创新学院 参赛队员 (打印并签名) :1. 毛华 指导教师或指导教师组负责人 (打印并签名) :
日期: 2015年 8 月 4 日 赛区评阅编号(由赛区组委会评阅前进行编号):
编 号 专 用 页
赛区评阅编号(由赛区组委会评阅前进行编号):
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
银行信贷业务问题
摘要
银行信贷业务是银行最基本、最重要的资产业务,通过发放银行贷款收回本金和利息,扣除成本后获得利润。银行为了获得更大的利润,对每一位顾客的信息进行分类,然后对不同的顾客采用不同的方案。
针对问题一本文应用SPSS 软件对附件bank1中的部分数据进行二元Logistic 回归分析。建立Logistic 回归方程,并将数据带入计算出比值odds ,当比值odds >0.05时,此客户有贷款;当比值odds
针对问题二本文应用SPSS 软件构造决策树模型对有贷款和无贷款的模型进行细分,只选取题中所给数据bank1中贷款、工作、婚姻状况、年平均余额等数据,把有无贷款定义为因变量,贷款、工作、婚姻状况、年平均余额定义为自变量,画出决策树。把决策树的每一个分支作为一个分类,由此本文把有贷款的和无贷款的各分为五类。
针对问题三本文将其分为两个小问题来解决,(1)任意给出一个客户信息通过问题一所建立的模型判断此客户是否可能购买贷款产品,当odds >0.05时,客户有贷款,可能购买贷款产品;当odds
关键词:Logistic 回归分析 决策树 比值判别法
一、 问题的重述
银行信贷业务是银行最基本、最重要的资产业务,通过发放银行贷款收回
本金和利息,扣除成本后获得利润。一般来说,银行信贷业务是银行赢利的重要手段,所以很多银行都推出了很多新的业务来满足更多人士的贷款需求。从银行信贷业务的分类来说,可以分为法人信贷业务、个人信贷业务。其中法人信贷业务包括项目贷款、流动资金贷款、小企业贷款、房地产企业贷款等;个人信贷业务包括个人住房贷款、个人消费贷款、个人经营贷款等。
银行信贷业务同时也是风险性较大的一种业务。按照贷款期限来说,银行信贷业务分为短期贷款,即一年以内;中期贷款,即一年以上五年以下;长期贷款,五年以上等三种类型。按保障条件来分,银行信贷业务可以分为信用贷款、担保贷款和票据贴现等三个类别。
某银行为了对客户提供更好的信贷服务,对信用卡客户进行了详细的分析和调查。调查主题是对某种家庭和个人背景的用户成为银行信贷的潜在客户的可能性进行分析与判断。
问题一:建立能够描述有贷款和无贷款的客户的基本背景数据模型; 问题二:对有贷款和无贷款的客户群进行细分建模;
问题三:给定一个客户的背景,判断其是否可能购买贷款产品,如果可能的话建议其购买哪种贷款产品。
二、 问题的分析
2.1问题一的分析
问题一要求我们建立能够描述有贷款和无贷款的基本背景的数据模型,本文首先将bank1中的数据进行处理(数据见附录一),然后把数据导入SPSS 中进行二元Logistic 回归分析。假设是否贷款只与age 、工作、婚姻状况、受教育程度、是否有房贷有关。回归分析时因变量为是否贷款,协变量为age 、工作、婚姻状况、教育程度、是否有房贷,并且设置进入概率为N=0.05, 分类标准值为0.5,分析贷款与自变量之间的关系,建立Logistic 回归模型,从而描述客户的背景。 2.2问题二的分析
问题二要求我们对有贷款和无贷款的客户群进行细分建模。首先在题中所给数据bank1表格中选取贷款、工作、婚姻、年平均余额的数据,并将这些数据导入SPSS 软件中,构建决策树模型。 2.3问题三的分析
问题三要求我们给定一个客户的背景,判断其是否可能购买贷款产品,如果可能的话建议其购买哪种贷款产品,在这一问中我们把它分为两小问来处理。(1)给定一个客户的信息判断其是否可能购买贷款产品,然后把个人信息代入到问题一所建立的模型中,得出他是否会购买贷款产品。(2)首先我们把问题二中得到的有贷款的客户细分类进行贷款产品配对,然后把客户信息代入问题二的模型中,看出应该给他推荐哪一类贷款产品。
三、 模型假设与符号说明
3.1模型假设
1. 假设有无贷款只与age 、工作、婚姻状况、教育程度、是否有房贷有关,与其他因素无关。
2. 假设客户购买贷款产品只与家庭背景有关。
四、 模型的建立与求解
4.1问题一的分析与处理
问题一要求我们建立能够描述有贷款和无贷款的基本背景的数据模型,本文首先将bank1中的数据进行处理(见附录一),然后把数据导入SPSS 中进行二元Logistic 回归分析[1-2] 。假设是否贷款只与age 、工作、婚姻状况、受教育程度、是否有房贷有关。
回归分析时因变量为是否贷款,协变量为age 、工作、婚姻状况、教育程度、是否有房贷,并且设置进入概率为N 0.05, 分类标准值为0.5,分析贷款与自变量之间的关系,从而描述客户的背景。
以下是利用SPSS
软件进行Logistic 回归分析得:
表1给出了案例处理汇总摘要。从该表可以得到参与回归分析的样本数据共有4521个,没有缺失案例,参与率为100%。
有贷款的编码是1。
表2给出了因变量在迭代运算中的编码表,从该表可以看出无贷款的编码0,
表3给出了模型中只有常数项而无自变量时,正常预测的百分率为84.7%。也就是说,原数据的4521个观察个体中,无贷款的有3830人,有贷款的有691人,如果每一个个体均分布到无贷款中,则可以的到正确预测百分率为84.7%。
表4给出了模型中只有常数项而无自变量时的回归参数及其检验结果。这里
691
ˆ=ln ≈-1.712,S . E . 为参数的渐进标准误,Sig 为Wald 卡方B =log it P
1-
4521
()
值在自由度为1时对应的检验P 值。
检验某一自变量与应变量之间有无联系。由表可看出Score χ2=19.451, 自由度
df =5,相应的P 值为0.002。又因为检验标准为0.05,说明模型全局性检验有
统计学意义。
由表8可建立Logistic 预测概率模型,其中x 1、x 2、x 3 x 11、x 12分别表示12种工作,失业、管理人员、蓝领、自由职业者、技术员、企业家、服务、行政管理、学生、女仆、退休、未知的,a 1、a 2、a 3分别表示结婚、单身、离婚,b 1、
b 2、b 3、b 4分别表示初级的、高等的、中级的、未知的, c 1、c 2分别表示无住房贷款、有住房贷款。d 1、d 2、 d 11、d 12分别表示十二种工作所对应线性回归的系
数,e 1、e 2分别表示结婚、离婚,f 1、f 2、f 3分别表示教育程度初级的、高等的、
中级的,m 1、m 2分别表示无住房贷款、有住房贷款由表可知,B 为这些变量对应的标准化回归系数,建立的模型为
ˆ=e P
⎛12
d i x i + i =1⎝
∑∑
j =1
2
e j a j +
∑
k =1
3
f k b k +
∑m l c l -0.986-0.008⎪⎪
l =1
2
⎫⎭
1+e
⎛12
d i x i + i =1⎝
∑∑e j a j +∑
j =1
k =1
23
⎫
f k b k +m l c l -0.986-0.008⎪
⎪l =1⎭
∑
2
232
⎛p ⎫12ln ⎪=∑d i x i +∑e j a j +∑f k b k +∑m l c l -0.986-0.008
j =1k =1l =1⎝1-p ⎭i =1
∑p
=e 1-p
12
232⎛12⎫
d i x i +e j a j +f k b k +m l c l -0.986-0.008⎪ i =1⎪j =1k =1l =1⎝⎭
∑∑∑
假设建设了如下的Logistic 回归方程:
Logit P =
∑d i x i +∑e j a j +∑f k b k +∑m l c l
i =1
j =1
k =1
l =1
23
2
-0.986-0.008
对于变量,如果有则为1,无为0,比如:客户工作为蓝领x 3=1,其他x 变量为0,以此类推。
比值[3]:
odds =e
⎛12
d i x i + i =1⎝
∑∑
j =1
2
e j a j +
∑
k =1
3
f k b k +
∑
⎫
m l c l -0.986-0.008⎪
⎪l =1⎭
2
当比值(odds )>0.05时,客户有贷款;当比值(odds )
问题二要求我们对有贷款和无贷款的客户群进行细分建模。首先在题中所给数据bank1表格中选取贷款、工作、婚姻、年平均余额的数据,并将这些数据导入SPSS 软件中,然后应用决策树分析建立模型[1-2]。
本文以贷款为因变量,工作、婚姻、年平均余额为自变量而建立的模型,以下是该模型的结果。
由表9可知,本文选用的生长方法为分类与分类树,因变量为贷款,自变量为工作、婚姻、年平均余额为自变量,最大树深为3层结果共有8个结,终末结有5个,树深实际为
2个。
表
图一 系统分类树结构图
图一是系统分类树结构图,根结中无贷款的占84.7%,共有3830例;有贷款的占15.3%,共有691例;通过年平均余额分类,年平均余额≤-1.0归类为节点1,年平均余额(-1.0,724.0]归类为节点2,年平均余额为>724.0则归类为节点3;通过婚姻状况分类,结婚和离婚的归类为结点4,单身的分类为结点5,再更加工作是否自由将工作分为两类,第一类工作有:失业、管理人员、技术员、服务、行政管理人员、学生、女仆、未知的;第二类工作有:蓝领、自由
职业者、企业家、退休,结构图中还计算出各类所占的比例和这类的人数。
根据分类树结构图和终末结的分类规则(规则见附录三),将有贷款分为五类,无贷款的分为五类 有贷款:
第一类:年平均余额≤-1.0的人
第二类:年平均余额(-1.0,724.0]的人
第三类:年平均余额为>724.0,结婚和离婚的人 第四类:年平均余额为>724.0单身的第一类工作者 第五类:年平均余额为>724.0单身的第二类工作者 无贷款:
第一类:年平均余额≤-1.0的人
第二类:年平均余额(-1.0,724.0]的人
第三类:年平均余额为>724.0,结婚和离婚的人 第四类:年平均余额为>724.0单身的第一类工作者 第五类:年平均余额为>724.0单身的第二类工作者 4.3问题三的分析与处理
银行信贷业务是风险较大的一种业务,按照贷款期限来说,银行信贷业务可分为短期贷款、中期贷款、长期贷款,按保障条件来分,银行信贷业务可以分为信用贷款、担保贷款、票据贴现等三个类别。
问题三要求我们给定一个客户的背景,判断其是否可能购买贷款产品,如果可能的话建议其购买哪种贷款产品。
首先,针对客户是否可能购买贷款产品,我们先将客户背景代入问题一所建立的模型中,计算比值(odds ),当odds >0.05时,客户有贷款,可能购买贷款产品;当odds
由客户的信息可以知道,我们将x 7=1、a 1=1、b 1=1、其他变量为0代入到问题一所建立的模型中,计算得到odds >0.05,所以该客户有贷款,有可能购买贷款产品。
然后,根据客户的背景,建议其购买那种贷款产品。对于这个问题,由本文问题二可以知道将有贷款的客户和无贷款的客户细分为十类,由此我们建议他们购买不同的贷款产品,具体建议如下图二所示。
图二 贷款分类图
根据上述建议,该客户应该购买短期的信用贷款。
五、 模型评价
5.1模型优点:
1)本文运用Logistic 回归模型,此模型首先考虑的是选择变量进入模型,先选定一个回归变量,然后逐个引入其他回归变量,这样就将对结果影较小的变量淘汰,所以此模型计算量小。
2)这个模型有相应的软件支持,可信度高。决策树阶段明显,便于理解。5.2模型缺点:
影响因素考虑不够全面。
六、 参考文献
[1] 宇传华. SPSS 与统计分析[M].北京:电子工业出版社,2007.
[2] 陈胜可. SPSS 统计分析从入门到精通(第二版)[M].北京:清华大学出版社,2013.
[3] k1h2d33. 百度文库.
http://wenku.baidu.com/view/8bcaa5bafd0a79563c1e720f.html?qq-pf-to=pcqq.discussion .2015-8-2.
七、 附录
附录一
问题一bank1中的数据处理结果:
C:\Documents and Settings\Administrat
附录二
问题二bank1中的数据处理结果:
C:\Documents and Settings\Administrat
附录三
这是每一个终末结的分类规则: STRING pre_001 (A3).
/* Node 1 */.
DO IF (VALUE(年平均余额) LE -1). COMPUTE nod_001 = 1. COMPUTE pre_001 = 'no'.
COMPUTE prb_001 = 0.718579. END IF. EXECUTE.
/* Node 2 */.
DO IF (SYSMIS(年平均余额) OR (VALUE(年平均余额) GT -1 AND V ALUE(年平均余额) LE 724)). COMPUTE nod_001 = 2. COMPUTE pre_001 = 'no'.
COMPUTE prb_001 = 0.834968. END IF. EXECUTE.
/* Node 4 */.
DO IF (VALUE(年平均余额) GT 724) AND (婚姻 NE "单"). COMPUTE nod_001 = 4. COMPUTE pre_001 = 'no'.
COMPUTE prb_001 = 0.874622. END IF. EXECUTE.
/* Node 6 */.
DO IF (VALUE(年平均余额) GT 724) AND (婚姻 EQ " 单") AND (工作 NE " 蓝领" AND 工作 NE " 自由职业者" AND 工作 NE " 企业家" AND 工作 NE "退休").
COMPUTE nod_001 = 6. COMPUTE pre_001 = 'no'.
COMPUTE prb_001 = 0.956522. END IF. EXECUTE.
/* Node 7 */.
DO IF (VALUE(年平均余额) GT 724) AND (婚姻 EQ " 单") AND (工作 EQ " 蓝领" OR 工作 EQ " 自由职业者" OR 工作 EQ " 企业家" OR 工作 EQ "退休"). COMPUTE nod_001 = 7. COMPUTE pre_001 = 'no'.
COMPUTE prb_001 = 0.810526. END IF. EXECUTE.
承 诺 书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): B 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 延安大学西安创新学院 参赛队员 (打印并签名) :1. 毛华 指导教师或指导教师组负责人 (打印并签名) :
日期: 2015年 8 月 4 日 赛区评阅编号(由赛区组委会评阅前进行编号):
编 号 专 用 页
赛区评阅编号(由赛区组委会评阅前进行编号):
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
银行信贷业务问题
摘要
银行信贷业务是银行最基本、最重要的资产业务,通过发放银行贷款收回本金和利息,扣除成本后获得利润。银行为了获得更大的利润,对每一位顾客的信息进行分类,然后对不同的顾客采用不同的方案。
针对问题一本文应用SPSS 软件对附件bank1中的部分数据进行二元Logistic 回归分析。建立Logistic 回归方程,并将数据带入计算出比值odds ,当比值odds >0.05时,此客户有贷款;当比值odds
针对问题二本文应用SPSS 软件构造决策树模型对有贷款和无贷款的模型进行细分,只选取题中所给数据bank1中贷款、工作、婚姻状况、年平均余额等数据,把有无贷款定义为因变量,贷款、工作、婚姻状况、年平均余额定义为自变量,画出决策树。把决策树的每一个分支作为一个分类,由此本文把有贷款的和无贷款的各分为五类。
针对问题三本文将其分为两个小问题来解决,(1)任意给出一个客户信息通过问题一所建立的模型判断此客户是否可能购买贷款产品,当odds >0.05时,客户有贷款,可能购买贷款产品;当odds
关键词:Logistic 回归分析 决策树 比值判别法
一、 问题的重述
银行信贷业务是银行最基本、最重要的资产业务,通过发放银行贷款收回
本金和利息,扣除成本后获得利润。一般来说,银行信贷业务是银行赢利的重要手段,所以很多银行都推出了很多新的业务来满足更多人士的贷款需求。从银行信贷业务的分类来说,可以分为法人信贷业务、个人信贷业务。其中法人信贷业务包括项目贷款、流动资金贷款、小企业贷款、房地产企业贷款等;个人信贷业务包括个人住房贷款、个人消费贷款、个人经营贷款等。
银行信贷业务同时也是风险性较大的一种业务。按照贷款期限来说,银行信贷业务分为短期贷款,即一年以内;中期贷款,即一年以上五年以下;长期贷款,五年以上等三种类型。按保障条件来分,银行信贷业务可以分为信用贷款、担保贷款和票据贴现等三个类别。
某银行为了对客户提供更好的信贷服务,对信用卡客户进行了详细的分析和调查。调查主题是对某种家庭和个人背景的用户成为银行信贷的潜在客户的可能性进行分析与判断。
问题一:建立能够描述有贷款和无贷款的客户的基本背景数据模型; 问题二:对有贷款和无贷款的客户群进行细分建模;
问题三:给定一个客户的背景,判断其是否可能购买贷款产品,如果可能的话建议其购买哪种贷款产品。
二、 问题的分析
2.1问题一的分析
问题一要求我们建立能够描述有贷款和无贷款的基本背景的数据模型,本文首先将bank1中的数据进行处理(数据见附录一),然后把数据导入SPSS 中进行二元Logistic 回归分析。假设是否贷款只与age 、工作、婚姻状况、受教育程度、是否有房贷有关。回归分析时因变量为是否贷款,协变量为age 、工作、婚姻状况、教育程度、是否有房贷,并且设置进入概率为N=0.05, 分类标准值为0.5,分析贷款与自变量之间的关系,建立Logistic 回归模型,从而描述客户的背景。 2.2问题二的分析
问题二要求我们对有贷款和无贷款的客户群进行细分建模。首先在题中所给数据bank1表格中选取贷款、工作、婚姻、年平均余额的数据,并将这些数据导入SPSS 软件中,构建决策树模型。 2.3问题三的分析
问题三要求我们给定一个客户的背景,判断其是否可能购买贷款产品,如果可能的话建议其购买哪种贷款产品,在这一问中我们把它分为两小问来处理。(1)给定一个客户的信息判断其是否可能购买贷款产品,然后把个人信息代入到问题一所建立的模型中,得出他是否会购买贷款产品。(2)首先我们把问题二中得到的有贷款的客户细分类进行贷款产品配对,然后把客户信息代入问题二的模型中,看出应该给他推荐哪一类贷款产品。
三、 模型假设与符号说明
3.1模型假设
1. 假设有无贷款只与age 、工作、婚姻状况、教育程度、是否有房贷有关,与其他因素无关。
2. 假设客户购买贷款产品只与家庭背景有关。
四、 模型的建立与求解
4.1问题一的分析与处理
问题一要求我们建立能够描述有贷款和无贷款的基本背景的数据模型,本文首先将bank1中的数据进行处理(见附录一),然后把数据导入SPSS 中进行二元Logistic 回归分析[1-2] 。假设是否贷款只与age 、工作、婚姻状况、受教育程度、是否有房贷有关。
回归分析时因变量为是否贷款,协变量为age 、工作、婚姻状况、教育程度、是否有房贷,并且设置进入概率为N 0.05, 分类标准值为0.5,分析贷款与自变量之间的关系,从而描述客户的背景。
以下是利用SPSS
软件进行Logistic 回归分析得:
表1给出了案例处理汇总摘要。从该表可以得到参与回归分析的样本数据共有4521个,没有缺失案例,参与率为100%。
有贷款的编码是1。
表2给出了因变量在迭代运算中的编码表,从该表可以看出无贷款的编码0,
表3给出了模型中只有常数项而无自变量时,正常预测的百分率为84.7%。也就是说,原数据的4521个观察个体中,无贷款的有3830人,有贷款的有691人,如果每一个个体均分布到无贷款中,则可以的到正确预测百分率为84.7%。
表4给出了模型中只有常数项而无自变量时的回归参数及其检验结果。这里
691
ˆ=ln ≈-1.712,S . E . 为参数的渐进标准误,Sig 为Wald 卡方B =log it P
1-
4521
()
值在自由度为1时对应的检验P 值。
检验某一自变量与应变量之间有无联系。由表可看出Score χ2=19.451, 自由度
df =5,相应的P 值为0.002。又因为检验标准为0.05,说明模型全局性检验有
统计学意义。
由表8可建立Logistic 预测概率模型,其中x 1、x 2、x 3 x 11、x 12分别表示12种工作,失业、管理人员、蓝领、自由职业者、技术员、企业家、服务、行政管理、学生、女仆、退休、未知的,a 1、a 2、a 3分别表示结婚、单身、离婚,b 1、
b 2、b 3、b 4分别表示初级的、高等的、中级的、未知的, c 1、c 2分别表示无住房贷款、有住房贷款。d 1、d 2、 d 11、d 12分别表示十二种工作所对应线性回归的系
数,e 1、e 2分别表示结婚、离婚,f 1、f 2、f 3分别表示教育程度初级的、高等的、
中级的,m 1、m 2分别表示无住房贷款、有住房贷款由表可知,B 为这些变量对应的标准化回归系数,建立的模型为
ˆ=e P
⎛12
d i x i + i =1⎝
∑∑
j =1
2
e j a j +
∑
k =1
3
f k b k +
∑m l c l -0.986-0.008⎪⎪
l =1
2
⎫⎭
1+e
⎛12
d i x i + i =1⎝
∑∑e j a j +∑
j =1
k =1
23
⎫
f k b k +m l c l -0.986-0.008⎪
⎪l =1⎭
∑
2
232
⎛p ⎫12ln ⎪=∑d i x i +∑e j a j +∑f k b k +∑m l c l -0.986-0.008
j =1k =1l =1⎝1-p ⎭i =1
∑p
=e 1-p
12
232⎛12⎫
d i x i +e j a j +f k b k +m l c l -0.986-0.008⎪ i =1⎪j =1k =1l =1⎝⎭
∑∑∑
假设建设了如下的Logistic 回归方程:
Logit P =
∑d i x i +∑e j a j +∑f k b k +∑m l c l
i =1
j =1
k =1
l =1
23
2
-0.986-0.008
对于变量,如果有则为1,无为0,比如:客户工作为蓝领x 3=1,其他x 变量为0,以此类推。
比值[3]:
odds =e
⎛12
d i x i + i =1⎝
∑∑
j =1
2
e j a j +
∑
k =1
3
f k b k +
∑
⎫
m l c l -0.986-0.008⎪
⎪l =1⎭
2
当比值(odds )>0.05时,客户有贷款;当比值(odds )
问题二要求我们对有贷款和无贷款的客户群进行细分建模。首先在题中所给数据bank1表格中选取贷款、工作、婚姻、年平均余额的数据,并将这些数据导入SPSS 软件中,然后应用决策树分析建立模型[1-2]。
本文以贷款为因变量,工作、婚姻、年平均余额为自变量而建立的模型,以下是该模型的结果。
由表9可知,本文选用的生长方法为分类与分类树,因变量为贷款,自变量为工作、婚姻、年平均余额为自变量,最大树深为3层结果共有8个结,终末结有5个,树深实际为
2个。
表
图一 系统分类树结构图
图一是系统分类树结构图,根结中无贷款的占84.7%,共有3830例;有贷款的占15.3%,共有691例;通过年平均余额分类,年平均余额≤-1.0归类为节点1,年平均余额(-1.0,724.0]归类为节点2,年平均余额为>724.0则归类为节点3;通过婚姻状况分类,结婚和离婚的归类为结点4,单身的分类为结点5,再更加工作是否自由将工作分为两类,第一类工作有:失业、管理人员、技术员、服务、行政管理人员、学生、女仆、未知的;第二类工作有:蓝领、自由
职业者、企业家、退休,结构图中还计算出各类所占的比例和这类的人数。
根据分类树结构图和终末结的分类规则(规则见附录三),将有贷款分为五类,无贷款的分为五类 有贷款:
第一类:年平均余额≤-1.0的人
第二类:年平均余额(-1.0,724.0]的人
第三类:年平均余额为>724.0,结婚和离婚的人 第四类:年平均余额为>724.0单身的第一类工作者 第五类:年平均余额为>724.0单身的第二类工作者 无贷款:
第一类:年平均余额≤-1.0的人
第二类:年平均余额(-1.0,724.0]的人
第三类:年平均余额为>724.0,结婚和离婚的人 第四类:年平均余额为>724.0单身的第一类工作者 第五类:年平均余额为>724.0单身的第二类工作者 4.3问题三的分析与处理
银行信贷业务是风险较大的一种业务,按照贷款期限来说,银行信贷业务可分为短期贷款、中期贷款、长期贷款,按保障条件来分,银行信贷业务可以分为信用贷款、担保贷款、票据贴现等三个类别。
问题三要求我们给定一个客户的背景,判断其是否可能购买贷款产品,如果可能的话建议其购买哪种贷款产品。
首先,针对客户是否可能购买贷款产品,我们先将客户背景代入问题一所建立的模型中,计算比值(odds ),当odds >0.05时,客户有贷款,可能购买贷款产品;当odds
由客户的信息可以知道,我们将x 7=1、a 1=1、b 1=1、其他变量为0代入到问题一所建立的模型中,计算得到odds >0.05,所以该客户有贷款,有可能购买贷款产品。
然后,根据客户的背景,建议其购买那种贷款产品。对于这个问题,由本文问题二可以知道将有贷款的客户和无贷款的客户细分为十类,由此我们建议他们购买不同的贷款产品,具体建议如下图二所示。
图二 贷款分类图
根据上述建议,该客户应该购买短期的信用贷款。
五、 模型评价
5.1模型优点:
1)本文运用Logistic 回归模型,此模型首先考虑的是选择变量进入模型,先选定一个回归变量,然后逐个引入其他回归变量,这样就将对结果影较小的变量淘汰,所以此模型计算量小。
2)这个模型有相应的软件支持,可信度高。决策树阶段明显,便于理解。5.2模型缺点:
影响因素考虑不够全面。
六、 参考文献
[1] 宇传华. SPSS 与统计分析[M].北京:电子工业出版社,2007.
[2] 陈胜可. SPSS 统计分析从入门到精通(第二版)[M].北京:清华大学出版社,2013.
[3] k1h2d33. 百度文库.
http://wenku.baidu.com/view/8bcaa5bafd0a79563c1e720f.html?qq-pf-to=pcqq.discussion .2015-8-2.
七、 附录
附录一
问题一bank1中的数据处理结果:
C:\Documents and Settings\Administrat
附录二
问题二bank1中的数据处理结果:
C:\Documents and Settings\Administrat
附录三
这是每一个终末结的分类规则: STRING pre_001 (A3).
/* Node 1 */.
DO IF (VALUE(年平均余额) LE -1). COMPUTE nod_001 = 1. COMPUTE pre_001 = 'no'.
COMPUTE prb_001 = 0.718579. END IF. EXECUTE.
/* Node 2 */.
DO IF (SYSMIS(年平均余额) OR (VALUE(年平均余额) GT -1 AND V ALUE(年平均余额) LE 724)). COMPUTE nod_001 = 2. COMPUTE pre_001 = 'no'.
COMPUTE prb_001 = 0.834968. END IF. EXECUTE.
/* Node 4 */.
DO IF (VALUE(年平均余额) GT 724) AND (婚姻 NE "单"). COMPUTE nod_001 = 4. COMPUTE pre_001 = 'no'.
COMPUTE prb_001 = 0.874622. END IF. EXECUTE.
/* Node 6 */.
DO IF (VALUE(年平均余额) GT 724) AND (婚姻 EQ " 单") AND (工作 NE " 蓝领" AND 工作 NE " 自由职业者" AND 工作 NE " 企业家" AND 工作 NE "退休").
COMPUTE nod_001 = 6. COMPUTE pre_001 = 'no'.
COMPUTE prb_001 = 0.956522. END IF. EXECUTE.
/* Node 7 */.
DO IF (VALUE(年平均余额) GT 724) AND (婚姻 EQ " 单") AND (工作 EQ " 蓝领" OR 工作 EQ " 自由职业者" OR 工作 EQ " 企业家" OR 工作 EQ "退休"). COMPUTE nod_001 = 7. COMPUTE pre_001 = 'no'.
COMPUTE prb_001 = 0.810526. END IF. EXECUTE.