快捷分类

基于决策树-神经网络的企业客户信用评估模型的构建

更新时间：2009-03-28

构建信用评估模型的方法众多，包括决策树、神经网络、粗糙集、遗传算法、专家法等.但由于模型本身的特点，单一模型往往无法保证精度、稳定性和适用性的统一.决策树与神经网络是构建信用评估模型的常用方法，但完全采用决策树方法，随着树的深入构造，误差会越来越大；或仅采用神经网络方法，网络结构的选择主要依靠经验，缺乏理论的指导.目前，将决策树与神经网络组合应用于构建企业客户信用评估模型的相关研究很少，本文基于决策树-神经网络构建企业客户信用评估模型，改进分裂属性指标选择方法再次生成决策树，再在决策树已获得的分类信息的基础上构造神经网络，减少单一采用决策树或神经网络构建模型存在的不足，从而提升企业客户信用评估的精度.

1 决策树、信息熵和神经网络

1.1 决策树

决策树经常被用于分类学习，它是通过运用自上而下，逐步分割的归纳学习方式，构建而成的倒立的树.非叶子节点为条件节点，对应着某个属性上的测试，其子分支代表着该属性上的可能性输出.叶子节点代表着元组的所属类别.

决策树算法模型的构建关键在于选择合适的测试属性来分割样本集.因处理这一关键问题的技术与算法不同，从而形成不同的具体的决策树算法模型.目前，应用比较广泛的决策树算法模型有：ID3、C4.5、C5.0、CART.除了这4种算法外，还存在多种改进的决策树算法，但多数算法都将“贪婪算法”作为分割属性的选择方式.

1.2 信息熵

熵（entropy）在信息系统中作为事物不确定性的表征.在决策树分类中使用熵的概念，目的是用它来描述数据集分类的不确定性程度.数据样本集的不确定性和差异性可以通过信息熵来反映.熵值越大，数据样本集纯度越低，平均不确定性越高，差异性越大；反之，熵值越小，数据样本集纯度越高，平均不确定性越低，差异性越小.

1.3 神经网络

神经网络是一种模仿生物大脑神经认知事物的过程而构建的一种网络学习模型，具有自主学习和自适应的特性.神经网络模型的建模过程是非线性的，其算法属于最速下降法，支持信息的并行处理，在模式识别、滤波识别、自动控制、预测评估等方面都有广泛的应用，现已成为信用评估领域中预测精度较高的评估方法[1].

为了推进农村金融创新，需要构建促进农业农村现代化金融服务可持续发展的配套辅助机制，包括完善金融机构评级体系、现代农业金融服务绩效评价制度、审计监督机制、支付体系、流动性保障机制和信息披露机制等。

2 基于信息熵的评价指标选择及决策树的生成

2.1 基于信息熵选择属性指标

ID3按信息增益大小来选择分裂属性.计算全部候选属性划分数据集的信息增益，选择其中信息增益最大的作为最佳分裂属性.对于样本数据集S，设其初始类标共有m类，即S被分成m个小数据集si（i=1，2，…，m），每个小数据集具有同质性.

决策树对数据具有很好的分割能力，学习速度快，生成规则的规模小，但容易过拟合，需要控制树的规模，设置停止准则或剪枝准则[2].而神经网络对非线性问题有很好的逼近能力，能较好地处理带有噪声的数据，容错能力强，鲁棒性强[3].决策树与神经网络存在较大的互补性，在决策树已获得的分类信息的基础上构造神经网络，可以获得较为合理的客户信用评估结果.

其中，pi为小数据集si发生的概率，即对于一个给定的任意元组属于类i的概率，可以用si/S来估计.对于所有小数据集有p1+p2+…+pm=1.那么，所有划分类的信息期望可以用来表示.对应不同类标数据集的熵I(s1,s2,…,sm)的表达式如下：

样本数据集S采用属性A进行分割.如果属性A有n个取值：a1,a2,…,an，则S可被分割成n个小数据集sj（j=1，2，…，n），每个小数据集在属性A上具有相同的值.对于sj中的元组，其所属类仍然由类标号决定，如用sij表示小数据集sj中属于i类的更小数据集，其中i还是取1,2，…,m.

然而，CBA常规赛打响后，与上个赛季相比关键球员减员严重、备战明显不足的西王男篮，因实力下降和伤病拖累，尤其是遭遇了双外援同时伤缺的罕见意外，连续5轮被迫全华班作战，结果5战皆北，临时拼凑起新的双外援组合后短时间内亦难有起色，从赛季初稳居八强迅速下滑到中游偏下位置，打进季后赛目标岌岌可危。此前就对小外援是否需要更换发生过激烈争论的球迷和媒体反应更加强烈，西王俱乐部乃至西王集团承受着巨大的舆论压力。

每个小数据集sij的不确定性可以用信息期望Tij来描述，表达式如下：

（2）外焊式根焊自动式外焊式根焊是采用单焊炬自动焊接小车在管外部进行根部焊缝焊接，填充盖面采用单焊炬实芯向下焊接或双焊炬实芯向下焊接，典型设备如图4、图5所示。

其中，pij为小数据集sj中的任意元组属于类i的概率，计算公式为sij/sj.对于所有小数据集sj有p1j+p2j+…+pmj=1.属性A取值为aj而形成不同类的小数据集而产生的熵为I(s1j,s2j,…,smj)，表达式如下：

第一隐藏层中的每一个节点都对应一个简单的超平面.假设内节点1对应于决策树中以属性x1为分裂节点的节点，条件为x1＞b，则x1-b=0构成了一个简单的超平面.该超平面可以使用的全部特征属性表示为：1·x1+0·x2+0·x3+…+0·xj-b=0.将第一隐藏层与输入层节点间的连接权值初始化为对应属性上的系数，取值为0或1，阀值为相应的常数项b.

ID3将信息增益作为分割属性的选择标准，在选择过程中会产生偏倚，信息增益偏向于具有多值的属性.由于某个属性值越多，以该属性值为基础划分出来的子集越多，每个子集越是趋向于同质，正确划分所需信息越小，即熵越小，信息增益越大.

C4.5将信息增益率作为分割属性的选择标准，在克服信息增益的偏倚性的同时，也存在不足.在节点下的分支对应的元组数相差不大的情况下，通过计算信息增益率能得到好的分割属性.但是，当节点下的分支对应的元组数相差较大的情况下，用信息增益率为指标得到的决策树就不是很理想.

上半场会议由黑河学院远东研究院院长谢春河教授主持，北京大学城市与环境学院韩光辉教授、黑龙江省社会科学院历史研究所孙文政研究员、齐齐哈尔大学马克思主义学院于春梅教授、黑河学院学术理论部主任师清芳教授分别做了学术发言。

2.2 分裂属性指标选择的改进

在分裂属性的选择上，无论是ID3采用的信息增益指标，还是C4.5采用的信息增益率都存在一定缺陷.为了能选择出更有效的用于信用评估的特征属性集，本文提出一种基于修正信息增益的算法，采用不依赖于先验知识的非主观处理方法，添加一个修正参数，对信息增益率为最大且分类分支不平衡的属性加以惩罚，尽量消除偏倚.改进式如下：

会议指出，党支部是党的基础组织，是党的组织体系的基本单元。党的十八大以来，以习近平同志为核心的党中央高度重视党支部建设，要求把全面从严治党落实到每个支部、每名党员，推动全党形成大抓基层、大抓支部的良好态势，取得明显成效。

其中，W为修正参数，定义为：

（1）评价指标体系的选择及调整模块设计.首先，指定模型采用的属性类型，包括3种：键属性、输入属性、预测属性.预测属性可以不包含在上文提到的XML形式的单表数据中，可以手动添加预测属性.对于选择的输入属性，只是模型的初始选择，在模型学习的过程中，某个输入属性如果与预测结果不相关或几乎不相关，则该属性将会被除去.其次，对不同类型的属性进行了离散化处理.如图2所示，将样本数据集用于挖掘模型的训练.

2.3 决策树的生成

决策树算法与数据决定了决策树生成的规则的有效性.能否构造出性能良好的决策树，与分裂属性的选择、训练集数据的预处理和生成决策树的剪枝有关.由于用于决策树训练的数据存在噪声或离群点，因此有必要对得到的决策树进行剪枝，对决策树中反映异常的数据的分枝进行处理.剪枝原则是在精度不减少的前提下简化决策树.剪枝后的决策树更小，复杂度更低，更易于理解，对新元组进行预测时得到的结果更快、更好.具体生成步骤如下：（1）形成用于训练和测试的数据集.先收集与挖掘目的相关的数据；再将收集到的数据进行转换生成结构统一的数据集，并对数据进行必要的预处理；最后，将样本数据进行划分，分成训练集和测试集.（2）使用训练集训练决策树，采用C4.5的后剪枝的悲观剪枝算法对决策树进行必要的剪枝，最终生成具有较高精度的决策树.（3）从生成的决策树中提取分类规则，生成的规则将应用于神经网络的构建.

3 基于决策树-神经网络的企业客户信用评估模型

3.1 神经网络结构的确定

每个小数据集的不确定性可以用信息期望Ti来描述，如下表达式：

基于决策树生成的规则创建四层前馈神经网络.决策树选择的每个分裂属性及取值构成一个简单超平面，而决策树生成的规则由多个属性及取值的“与”关系构成，这些属性及取值共同构成一个多维空间中的超平面.输入层节点对应问题的特征属性；第一隐藏层对应决策树中不重复的非叶子节点，即与决策树中的超平面对应；第二隐藏层对应树的叶子节点，即与决策树中规则表达对应；输出节点对应于不重复的类别，节点与节点之间的连接为全连接[4].如此形成的神经网络的拓扑结构如图1所示.

2. 由于形符“山”讹变，表义功能受损，而另加形符。前文已述，“岡”可作、，构件“山”讹变作“”“止”，原“岡”字所表“山脊”之义不能在字形上体现出来，于是书者另加构件“山”以示义。《龙龛手鉴·山部》：“：今音刚，山脊也。”唐《王令训墓志》：“甫背龙，伫幽人之樵曲。”加形构件“山”位移，“岗”又作，见北魏《郑道昭大基山铭》：“此太基山内中明。”

图1 基于决策树的神经网络

3.2 神经网络参数的确定

信息增益指在选择分割属性前后进行正确分类所需的熵的差异.分割属性后的A属性信息增益记为△I，则有下列表达式：

第二隐藏层节点对应的是规则，其节点的阀值初始化为0.它与第一隐藏层节点的权值可以按如下规则进行初始化.

例如，给定元组 U，有规则（U（xi）＜0）and（U（xj）＞0）and（U（xk）＞0）⇒U∈叶子 n，则权值初始化如下：

输出层的所有节点的阀值设为0.其与第二隐藏层节点的连接权值初始化为1时表示叶子节点属于对应的类，初始化为0时则相反.

3.3 基于决策树-神经网络的主要算法程序

基于决策树-神经网络的主要算法程序如下：

4 客户信用评估模型有效性的验证

为了实现对企业客户信用的评估，验证文中所设计的客户信用算法的有效性，本文构建了一个C/S结构的数据库应用系统.

4.1 数据模块设计

对于企业客户信用的风险评估，目前我国并没有固定的指标体系标准，依照科学性原则、可操作性原则、可量化原则等基本原则，各个商业机构遵照自己的准则来进行考察.本文基于国内某商业银行的实际客户信用评估数据，建立客户数据样本数据集，样本包括38个属性和700个样本数据.样本集的38个属性分为内在因素和互动因素2大类，客户性质、客户经营规模、经营管理水平、客户市场竞争力、合作交易情况及回款情况6个子类，如表1所示.

表1 样本数据集分类情况表

类别属性内在因素是否为个体工商、是否为民营企业、是否为国企、是否为外资、是否为独资、是否具有合伙性质、是否为有限责任公司、是否为股份有限公司、合伙（或投资）人数、合伙（或投资）人关系、合伙人（或投资人）素质资产总额、注册资金、年销售额、年上税额、经营年限、公司员工数组织架构合理性总评、客户的高管的素质总评、人事流动性、组织经营管理水平总评产品技术含量等级、客户产品的市场竞争力等级、产品市场前景等级互动因素客户性质客户经营规模经营管理水平客户市场竞争力合作交易情况合作时长、年均交易额、月均交易单数、交易商品种类数、平均订单利润率、客诉理赔记录数、客诉理赔金额、对产品质量要求级别回款情况逾期账款总额、逾期账款账龄（一个月笔数，二个月笔数，三个月笔数，四个月及以上笔数）、坏账金额

针对存在缺失项的客户记录，采用调查补充，无法通过调查获得的采用默认值处理.在形成数据源后，将进一步将客户信用相关的数据形成XML形式的单表数据，即从数据仓库导出用于包含客户信用特征的数据集.

4.2 评价模块设计

属性A共有t个属性值,CAk为属性A取ak(k=1,2,...,t)值时形成分支中小样本集所含的样本数，CAr=max(CA1,CA2,...,CAt).分支不平衡性可以使用CA1,CA2,...,CAt的均方差来加以衡量.

图2 训练模型界面

（2）使用决策树神经网络模型对新数据进行预测.模型学习达到一定的精度后，对新记录数据进行预测，并根据客户信用等级与信用政策对照表提供决策意见，如表2所示.预测结果界面如图3所示.

很多时候，人们的一些过失行为会导致电力电缆的损坏。这是由于电缆在布置的过程中，有的工作人员由于粗心或者操作方法不当，导致其发生扭曲或者被折，造成了电缆线的损坏，随着使用时间的增长，将会影响电网的正常运行。

3.2.3 资产管理在资产管理部分中主要是建立电子台账，确保资产账物相符。包括资产卡片建立、条码扫描、分户电子账、资产转移、资产报废、资产外调、资产折旧、公用设备租借、资产查询、资产盘点处理等。

表2 客户信用等级与信用政策对照表

等级信用政策A 给予优惠的结算方式、调高信用额度和提供优先服务B 给予优惠的结算方式、快速给予信用核准和提供良好服务C 正常地进行信用核定和提供一般服务程序D 需要进行信用监控，及时回款E信用评定信用极佳信用良好信用一般信用稍差信用极差不作信用销售或停止合作

图3 预测结果界面

4.3 性能分析验证

文中分别采用没有改进的决策树、神经网络及本文提出的基于决策树的神经网络方法对相同的样本进行了数据挖掘测试.首先，从所有的样本集中抽出训练样本，剩余的样本作为测试数据；然后，对不同的模型进行训练得到规则；最后，再用测试数据对规则进行测试，获得精度.测试结果如表3所示.

1.1 材料试验于2017年7月进行，材料选择广西南亚热带农业科学研究所名优茶种植基地1芽1叶黄观音秋季鲜叶。基地位置属南亚热带季风气候，海拔>100 m，全年平均气温21～22 ℃，地势平坦，土壤pH 5.5～6.5。制茶主要设备：摇青机、6CR-35型揉捻机、YX-6CFJ-10B型全自动红茶发酵机、理条机、6CTH型烘干机。检测主要设备：气相-质谱联用仪(GC- MS)、紫外分光光度仪、全自动化学分析仪、电子天平、茶叶审评用具。

表3 性能分析对比表

次序训练样本数/个精度/%决策树神经网络基于决策树的神经网络1 50 67.80 65.60 71.40 2 100 70.40 63.40 72.90 3 200 73.30 74.30 78.20 4 300 75.20 77.70 80.50 5 400 79.20 79.50 85.60 6 500 81.50 80.70 86.80 7 600 80.80 79.60 83.60平均值75.46 74.40 79.86

从平均精度可以看出，采用文中的信用评估模型对客户进行评估，获得的结果要优于单独使用决策树、神经网络的精度.

5 结语

随着企业信息化水平的提高，各种客户数据资源可以更加容易获取和存储，使得客户信息挖掘技术成为深入研究客户信用评估的有效途径.信用评估依赖于数据和模型，评估结果为经营管理决策提供依据.本文构建的基于决策树-神经网络的信用评估模型，使客户信用预测的精度和稳定性都得到提高，可作为企业进行客户信用评价的一种方式.

参考文献：

[1]张佳维.基于模糊神经网络的个人信用风险评估[D].呼和浩特：内蒙古大学，2014.

他神情非常尴尬的站在那儿，想要对她解释什么，却被她用手势打住了。她说，得！你不用解释，我没白叫你大狼。然后，她没去她与他的卧室，走进另一个房间把门反锁上了。

[2]杨胜刚，朱琦，成程.个人信用评估组合模型的构建——基于决策树-神经网络的研究[J]．金融论坛，2013（2）：57-67.

[3]胡来丰.基于粗糙集BP神经网络个人信用评估模型[D].成都：电子科技大学，2015.

[4]王云，陈丽芳.基于粗决策树规则的神经网络隐含层确定[J]．数码设计，2016，5（3）：29-34.

作者

江义火，吴昌钱，袁晓建

出处

《宁德师范学院学报(自然科学版)》 2018年第01期

上一篇：测量误差模型基于SIC方法的变点检验

下一篇：高效可证明安全的基于证书的代理环签名方案

《宁德师范学院学报(自然科学版)》2018年第01期文献

与Brück猜想有关的一类复微分方程解的研究作者：陈省江

测量误差模型基于SIC方法的变点检验作者：刘宣

基于决策树-神经网络的企业客户信用评估模型的构建作者：江义火，吴昌钱，袁晓建

高效可证明安全的基于证书的代理环签名方案作者：吴晨煌，李慧敏，张金辉

菲律宾蛤仔水解制备多肽及其抗氧化研究作者：叶丽珠，陈慧斌

一种具有SERS基底的制备及其活性研究作者：许丽真，关贵清，敖晖，黄坤新，翁雪花，林建平

基于云计算的信息安全风险评估模型作者：黄金凤，郑美容

刍议大数据时代我国电子政务信息安全问题作者：郑薇玮，陈燊

福建省降水资源时空变化特征分析作者：余弘泳

锂离子电池Ni包裹Sn负极材料的制备和性能研究作者：林信勇，李求忠

5种养殖鱼类体色素的比较作者：林祥日，黄永春，陈康，于慧娟

连作对草莓根际土壤指标及优势真菌的影响作者：陈爱萍，周逢芳

基于遥感影像的闽东森林病虫害等级分类技术作者：毛秀华，张世良，刘锡铃

基于VR和AR的三维产品展示系统的设计与实现作者：钱庆平，杨烈君，章立亮

巴哈越野赛车车架设计与结构优化作者：陈刚，郭荣辉

荧光光谱探测系统设计作者：王丽君

植物愈伤组织诱导培养实验的方法改进作者：孙剑川，郭团玉

一种以游戏进阶为激励的C语言教学方法作者：缪丰羽

智慧课堂教学模式研究作者：薛超群

在解后反思中培养学生的思维能力作者：陈为镜

高校拔尖创新人才管理模式的探讨与实践——以福州大学“数理综合班”为例1 作者：游双华，曾永志，陆培民

我校2017年SCI文章数量再上新台阶作者：本刊编辑部

杂志信息网