快捷分类

基于GBDT的商品分配层次化预测模型

更新时间：2016-07-05

商品预测是一种通过统计域数据挖掘解决方案,包含在结构化和非结构化数据中使用，以确定未来结果的依据.提高预测的准确性可以有效安排生产和减少企业的库存，同时，可以做出信息含量更高的定价及促销决策，从而提高客户的满意度和企业的竞争力.如在电子商务方面，供应链上的需求预测可以有效减少不确定因素对供应链绩效的负面影响，便于企业更加合理地分配与规划商品的供应，大量减少成本的输出.因此，基于商品的历史销售信息，建立有效的商品分配预测模型具有很好的应用价值.针对预测模型的研究也是数据挖掘领域的热点研究方向之一.

在魏金枝看来，封建家族制度一方面造成了封建专制，滋生了家庭的不平等，另一方面更严重的是既造成了人类“自卑自弃的堕落”，“不事生产，家居作乐”，“滥事消费”，又带来了“繁滋生殖，不但弱小人种，还要堕落本能，代代相传，哪有不穷”的人类危机。显然，必须打破这种制度。这种思想认识，我们不能不承认其先进性。后在来新文学中，这种思想被反复表现，最突出的是曹禺先生的《北京人》。

预测从宏观上看主要分为定性和定量指标预测分析[1]：定性指标预测分析主要依据分析者的直觉和经验，凭借对过去和现在的延续状况及最新的信息对未来进行预测判断的一种方法；定量指标预测分析方法主要包括回归分析法和时间序列法.回归分析法[2]根据变量之间的依存关系，可以分为线性回归和非线性回归：线性回归包括Lasso回归(Least Absolute Shrinkage and Selection Operator)[3]、支持向量回归(Support Vector Regression，SVR)[4]和弹性网络(ElasticNet)[5].虽然这类方法简单直观，但难以拟合复杂度较高的数据，使得回归分析受到了一定的限制.非线性回归包括随机森林(Random Forest，RF)[6]和梯度迭代树(Gradient Boosting Decision Tree,GBDT)[7]等.虽然基于树模型的非线性回归方法表现出了很好的预测性能，但在模型训练时对训练样本的要求较高，容易造成欠拟合或者过拟合.除了上述回归模型，近些年基于神经网络的回归模型也得到了广泛的研究，如有多层感知机(Multilayer Perceptron，MLP)[8]和反向传输神经网络(Back Propagation Network，BP Network)[9].

上述方法中，定性指标预测方法由于具有很强的个人主观性，稳定性差，因而适用性不广；而定量指标预测方法通过对历史数据的挖掘与分析，能够有效揭示有关变量之间的规律性联系，从而对需求做出精准预测.基于Boosting思想的GBDT回归模型由于低偏差(Bias)的优点，在很多预测问题中得到了广泛的应用[10-11].但面对高维数据时也易造成对训练数据过拟合问题.

为解决上述问题，在GBDT的基础上，本文作者提出了一种层次化的GBDT集成预测模型(Hierarchical GBDT，HGBDT)，基于Bagging思想在原始特征空间的随机子空间训练多个独立的GBDT模型，并进一步通过集成学习方式实现模型聚合，从而有利于改善模型泛化性能，提高预测精度.

2.1.3 内疚、自责感在等待手术时，焦急、担心唤起了照顾者的补偿心态，产生自责的心理，通常照顾者的表达为“假如......就好了”;而在患者出手术室进入监护室时，短暂的见面使照顾者亲眼见证了患者的病痛，此时患者均为昏迷状态，照顾者的呼喊不济于事，使其产生强烈的内疚感。H说:“我陪着她一起出门就好了，就不会碰上车祸了。”E说:“被助动车撞的时候他脑子还是清醒的，我以为不要紧的，我怎么那么粗心应该直接到医院来看的，医师跟我说脑子两边都有出血，也许早点来就不会这么严重了，都怪我。”J说:“我爸爸年纪大了我不该让他再骑车的，早点劝阻就不会发生这种事了。”

1 特征提取和选择

在电子商务方面，商品的需求预测在供应链上起着至关重要的作用，如何对商品的需求进行精准预测也是现在工业界和学术界面临的一个问题.

为便于描述，令X=[X1,X2,…,Xp]∈RN×d表示总量为N的商品由p组特征共d维进行描述，其中表示维度为ni的第i组特征集.表示N个商品的实际销售值向量.

1.1 特征提取

式中：Yw[t]表示在第t个时间窗口内的销量，t=1,…,n4；Tr为销量阈值.

表1 某一商品特征

Tab.1 Features of a commodity

特征分组特征描述去冗余x1去除相关性在0.99以上的维度信息One-Hot编码x2使用Nb位状态寄存器来对Nb个状态进行编码,每个时刻只有一位有效销量占比x3销量在不同标识中与总销量的比率销量编码x4针对销量值的编码销量变化率x5各标识种类下等长时间段销量的变化率局部统计特征x6各标识种类下不同大小窗口的销量变化全局统计特征x7商品出现到截止时间内销量的均值、方差和中位数热度编码x8商品从截止日期往前递推时间段内,销量大于0的连续天数冷度编码x9商品从截止日期往前递推时间段内,销量等于0的连续天数热度窗口编码x10针对销量阈值的编码热度时长x11统计超过不同商品件数的天数频率特征x12平均功率频率和中值频率奇异值x13求取加窗信号的傅里叶变换矩阵,求取矩阵的奇异值

1)销量编码

由于GBDT训练过程容易产生过拟合问题,本文作者提出了HGBDT模型，通过有效结合Bagging方法的低方差(Variance)特性及GBDT的低偏差特性，从而改善泛化性能，提高预测精度.

x4为对商品在一定期间销量的二值化编码

(4)选择合适胃管对患者做插管处理,插管过程中叮嘱患者做吞咽配合。插入后将胃管与洗胃机连接起来,开始自动冲洗;

(1)

以电商为例，对于某一商品，与之有关的信息通常包括：商品类型、拍下金额和拍下件数等.基于上述商品信息，如何实现对商品进行有效表征是建立精准商品预测模型的关键.上述商品信息很好地反映了商品的时空特性.为此，本文主要基于统计方法从时空角度来对商品进行表征.对于某一商品x=[x1,x2,…，xp]，构建了如表1所示的表征方法.

2)热度窗口编码

x10反映了不同时间段内每天的销量情况，其编码为

(2)

式中：YD[t]=1表示第t个时间窗口内每天都有销量；否则YD[t]=0，t=1,…,n10.

1.2 特征选择

基于商品信息的时空特性，本文提取了共计p=13组特征.显然，这些特征组之间存在一定的相关性或冗余.为此，需对其进行进一步的特征选择.特征选择是指基于某种定量指标从原始特征中选择出最具代表性的特征，在去除数据冗余的同时达到数据降维的目的，进一步提高数据的可用性.对于所选择的特征子集，本文采用如下评价函数对其可用性做出定量评价为

第二，对危害国家安全、损害国家利益的行为，要依法打击。2014年11月11日，习近平总书记签署中华人民共和国主席令第十六号：《中华人民共和国反间谍法》已由中华人民共和国第十二届全国人民代表大会常务委员会第十一次会议于2014年11月1日通过，并已公布、施行。[注]《中华人民共和国反间谍法(2014年11月1日第十二届全国人民代表大会常务委员会第十一次会议通过)》，《人民日报》2014年11月13日，第8版。2016年，在某涉密科研单位工作的黄某，因偷卖90项国家绝密情报获利70万美元被判死刑，妻子唐某、姐夫谭某也因“过失泄露国家机密罪”被分别判处五年、三年有期徒刑。

今年11月初，为了庆祝沃尔沃品牌91周年，在国内拥有一百多名注册会员的老沃尔沃车主俱乐部与沃尔沃中国共同策划了一场别开生面的千里巡游活动。尽管近两年国内经典车活动在逐渐增多，但如此大规模的单一品牌经典车官方活动在中国还是第一次。

同龄、同乡、同年大学毕业，四岁以前连母亲都相同。这是苏楠做梦也想不到的。和李峤汝这么多的缘分，全世界也罕见。

(3)

式中:分别为商品s在各地区仓库的目标库存的补少成本、补多成本、真实销量值和销量预测值;为N个商品销量的预测值.

具体来说，本文采用的基于前向搜索的特征选择方法，其算法流程如下.其中，表示长度为p的损失函数，分别表示第i组和第j组特征对应的损失函数，Lmin为当前迭代计算时最小的损失值；F是临时特征子集用以中间运算，T为GBDT模型训练得到的决策树集合，MGBDT表示GBDT模型训练过程.

算法1.前向特征选择输入:训练集X=[X1,X2,…,Xp]∈RN×d, 商品实际销量Y;输出:经特征选择后,由q组特征组成集合X∧=[X∧1,X∧2,…,X∧q]∈RN×ds;初始化:特征子集X∧=∅;For m=1 to pL～=c·[1,1,…,1]∈Rp(c为充分大的常数); For i=1 to p F←X∧; if Xi∉X∧ F←[FXi]; T←MGBDTF,Y() Y～i=T(Y) L～[i]=L(Y,Y～i);End L～[j],j()←minL～(); ifm==1 Lmin←L～[j]; X∧←[X∧Xj];else ifL～[j]

2 HGBDT模型

2.1 GBDT模型

GBDT是一种由多棵树构成的梯度提升决策树，最终的预测值是由多棵树的结果进行累加得到的.GBDT的核心为后续训练的每一棵树都是学习前面所有决策树总和的残差，这个残差就是加上预测值之后得到真实值的一个累加量.GBDT的算法流程如下.

算法2.GBDT算法输入:决策树数量NT,训练集(X,Y)={(xs,ys)}Ns=1输出:决策树T=Tu{}NTu=1,Tu表示第u棵决策树初始化:T=∅T1←使用(X,Y)训练决策树Y∧←T1(X)预测结果T←T∪T1For u=2 to NT: Yres←Y-Y∧u-1 Tu←使用(X,Y～res)训练决策树 Y∧u←Tu(X)+Y∧u-1 T←T∪TuEnd

2.2 本文提出的HGBDT模型

两者的结合主要在于培养方案(包括目的、方法)，培养过程等方面的相互融合，因此确立了卓越工程师实践教育培养的总体思路：“依托竞赛平台，突出工程教育，重视工程实践，建设一流基地、培养一流人才”。

⑧试压合格的管道应及时进行阀门井室安装及沟槽回填，管沟分层填土并用蛙式打夯机夯实。因管线经过地段多为山区，且管道布置曲线较多，为便于以后维修查找，管沟回填后及时埋设水道标。水道标为钢筋混凝土制，沿管线间距100m埋设在管道正上方，并在管道转弯、与道路交叉处设置。水道标埋入地下0.7 m，地面以上0.5m，水道标周围填土应分层回填密实。

如图1所示，对于经过特征选择的每一组特征基于Bagging集成思想，通过在原始特征空间以比例α进行随机采样，生成采样后特征从而构造Ns个得到预测结果进一步构造得到第j组特征的预测值通过Stacking(堆叠)方式，形成层次化建模.需指出的是，在Stacking集成中，权值wj为利用第j组特征训练模型的误差.

(4)

式中:η为常值；Yj代表第j组特征预测的N件商品销量值,为商品s使用第j组特征预测的销量值.

2.3 基于规则的决策

一般情况下，不同类型的商品之间销量值差异明显，因此商品之间销量的波动范围也有所不同.考虑到商品销量不同范围的影响，在利用HGBDT模型的训练之前，为了防止某些商品的影响，使得其预测值更符合实际情况，需先利用以下规则R对商品进行过滤处理：

为了验证算法的有效性，本文采用阿里巴巴旗下公开的电商商品数据进行实验 width=11,height=11,dpi=110 ，数据集收录了2014年10月10日到2015年12月27日的商品信息，其中包括了5个分仓库(store_code1～5)和一个全国仓库(store_code6).数据集的统计信息：商品总数为963，全国仓库商品属性为31，分仓库(5个)商品属性为32.

2)规则R2：若商品首次出现时间在最后4周,计算该商品从出现开始的日均销量，进一步用日均销量乘以时间作为商品销量预测值.

3)规则R3：如果商品销量在一个月内方差小于1，说明其销量浮动范围很小，因此本文以一个月销量的平均值作为商品销量的预测值.

图1 HGBDT模型 Fig.1 HGBDT model

3 实验结果与分析

3.1 实验数据及预处理

3.1.1 实验数据

1)规则R1：若商品销量在最后4周为0，那么定义该商品的预测值也为0.

在实验中，原始数据包含了本身的属性特征，如品牌和类目等，还包括用户的历史行为特征，如浏览次数和加购人次等，实验目的是对最后两周的仓库需求量进行预测.本文数据集的划分：训练集的训练时间2014-10-10至2015-11-15；验证集的时间2015-11-16至2015-12-13；测试集时间2015-12-14至2015-12-27.使用这些数据进行预处理.

3.1.2 预处理

为了防止原始数据中异常点的干扰，观察一年的商品销量情况可知，在某些时候商品的销量会出现一些较大的波动，如“双11”出现了商品销量骤增的现象.而这些异常点的存在降低了预测结果的准确性.本文采用的是基于距离的方法[12]检测奇异点，再利用一个月的平均销量消除歧义点.

综上所述，与开腹低位直肠癌保肛术相比，腹腔镜辅助保肛术具有手术时间短、术中出血少、术后恢复快及安全性高的优势。

3.2 实验结果对比分析

为验证HGBDT模型构造过程中不同因素的影响，本文进行了5组实验Si(i=1,2,…,5)，其中采样次数和采样比例分别为Ns=100，α=0.5，实验设置如表2所示.

表2 5组实验条件

Tab.2 5 sets of experimental conditions

实验X1X2X3X4～X5X6X7～X9X10～X11X12～X13R1～R3模型集成实验说明S1√√√√√√√√--使用1.1节中的特征组合训练GBDT模型S2√-√-√√-√--使用选择后的特征组合训练GBDT模型S3√√√√√√√√√-使用1.1节中的特征组合和规则训练GBDT模型S4√-√-√√-√√-使用选择后的特征组合和规则训练GBDT模型S5√-√-√√-√√√使用选择后的特征组合和规则训练HGBDT模型

注：“√”表示加入当前实验条件，“-”表示去除当前实验条件.

3.2.1 模型选择实验结果及分析

为了验证所提模型的有效性，在相同的数据下，与5种具有代表性的Lasso、Elastic Net、RF、GBDT和MLP模型进行对比.

图2为上述6种模型的预测结果.其中，Lasso和Elastic Net为线性模型，而RF和GBDT为非线性模型.从图2中可以看出，对于较为复杂的数据，线性模型不能很好地描述其变化的多样性.此外，在大多数情况下，由于RF对异常数据不敏感，因此RF的成本略高于GBDT.与此同时，又由于数据量不够充分，MLP模型的预测效果并不理想.而HGBDT模型由于考虑到了数据的维度和多样性，相较于其他的算法，取得了更为理想的预测结果.

图2 基于不同模型的预测结果对比 Fig.2 Comparison results based on different models

3.2.2 特征选择实验结果及分析

图3为5组实验的预测结果对比，其中S1和S2的对比体现了特征选择对预测结果的影响.从图3中可以看出，S2测试集的成本较S1有明显降低，由于去除了大量冗余特征，提高了模型的泛化能力，因此提高了模型在测试集上的预测性能.此外，S1的训练时长为2 221 s，而S2的训练时长为1 944 s，说明特征选择缩短了模型训练的时间，降低了计算成本.

综上所述，产品研发首先要了解客户、市场及其需求，这是新产品开发的关键的第一步。然后进行市场分析和细分，确保新产品开发瞄准最有价值的市场机会，还要将客户需求融入新产品和服务的设计和开发中，找出独特的信息以使自己的产品与其他产品区分开来，不仅有利于创新活动，也增加了新产品成功面世的机会，作为新产品研发的输入。新产品的创意设计是最为重要的一个环节，新产品构思和概念产生一般需要关键人群（公司或用户）的专业知识和经验，以及相关调查报告的数据信息进行创意生成，并且根据一定的选择方法进行创意筛选，然后对新产品方案进行可行性评估，最后进行生产并投放市场。

图3 不同实验条件的预测结果对比 Fig.3 Comparison of the prediction results in different experimental conditions

参考文献(References):

图3中S1和S3的对比体现了基于规则的决策对于预测结果的影响.从图3中可以看出，加入规则之后，在测试集上的预测成本降低了，在一定程度上提高了预测的准确性.因部分商品在一段时间内波动的变化范围较小，所以用基于决策的规则去约束当前的预测值，更符合现实情况.

3.2.4 模型集成结果及分析

党中央高度重视网络阵地建设和网络宣传思想工作，习近平总书记多次强调，要根据形势发展需要把网上舆论工作作为宣传思想工作的重中之重来抓。互联网具有开放性，不受时间、空间影响，成为人们无须面对面就可坦诚交流的工具。因此，加强网络空间治理，构建良好网络文化非常重要。高校校园网要建立思想政治工作网站或板块，占领网络宣传的制高点，掌握思想政治教育的主动权。利用互联网宣传社会主义的核心世界观、正确的人生观和价值观，弘扬中国优秀传统民族文化，让大学生随时接受思想政治教育。

由式(19)可以看出，在有效频段接近fmax的频率区间，k(ω)满足式(15)。另外，由文献[4]给出的方法，利用式(16)及两个不同位置的粒子速度峰值，估计出高频段的α(ω)约为21.7，也满足式(15)。此高频条件下，粒子速度的频率响应函数的实部和虚部可以近似写为

图3中S4和S5的对比是对HGBDT模型效果的检验.从图3中可以看出，利用HGBDT模型预测的效果是最好的.因HGBDT考虑到了模型过拟合的问题，通过有效结合Bagging，Stacking及GBDT自身的Boosting的思想，改善了模型的泛化能力，从而提高了模型的预测性能.

4 结论

1)由于GBDT模型在训练的时候容易产生过拟合，为了提高对商品的预测能力，本文作者在GBDT基础上，提出了HGBDT模型.该模型通过特征选择、基于决策的规则和模型集成实现预测性能的改善.

2)实验结果表明:特征选择、基于决策的规则和模型集成均能改善算法的性能.其中特征选择的效果十分显著，实验中成本降低了56万，而基于规则的决策和模型集成分别降低了5万和2万，因此，特征选择是所有实验条件中最为有效的条件.

3.2.3 规则实验结果及分析

[1] TAN P, STEINBACH M, KUMAR V. Introduction to data mining[J]. Data Analysis in the Cloud, 2016, 22(6):1-25.

[2] 冯士雍.回归分析方法[M].北京：科学出版社, 1974.

FENG Shiyong.Regression analysis methods[M]. Beijing:Science Press, 1974.(in Chinese)

[3] LI Q, QIU S, JI S. Parallel lasso screening for big data optimization[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016:1705-1714.

近年时常耳闻某地举办萤火虫晚会，听起来美妙，实乃举办方花钱雇人从异地捕捉一些萤火虫拿来放飞，数量少得可怜，且戕害生灵，被强制迁徙的萤火虫，难以在异地生存。萤火虫即便在它的故乡，亦只能在特定区域生存繁殖。

[4] ZHANG Q, HU X, ZHANG B. Comparison of l-norm SVR and sparse coding algorithms for Linear Regression[J]. IEEE Transactions on Neural Networks &Learning Systems, 2015, 26(8):1828-1833.

[5] ZOU H, HASTIE T. Regularization and variable selection via the elastic net[J]. Journal of the Royal Statistical Society, 2005, 67(2):301-320.

[6] CUI Z, CHEN W, HE Y. Optimal action extraction for random forests and boosted trees[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2015:179-188.

[7] YAN P, DUAN Y, DUAN Y. E-commerce item recommendation based on field-aware factorization machine[C]// International ACM Recommender Systems Challenge, 2015:1-4.

[8] PARK J G, JO S. Approximate Bayesian MLP regularization for regression in the presence of noise[J]. Neural Networks, 2016, 83:75-85.

[9] HAN X H, XIONG X, DUAN F. A new method for image segmentation based on BP neural network and gravitational search algorithm enhanced by cat chaotic mapping[J]. Applied Intelligence, 2015, 43(4):855-873.

[10] ZHANG H, SPOELSTRA J, SPOELSTRA J. Committee based prediction system for recommendation: KDD Cup 2011, track2[C]// International Conference on Kdd Cup JMLRorg, 2011:215-229.

[11] PACUK A, SANKOWSKI P, WITKOWSKI A et al. Rec Sys challenge 2016: job recommendations based on preselection of offers and gradient boosting[C]// Recommender Systems Challenge, 2016:1-6.

[12] KNORR E M, RAYMOND T N. A unified notion of outliers: propieties and computation[C]// International Conference on Knowledge Discovery & Data Mining, 1997:219-222.

作者

朱振峰，汤静远，常冬霞，赵耀

基金

分类号

出处

《北京交通大学学报》 2018年第2期

上一篇：基于深度时空卷积网络的民航需求预测

下一篇：一种局部属性加权朴素贝叶斯分类算法

《北京交通大学学报》2018年第2期文献

基于深度时空卷积网络的民航需求预测作者：林友芳，康友隐，万怀宇，吴丽娜，张宇翔

基于GBDT的商品分配层次化预测模型作者：朱振峰，汤静远，常冬霞，赵耀

一种局部属性加权朴素贝叶斯分类算法作者：张伟，王志海，原继东，刘海洋

双目视觉的原木径级快速检测算法作者：陈广华，张强，陈梅倩，李建伟，尹怀永

基于弱关联频繁模式的超限行为挖掘优化作者：万芳，胡东辉

采用传播图论建模方法的Massive MIMO室内场景传播特性作者：刘留，刘妍，雷勇，吴钰浩

基于分簇的Ad Hoc网络媒体接入控制协议C-USAP 作者：熊轲，马换，刘强

基于分簇结构的移动自组织网络接入控制协议关键技术研究作者：刘强，袁万刚

列控-安全信息传输系统可靠性及安全性的形式化分析作者：高莺，张琦，陈黎洁，刘宏杰

车联网干线协调控制相位差自适应优化作者：柴琳果，蔡伯根，上官伟，王剑，王化深，陈俊杰

基于以太网的列车通信网络冗余结构可靠性分析作者：简捷，王立德，靳建宇，申萍

基于STPA方法的平交道口安全需求分析作者：刘宏杰，唐涛，金夏垚，杜恒

面向客运车站环境监测的WSN覆盖策略作者：邓胜

基于虚拟同步机控制技术的交直流互联电力系统电压稳定控制策略作者：孙丽敬，吴鸣，杨景熙，李蕊，张海，吕志鹏

基于遗传算法的直线感应电机帽型次级结构参数优化设计作者：吕刚，刘素阔

实测数据的350 km·h-1中国标准动车组空载合闸涌流特性研究作者：郭旭

大功率电力机车异步牵引电机的典型故障研究作者：张世

自适应无迹卡尔曼滤波动力电池的SOC估计作者：谢永东，何志刚，陈栋，周洪剑

杂志信息网