快捷分类

混合异构营销数据平台实践

更新时间：2016-07-05

1 引言

随着大数据技术的飞速发展，越来越多的企业采用了开放架构和开源软件。企业利用大数据技术及其各类应用组件，以自建团队的方式进行信息化建设非常普遍。笔者所在团队在整个数据平台实施过程中，尝试并使用了大量最新的业界开源技术，并自行研发了数据治理、数据生命周期管理、多租户使用和实时监控以及针对客户行业本身的自然语言处理算法及图像识别、深度学习算法，提供广告监控、舆情分析、人群画像等多方面的技术支持，每天处理的数据包含广告数据、舆情数据、第三方数据等多样化且数量较大的数据。为了保证公司多方数据源的对接和融合，满足公司多业务、多产品线的需求，如何利用先进的大数据技术把每天上百亿的数据进行整合和计算是现在面临的主要挑战。

位于武定西门的北环西桥桥梁工程，是跨护城河的一座上承式实腹式拱桥，桥梁主体净跨 20m，拱板净高6.04m，桥梁单幅宽度15m，基坑开挖时距基底边线预留1.5m的工作宽度。基坑开挖平均深度为8.5m。在基坑东侧有高压变压器，西侧有两栋未拆迁楼房，南侧有城墙，北侧有城市主干道路（雁同东路），施工现场可用场地十分有限，基坑开挖边坡较陡，综合考虑到安全等各方面因素，需对基坑边坡支护处理。

2 存在的问题及解决方案

2.1 现有技术方案存在的问题

针对大数据整合和计算问题，国内外有很多同类型的产品平台，基本可以分为两大类：一类是购买的商业平台；一类是基于开源软件搭建并附加自己的产品逻辑构建的平台。这些产品平台存在以下几方面的问题。

（1）系统资源方面

所谓意美，指在翻译之前，首先要理解读懂诗歌的含义,然后选择最恰当的表达方式,最大限度地再现原文的意境之美,这样可以使不同文化背景的读者感受到异国诗歌的魅力和韵味；所谓音美，强调的是韵律与节奏，翻译时要求译者尽可能地保留源文的“韵律、重复、节奏”等音乐感；所谓形美，指保存原作在结构方面的对应，如字数、长短句、对仗等特点。

（2）功能特点方面

购买的平台一般功能较强，能满足当时的业务要求。但是由于是商业产品，如果接下来业务发展变化，原来的功能不满足需求，需要二次购买。开源软件一般也可以达到要求，但是需要组合使用多种软件。

（3）技术指标方面

综上所述，他汀类药物被公认为降低人体内血脂和胆固醇的最有效药物，也成为了降低冠心病患者死亡率和致残率的主要药物。通过他汀类药物在心脑血管疾病患者中的治疗，临床效果其临床效果也非常显著，主要表现在他汀类药物可以有效的改善心血管疾病患者体内的血管内皮功能，促进患者体内NO生物的合成，同时还可以有效的抑制心血管疾病体内血管平滑肌细胞的增生，帮助患者逆转心脏重构，而最显著的作用就是抗炎、抗氧化，同时帮助患者抗血小板凝聚，促进患者体内的AS块具有稳定性，而他汀类药物在心血管疾病患者中的重要作用主要是借助于该药物的非调制功能，因此我们也应充分的借助于非调脂功能帮助心血管疾病康复。

购买的软件技术指标固定，系统一般较稳定，但也仅限于中规中矩，不适用于多样的数据营销业务。开源软件开源产品质量差别较大，需要在技术选型时就做好判断，一般需要有专业的技术人员支撑其稳定性。对于数据营销行业来说，没有现成的正好满足需求的产品。

（4）扩展和维护方面

（5）市场反馈方面

商业购买的软件一般由厂商专门的维护人员负责维护，但是维护人员一般不负责扩展。而且，有的维护是另外收取费用的。虽然开源社区的支持能解决一些共通的问题，但周期相对较长，因此，开源软件基本上靠使用者自身维护。

(1)将已装好探头的加长套管插入稀释釜，固定后通电开搅拌并开始测试，釜内已有树脂，进行保温一段时间；注入新树脂、搅拌一段时间；再进行降温测试、最后排料。在线黏度、温度过程曲线1见图2。

商业购买的软件增加了公司成本，因此相应地，公司的产品价格会较高，而且对市场需求的变化反馈会较慢。开源软件虽然成本低，可以随意切换技术架构，相对灵活，但是每一次技术的革新都是对整个系统的一次考验。

2.2 解决方案

● 针对数据结构复杂、数据源多的业务特点，采用消息队列架构，为多种渠道的数据源对接提供了实时和稳定的消息收发支撑平台，实现了系统间协作的零时延。

● 基本没有买入成本，虽然需要投入研发成本，但这部分投入可以转化为自主知识产权。

● 高度整合了开源软件和公司的业务，甚至可以形成新的产品作为收益的来源。由于对开源软件做了相应的修改，相比简单使用软件来说更加合理和高效，目前国内像百度、腾讯、阿里巴巴这样的大型互联网公司都采用这样的方式。

● 由于整个系统平台是公司技术人员做出来的，因此公司了解系统的每个细节，可以按业务要求做出各种调整，可谓量身定做。

● 平台的建设和扩展维护是贯穿系统整个生命周期的。一直随着公司业务的变化而进化，并且可以选择性地吸收开源社区的各种改进。该平台的数据处理流程如图1所示。

由于针对业务做了系统构建，该平台可以充分利用所有资源，性价比较高，而且能够快速地反馈市场需求。

3 平台架构与关键技术

3.1 整体架构

pagenumber_ebook=109,pagenumber_book=106

图1 数据处理流程

平台整体架构如图2所示。该平台针对不同行业领域的信息进行爬取，可以支撑电商、微信、微博、新闻、论坛、问答等多种渠道每天数十亿的互联网页面信息的爬取，是大数据平台和业务需求中不可或缺的文本型半结构化数据。图2中，Blue Air是反作弊系统，Zing是为数据科学家提供的支持多种语言的计算平台。

The time of patients’ stay in the intensive care unit was shortest after endovascular interventions and longest after open methods of reconstruction.Hemodynamic instability was often noted after open operations.

在多维度、多结构的数据源和大数据平台强大的数据处理能力的支持下，系统中人工智能（artificial intelligence，AI）和商业智能（business intelligence，BI）的经验和模型发挥了极大作用，数据聚类算法、自然语言识别技术（neurolinguistic programming，NLP）、数据关联分析、受众画像建模等技术得以快速发展，提升了公司的技术水准和服务效率，也帮助客户获得了更好的营销效果。

3.2 关键技术

3.2.1 大数据存储与管理技术

3.2.3 大数据分析与挖掘技术

攻关元数据管理、系统弹性扩展技术、存储层级内的优化技术、应用和负载的存储优化技术，针对营销活动的各环节，采用不同的方案，从最底层优化存储，并为后续的计算优化打下基础。

（2）存储方案

根据不同行业的特性，针对数据的管理、查询以及分析的性能需求，数据规模和吞吐量的增长需求，主要采用关系型数据库、非关系型数据库、实时数据库、列式数据库等存储方案。

3.2.2 数据可视化技术

传统的数据可视化工具仅将数据进行组合，通过不同的展现方式提供给用户，用于发现数据之间的关联信息。采用可视化开发工具Spark、GraphX、Zeppelin、Matplotlib、recharts和moojnn等解决方案或技术，保证营销数据可视化应用效果，能够快速地收集分析数据并对数据信息进行实时更新。数据可视化展现包括表格、图表、图形、示意图、地图和标签云图，从而使用户能够创建简单的仪表板或监管信息图表和可视化效果。

pagenumber_ebook=110,pagenumber_book=107

图2 平台整体架构

通过最新的HTML5、React、Redux等前端技术，最大化呈现丰富的数据内容，使用响应式设计，可同时兼容平板电脑、智能手机和个人计算机，实现随时随地的移动监管。

（1）分布式存储技术

采用统计分析技术，把计算推向数据并且并行处理，使Hadoop获得了强大的深度分析能力。经过算法的并行化，突破原有的可处理数据的技术瓶颈，利用并行计算模式大幅度提高了工具的计算性能，同时赋予了系统技术深度分析的能力。

①由决策对象i关于决策指标j的量化评价值xij(i=1,2,…,n;j=1,2,…,m)可得到决策矩阵X=(xij)n×m。

目前，高中美术课程的内容丰富多彩，对学生审美能力的提高是非常有益的。可是全国各省、各高校美术专业的招生考试基本上摒弃了高中美术课程的教学内容，而局限在素描写生、色彩、速写这几门上，这样既不能体现高中美术课改的成果，也无法衡量考生的艺术素养和创造能力。随着课程改革的全面推行，新的美术课程标准明确了美术课程的人文性质，使美术教育内涵更加丰富多彩。高中阶段对美术特长生的教育应结合学生的特点，提高学生的文化素养，并在教学中不断提高学生的专业技能与技巧，教师要尝试运用新的理念来解剖老教材，给美术课堂教学带来了勃勃生机，使学生的灵性在课堂上得到充分展现。

依托于混合异构大数据平台的广告投放系统，可以对复杂多样的投放要求提供100 ms以内的快速响应，每一个需求的满足都整合了最新的数据变化，而这个新数据的量级在每秒3万次以上，正所谓“线上一秒钟，线下十年功”，正是这个平台的支撑，才使SmartServing 系统运行如此轻快。

3.2.4 人工智能和商业智能技术

1.3.1 设备飞利浦大孔径的螺旋CT，网状热可塑体膜，瓦里安600C/D及23EX的直线加速器，瓦里安Eclipse的治疗计划系统。

在人工智能方面，在NLP、图像模式识别、跨设备多ID用户识别等方向取得了可喜成果，并运用在了社交情感分析、数据管理平台（data management platform，DMP）和受众分析等商业产品。可以在上百亿条的数据上分析客户关注的关键词的社会反响，涵盖新闻、论坛、微信和微博等公众平台。经过历史验证，情感分析的准确度已经可以达到70%以上，热点事件发现时延在1 h以内，让客户可以第一时间知道自己产品的社会影响，同时也可以知道竞争产品的相关情况。

购买的平台一般成本较高，与公司规模成正比。开源软件也并不是完全免费的，其可能涉及意料之外的实施、管理和支持成本，也可能由于缺乏人员维护而陷入停顿和死亡状态。另外，开源软件也要与自己平台上的其他软件兼容。

在图像模式识别方面，采用了深度学习算法，笔者所在单位应用于Snap监播实录的特定广告识别技术，使用自研的特征识别和匹配算法，部署在40多台服务器的计算集群上，全天候不停歇地对已经投放的广告进行识别，每天监控的广告数在5亿次以上。不仅可以识别简单的横幅广告，还可以对视频广告进行有效的识别。这项技术的应用，代替了以往占用了大量人力的“人肉广告作弊识别”，为广告代理公司和顾问团大大降低了成本，而且监控的范围也比以前有了100倍以上的提升。随着手机和各种移动电子设备的普及，拥有两部以上的手机或电脑和其他智能设备已经变得相当普遍，如果可以实现跨设备多ID用户识别，无疑可以更好地帮助广告主识别受众。笔者团队充分利用多年数字营销的经验，以超过200亿条的广告数据为基础，基于每秒400万次并发查询的高效key-value查询系统，研发了多ID识别算法，很好地实现了一人多机的识别。

在商业智能方面，主要致力于多维数据组合查询、用户自定义数据分析、基于“人—事件”的受众人群分析等方向。具体来说，多维数据组合查询主要应用于广告数据分析。笔者团队的大数据分析平台，每天分析100亿条以上的广告数据，从50多个维度的各种组合来透视这些广告数据的价值，每天早上5:00以前为所有广告主提供准确的报表。使用HTTP 2.0及WebSocket技术，动态平滑升级，可以做到用户无感知。数据查询速度也在秒级完成。作为固定多维度查询的补充，广告系统还支持用户自定义数据分析：通过提供一整套的可视化数据处理接口，用户只需要在页面上用鼠标点几下，就可以按自己熟悉的语言来定制特殊的数据处理逻辑。笔者团队提供近100个营销数据维度作为原材料，用户可以按时间、地域、广告媒体、广告位置、广告创意等多个细分维度计算数据的相关性，计算数据分布和其他多种指标，1 TB数据的处理时延在10 s以内。基于“人—事件”模型的受众人群分析系统，则按“以人为本”的使用方法提供全方位的支持。

本系统综合了广告产品线、社交产品线、调研产品线和数据交换产品线等多条产品线的所有数据，以受众为中心，把所有信息串联起来，建立了一套基于广告受众数据的类Siri智能问答系统，除了可以回答“这个ID在什么时间什么地方上过哪些网站”这类简单问题，还能回答诸如“这个ID是什么性别”“这个ID大概什么年纪”“这个ID喜欢足球吗”“这个ID家里有婴幼儿吗”等问题，结合上文提到的多ID识别，它还可以回答“这两个ID是同一个人吗”这样的问题。这一系统已经作为笔者团队的一项独立对外业务开放。

3.2.5 数据质量控制技术

从业务系统中获取的数据首先进入操作数据存储（operational data store，ODS），抽取—转换—加载（extracttransform-load，ETL）引擎根据元数据规范和业务规则对ODS数据进行整合处理，正常数据进入主题数据库完成整合，异常数据进入数据质量管理系统进行人工干预。数据质量管理系统对异常数据进行人工干预，通过人工干预可处理的批量数据进入临时库，由ETL根据新的规则进行处理。通用的干预措施形成元数据规范，进入元数据规范标准；无法处理的数据暂存到临时库，通知业务单位处理。

老田说，你还不知道啊？你爷爷他们那辈肯定知道，说是一千多革命军在这儿被朝廷镇压了。早先你们这儿的菜是不是长势很旺啊？

4 应用场景

4.1 广告效果分析

笔者团队的广告效果分析业务每天有百亿以上的数据增量，需要同时提供“天”级别的准确报表和秒级别的实时报表，并支持用户自定义的各种维度的组合查询。应用了以上系统后，完美地支撑了广告分析的全线业务，真正做到了准确又实时、灵活又高效。

4.2 受众标签计算

在混合异构大数据平台上，以多种格式海量数据为支撑，运用机器学习的方法，受众标签计算得以高效运行。其中综合了用户的行为数据、第三方的标签数据、多ID的打通、社交数据分析等在百亿级数据集上的运算，为各产品线提供稳定可靠的服务。

4.3 定向广告投放

建设海绵城市归根结底是要恢复水在自然和城市中的正常循环。具体来说，“渗、滞、蓄、净、用、排”是落实海绵城市理念的措施。池州市一方面自然资源丰富、生态环境良好，城区河湖众多，具有天然的海绵城市构架；另一方面，区内地表土壤渗透性差、地下水位埋深较浅等问题突出。故建议在城市规划建设中应根据具体的地形、地质、水文等特点，合理选用 “渗、滞、蓄、净、用、排”等技术，确定低影响开发控制目标及适用设施，实现城市良性水文循环，维持或恢复城市的“海绵”功能。

5 应用效果

该应用平台部署之后，达到了非常理想的效果。

2.5 融合基因分析纳入研究的144例患者，检测到的常见融合基因有AML-ETO、PML-RARA、CBFβ-MYH11和MLL-ELL，CD56+AML患者在伴有以上融合基因患者中所占比例分别61.54%、9.52%、0和0；CD56+组与CD56-组初治原发AML相比较，AML-ETO在CD56+组所占比例高于CD56-组，PML-RARA在CD56+组所占比例低于CD56-组，差异均有统计学意义(均P<0.05)；而CBFβ-MYH11和MLL-ELL在CD56+组和CD56-组所占比例的差异均无统计学意义(均P>0.05)，见表5。

● 高并发数据采集服务端单个采集节点可以支持每秒12 000次的数据采集请求，并且支持分布式部署，从而支持全国范围的营销数据采集服务。满足全国多机房实时数据收集汇总的管理平台需求，数据汇总时延不超过3 min，兼顾备灾容错，保证数据不错不漏。自动识别服务器和数据结构的差异，并自动优化配置。

针对现有技术平台的不足，笔者团队提出了分布式混合异构大数据系统平台，对开源软件进行了改造和整合。平台利用先进的大数据技术帮助品牌指导营销策略、预先测算、量化营销效果，实现每月处理超过2 000亿笔数据、迭代超过100种数据模型的目标。该平台具有以下特点。

● 混合异构大数据平台还提供了交互式的数据分析平台，支持数据建模团队使用R、SQL、Spark、Python等多种方式，进行实时的交互式数据分析和图表展示。数据科学家和数据工程师可以同时使用同一平台处理上千亿条的数据。

● 信息爬取系统可以支撑电商、微信、微博、新闻、论坛、问答等多种渠道每天数十亿的互联网页面信息的爬取。

● 采集大量地理经纬度和地理信息点（point of information，POI）信息。对于这些数据，混合异构大数据平台会自动进行曲面几何转换，再进行存储利用。

首先,随着高校多媒体教室数量的与日俱增,多媒体设备的维护难度加大。多媒体教室设备的故障多在上课时发生,且时常会有多个多媒体教室同时出现问题,导致多媒体设备管理人员往往分身乏术、应接不暇,难以及时排除故障和有效解决问题;其次,大部分高校为了达到上级对高等教育资源的要求,投入了大量的经费购买和安装多媒体设备,但对多媒体设备日常的维护升级工作不够重视、投入不够;再次,大部分高校在购买多媒体设备时缺乏长远规划和发展眼光,而只着眼于当前或者未来几年,而当今信息时代的飞速发展致使各种电子设备更新换代升级的频率极高,学校原有的多媒体设备往往无法跟上步伐。

最后，减掉分拨整件分货场地。根据测算，我们的分拣传送带的作业量是可以达到，半小时分拣1000件的货物量。我们日常量达到15000件，这个整件的场地完全可以剔除掉，减少人员，提高人效。

● 利用多数据源的整合和复杂数据结构的兼容，全方位地分析和整理多维度的数据、自动化调度优先级、智能调配计算资源，为业务决策提供有效支持。

● 计算任务瓶颈的辅助分析工具，为研发、测试、建模等团队提供代码级的优化建议。

● 利用页面仿真录屏系统，可以对用户浏览页面乃至广告的过程进行模拟并录屏，通过图像识别及深度学习，真实地还原页面浏览、广告播放的过程，也是重要的网页采样和信息留档数据。

● 构建了基于大数据的自动分析和建模体系，并在数据入库前的清洗阶段引入了虚假数据过滤模型（反作弊技术），模型可以动态自动学习和更新识别模式库，从而在第一时间发现异常数据，并可以自动向各相关业务系统发出异常预警。

混合异构大数据平台项目深度整合了多个开源大数据平台，并融入了自己的技术基因，真正把开源技术灵活运用，一方面解决了公司在技术研发过程中遇到的问题，另一方面回馈开源，为大数据的综合应用方案提供了可行的案例。

6 结束语

本文介绍了混合异构大数据平台的关键技术与应用。在平台开发过程中，笔者总结了一些技术经验和教训，具体如下。

● 多个开源软件整合时，需注意不同软件依赖的版本，从而提高开发效率，尽量少走弯路。

● 操作系统级别要尽量做到环境一致，比如Openfiles、HugePage等的配置，需要由运维部门统一提供最优的配置。

● 选择开源系统时，尽量根据最简单、用户最多、自身团队较熟悉所使用语言的原则选择合适的开源系统。

● 开源软件也可能存在错误或不支持某些需求，必要时需根据自身需求更改源代码。

● 需经过多次迭代，方可搭建稳定高效的数据平台。

参考文献：

[1]DEAN J, GHEMAWAT S. MapReduce:simplified data processing on large clusters[C]//The 6th conference on Symposium on Opearting Systems Design& Implementation,December 6-8, 2004,San Francisco, USA. New York: ACM Press, 2004, 51(1): 10.

[2]CHANGF, DEAN J, GHEMAWAT S, et al.Bigtable: a distributed storage system for structured data[J]. ACM Transactions on Computer Systems, 2008, 26(2): 1-26.

[3]POLYZOTIS N, ROY S, WHANG S, et al.Data management challenges in production machine learning[C]//ACM International Conference on Management of Data, May 14-19, 2017, Chicago, USA. New York:ACM Press, 2017: 1723-1726.

[4]VENKATARAMANS, YANG Z H, LIU D.SparkR: scaling R programs with Spark[C]//International Conference on Management of Data, June 26-July 1,2016, San Francisco, USA. New York:ACM Press, 2016: 1099-1104.

[5]LI H Y, GHODSI A,ZAHARIA M, et al.Tachyon: reliable, memory speed storage for cluster computing frameworks[C]//ACM Symposium on Cloud Computing,November 3-5, 2014, Seattle, USA. New York: ACM Press. 2014: 1-15.

[6]BAILISP, DAVIDSON A, FEKETE A,et al. Highly available transactions:virtues and limitations[J]. Proceedings of the VLDB Endowment, 2013, 7(3):181-192.

[7]SHUTE J, OANCEA M, ELLNER S, et al.F1: the fault-tolerant distributed RDBMS supporting Google's Ad business[C]//AcmSigmod International Conference on Management, May 20-24, 2012,Scottsdale, USA. New York: ACM Press,2012: 777-778.

作者

卢亿雷

基金

分类号

出处

《大数据》 2018年第03期

上一篇：大数据协同安全技术国家工程实验室简介

下一篇：人工智能赋能金融科技

《大数据》2018年第03期文献

宏基因组大数据分析的质量控制流程规范作者：郑广勇，杨桢，曹瑞芳，刘婉，李亦学，张国庆

区域卫生数据用于临床疗效分析的可用性研究作者：叶琪，赵亮，阮彤，冯东雷，高炬，刘珉

生物效应大数据评估聚类算法的并行优化作者：彭绍亮，杨顺云，孙哲，程敏霞，崔英博，王晓伟，李非，伯晓晨，廖湘科

基于ICD-10诊断编码的慢性病并发症聚类算法作者：王晓霞，蒋伏松，王宇，熊贇

多中心临床大数据平台建设及深度应用作者：朱立峰，刘淑君，陈德华，乐嘉锦

基于环境气象因素影响的异常就诊量预测作者：于广军，熊贇，彭思佳，阮璐

面向大数据应用的混合内存架构特征分析作者：李鑫，陈璇，黄志球

基于Gephi的航运招聘信息可视化分析作者：王扬，田野，李铁山，陈俊龙，彭东成，周义华

专栏：大数据领域国家工程实验室 2016/07/05

大数据驱动的安全协同生态建设作者：鲍旭华，曲晓东，郑新华

大数据协同安全技术国家工程实验室简介 2016/07/05

混合异构营销数据平台实践作者：卢亿雷

人工智能赋能金融科技作者：王健宗，黄章成，肖京

杂志信息网