数据编排的前景和探讨 – 中国移动

一、引言

从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,下面将通过几个维度,对数据编排的现状与未来展开描述。

二、数据治理背景,现状,要素,策略

· 数据治理背景

(1)大数据时代凸现数据重要性

(2)数据治理是大数据的基础

(3)信息孤岛现象严重

(4)数据质量问题严重

(5)数据应用未得到有效管理

(6)数据安全问题日益严峻

· 数据治理现状

(1) 意识到了问题的严重

(2) “维持”代替“管理”

(3) 历史“包袱”沉重

(4) 相关方利益交织,协调困难

(5) 方案规划容易,落地困难

(6) 过度依赖技术工具

(7) 对于数据没有明确区分

· 数据治理要素

数据编排的前景和探讨 - 中国移动

三、项目内容,任务,功能

· 项目内容

随着数字化转型推动业务的未来发展,愈来愈多关键业务的应用程序和平台将转移至云端。企业客户对灵活、多样化和云基础的广域网(WAN)技术需求日增。

中移云网编排混合广域网络方案可简化分支办事处网络,并且保障优质应用程式效能。该技术能创建混合广域网,将多种接入技术(如专用网络,LTE和宽频)整合至单一分集路径。与传统广域网相比,中移云网编排混合广域网络方案的网络灵敏度更高,更节省成本。

中移云网编排混合广域网络方案优点众多:提升业务灵活性、优化应用程序性能及存取度,同时降低频宽成本,重新定义现今企业的基础架构,回应分散式企业的需求。

数据编排的前景和探讨 - 中国移动

· 项目任务

多张网元,多个pop点,多个隧道,构建了四通八达的“高速公路”,但是纵所周知,高速公路用久,用长,都会出现不可预测的麻烦,网路亦是如此,每张网元的隧道转态如何?流量如何?速率如何,时延如何?抖动如何?丢包率如何?如下如所示

数据编排的前景和探讨 - 中国移动

· 项目功能

为了实现对上述问题的分析,我们需要建立大数据平台,需要采集众多网络的数据,实现对它的网络数据分析和监测,如下图所示。

数据编排的前景和探讨 - 中国移动

四、平台未来的建设

(一) 大数据采集平台

大数据采集平台是承接外部与内部数据交换的一个基础数据平台,主要由实时数据接入服务、离线批量数据接入服务和数据总线服务组成,是整个通用数据摄取平台,可以从各种数据源中提取,转换和加载海量数据。比如:数据库、FTP、REST APIS、Files、Stream等等。大数据接入平台能够处理日常规划任务需要所有数据摄取,包括作业/任务规划,任务分配,错误处理,状态管理,数据质量检测,数据发布等等。

数据源格式包括结构化、半结构化、或非结构化。数据的接入方式包括批量数据处理模块到数据源主动拉取(pull)数据和实时数据处理模块被动的接受数据源推送(push)的数据。在数据接入的时效性上有实时数据接入,也有离线数据接入,收集各种数据源数据为大数据平台所用。数据接入到本系统后,将放入数据总线子系统缓冲起来。接下来,数据将会进行同步存储到数据平台的分布式文件存储系统中,作为后续系统的数据源;数据也可通过实时计算,存储到数据平台的分布式实时存储系统中。

(二) 大数据清洗平台

数据清洗(Data Cleaning/Data Scrubbing),是在数据仓库/数据库中去除冗余、清除噪音、消除错误和不一致数据的过程。数据清洗并不是简单地选取优质数据,它同时还涉及到对原有数据的删除、添加、分解或重组等。数据清洗的任务是对不满足数据挖掘要求的数据进行清洗,将清洗的结果提交给数据挖掘的下一个环节。

数据编排的前景和探讨 - 中国移动

根据数据来源不同,数据源分为:单数据源。单个数据源的数据质量,主要取决于它的模式设定,以及对数据源中数据的完整性约束的控制程度。因为数据模式和完整性约束需要控制数据的范围,如果一个数据源没有数据模式,那么对于输入或者存储的数据缺乏相应的限制,这样出现错误数据或者不一致数据的几率就会大大提高。多数据源。由于各业务系统在设计、实现时功能的需求、设计的重点不同,多数据源中存在的主要问题是字段名称冲突、属性值和结构的冲突。例如:不同表中使用相同字段表示不同属性,不同名称的字段表示相同属性。

(三) 大数据挖掘与分析平台

针对海量的数据挖掘需求,平台提供基于海量数据的模型和机器学习分布式计算引擎,相对于传统平台提供的数据挖掘工具,大数据所提供的分布式数据挖掘平台更加适合大数据分析场景,除了内置主流的所有算法包以外,还提供分布式计算引擎,可支撑超大规模数据量的离线模型计算和实施模型计算。

平台的总体架构从下到上分为四层:数据整合、资源管理、数据分析以及数据展示。每个层次之间相对独立,模块之间以松耦合的形式连接起来,

在数据整合层中,可以对原始关系型数据库,以及普通日志文件数据进行抽取,然后将数据存储到大数据管理平台中。还有,对取得的数据按照任务的配置参数进行相应的预处理等操作,以便后续挖掘分析做好基础。

在资源管理层中,对各种需要用到的分布式开源框架进行整合和封装,例如Hadoop、storm、spark等框架。这些框架部署在若干个节点上,对这些框架进行封装以提供给上层分布式存储和分布式计算的能力。在资源管理层中,同时也提供集群的监控信息,以便用户能观察到集群中各节点的CPU、内存、网络等利用情况,以及各个节点和任务的运行健康状况,便于集群的维护。

数据编排的前景和探讨 - 中国移动

(四) 大数据治理平台

通过治理制度、元数据管理、标准管理、数据质量管理、工单管理、监控管理等多种管理手段,实现对区域云网编排数据标准的统一管理,实现云网编排数据标准与国家标准的对照,提升云网编排健康数据的质量,对大数据平台各数据节点进行统一管理,并形成长效的实施管控机制,以确保云网编排健康大数据优良的运行环境。

● 元数据管理:作为描述数据的“数据”,元数据从不同语境定义着数据,是数据治理的基础。分为技术元数据和业务元数据。

● 标准管理:数据标准包括数据的结构标准、编码(字典标准),是用来统一规范管理数据的准则。

● 数据质量管理:对云网编排数据采集的质量进行校验、管理,并以评分和分报告的形式反馈,便于提高上报数据质量。另外,区域内针对数据质量形成评比机制,公开数据质量得分,从而确保数据的准确性、关联性、饱和度等指标;

● 工单管理:用于记录、处理、跟踪一项工作的完成情况。提供系统化、标准化的工作处理流程。比如,治理中出现的任何问题需要指派专人处理,工单管理对工作进行管理。

● 监控管理: 提供平台运维人员的监控管理手段,可视化、实时了解数据的动态情况,对不达标、违规数据进行监工甚至干预,并提供告警功能,对整体平台的运行情况进行管理、监控。

数据编排的前景和探讨 - 中国移动

(五) 大数据可视化平台

本平台基于SpringCloudAlibaba架构,采用vue前端技术构建,实现MVC分层的交互界面和可视化控制,与分析平台通过标准HTTP RESTful资源化风格接口进行对接。

通过模块化封装,使主体框架、业务逻辑与可视化组件库相互分离,实现功能模块的按需装载,并引入高性能的图形库及可视化组件,提供流畅的人机交互体验。

本平台从实现层面可划分为3个层次:数据访问层、业务控制层与视图层。

数据编排的前景和探讨 - 中国移动

五、总结与感悟

5G结合是云网编排技术的重要发展方向。5G能力和云网编排终端接入结合起来,实现用户更高速连接,提供更优的转发路径和业务体验。云网编排还能通过赋能企业服务来扩展应用空间。企业服务是云网编排发展的另一个方向,它和云网编排体系的融合,能够给用户提供更多企业服务灵活场景,包括企业需要做到防火墙服务、存储服务、备份服务,都可以通过云端自动访问自动服务,给用户解决企业网所需要的用户更好体验。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

复制成功
微信公众号: 神卡申请助手
截屏保存图片去微信扫码