总第7期
2016年6月刊
Column Big Data    大数据专栏
Column Big Data    大数据专栏
基于云计算平台的大数据服务
文/洪福成
分享

摘要:采用基于云计算平台的大数据服务, 用户可以从设备采购、安装部署、集群维护等专业技术要求高,并且繁琐冗长的工作中解放出来。用户通过云端申请流程,在数分钟内就可完成原来需要数天甚至数月才能完成的大数据集群安装部署工作,并将复杂的大数据运维管理工作交给专业的云平台工程师来做,用户只需专注于自己的业务逻辑,按需购买大数据服务,并且只需要支付使用期间的费用即可。

用户如果要采用开源Hadoop/Spark组件搭建大数据平台,通常会面临下面几个问题:

1. 准备工作时间长、过程繁琐。一个用户如果要使用Hadoop/Spark大数据服务,通常需要经历如下过程:

第一步:评估当前数据量大小,并预估未来一段数据的增长量;同时,评估业务对计算效率要求。由此,可以得出服务器的硬件配置要求,包括:CPU、内存、硬盘、网卡等;

第二步:选择和采购符合上一步要求的X86服务器、网络设备和安全设备等;

第三步:规划机房、网络架构、IP地址分配并搭建硬件环境;

第四步:安装操作系统,配置IP地址等基本环境;

第五步:安装部署Hadoop/Spark集群;

第六步:启动集群,集群运维监控,业务量大时还需要扩容集群;

第七步:用户编写大数据应用程序;

第八步:提交大数据应用程序到Hadoop/Spark集群执行;

第九步:获取大数据应用程序执行结果。

上述过程,和用户大数据业务紧密相关的是从第七步开始的,前面的各项工作都属于准备过程,并且繁琐和冗长。

2. 技术难度高、人员成本大

Hadoop/Spark是开源产品,在使用开源产品的时候,不可避免的遇到各种各样的问题,例如:安装部署集群时的参数选择,跨服务组件之间的用户访问,性能调优等,解决这些问题需要技术能力强、实践经验丰富的专业人员;同时,需要对开源Hadoop优化和增强开发,把只适合实验室研究的开源组件二次开发成适合行业应用的商用产品。

如果基于云计算平台提供大数据托管服务,用户则可以从上述问题中解放出来:在云端一键部署,几分钟就可以建一个集群;将大数据运维工作交给专业的云平台大数据工程师来做,用户只需专注于自己的业务;按需购买,用户只需支付使用期间的费用即可。

一、 技术实现原理

基于云计算平台提供大数据服务是构建在云主机上,即在云平台上提供集群,同时部署安装Apache Hadoop、Spark、HBase、HDFS等大数据组件,为用户提供大数据存储、计算、分析和挖掘等服务。

基于云计算平台的大数据服务有两种模式,即:独占模式和共享模式(也称为多租户)。

图1 大数据服务模式

1. 独立模式

该模式是每个租户拥有独立的大数据集群,云平台为租户提供从主机选型(CPU、内存、硬盘)、系统安装、环境配置、服务管理、集群管理、性能监控、作业运行等一系列的集成解决方案。租户拥有个性化的大数据服务,可以根据数据量大小选择主机类型和主机数量,也可以根据业务特点选择不同服务,例如:批处理MapReduce、内存计算Spark、流式计算Storm、BI商业智能;同时,根据租户申请的虚机计算节点类型、计算节点数量和服务类型等付费。

2. 共享模式

共享模式也叫多租户模式,由云平台提供统一一套大数据集群给多个租户共享使用,多租户共享的资源包括:CPU、内存、硬盘和大数据服务组件等,租户按需申请、释放资源和服务。多租户之间采用文件隔离方式,即通过HDFS、HBase、Hive等划分租户访问区域进行隔离;同时,对HDFS、HBase、Hive、MapReduce、Spark、Storm等提供多实例支持,即一个租户对应一个服务实例;共享模式可以提供更加灵活的付费模式,即基于租户的数据量和任务计算时间等付费。

独立模式

共享模式(多租户)

关键技术

为每个租户个性化定制大数据平台,包括:计算节点类型、计算节点数量、内存大小、存储空间、大数据服务组件等,资源独占

云平台提供统一大数据平台,租户按需申请、释放资源和服务,包括:CPU、内存,资源共享

安全隔离

操作系统级:租户的大数据集群在独立的虚机资源上安装部署,通过虚机进行安全隔离

文件级:通过HDFS、HBase、Hive等划分租户访问区域进行隔离

计费模式

基于租户申请的虚机计算节点类型、计算节点数量等付费,可包月、包年付费

基于租户的数据量大小和任务计算时间等付费,包月、包年付费

优缺点

优点:计算效率高、个性化配置灵活

缺点:资源独占、费用较高

优点:资源灵活申请和释放,按需付费

缺点:任务需要排队计算,效率较低

二、 基于云平台的大数据服务实现原理

H3C大数据平台基于Hadoop+MPP混合技术架构,对非关系型数据和关系型数据、结构化数据和非结构化数据进行差异化处理,在数据处理性能上达到最佳组合配置;同时,Hadoop和MPP深度融合管理,并对上层应用提供统一服务。H3C大数据平台支持基于云平台的大数据服务两种模式,即独立模式和共享模式(多租户),从技术实现来看,独立模式是在租户申请的虚机资源上独立部署一套大数据平台,无特殊要求;而共享模式要求在大数据集群上提供多租户服务,技术实现相对更加复杂,需要综合考虑资源共享、安全隔离、服务多实例等技术实现,如图2所示。

图2 H3C大数据服

该平台结合目前云服务、大数据平台,快速部署、跨集群管理、数据迁移、系统化管理、简单易用等需求,尤其针对当前大数据组件比较多、配置复杂、操作步骤繁琐、组件间组合方式多样、操作命令复杂等,一般租户难以掌握维护、不便于管理的特点,为具有一定大数据知识背景的大数据租户能够更方便快速掌握大数据平台的使用,华三提供可视化的大数据服务功能:

1.“多租户自服务”提供面向租户的HDFS、HBase、Hive、MapReduce、Spark、Storm、BI商业智能等界面化操作功能。例如:HDFS上传文件完全通过界面化拖拽方式完成,屏蔽租户对复杂linux操作系统命令的操作过程,如图3所示:

图3 HDFS文件上传

多租户自服务中的BI商业智能工具可以提供可视化的数据分析和展示功能,如图4所示:

图4 BI商业智能工具

2. “多租户管理“提供面向租户管理的租户管理、行为审计、任务审计、资源审计等界面化操作功能。例如:管理员可以通过图形界面掌握集群使用情况,如图5所示:

图5 集群使用情况

三、 结束语

基于云计算平台的大数据服务也面临多方面的挑战:一方面,为了提升Hadoop分布式任务和MPP分布式数据库的计算效率,要求计算资源和数据存储在同一个节点,减少网络I/O,但是基于云计算平台的大数据服务是采用虚机部署方式,虚机和数据存储的I/O效率难以满足大数据量的计算需求;另一方面,用户通过互联网向云平台上传数据,网络带宽限制了数据的上传速率,大数据量上传时面临效率问题。因此,建议数据量不大的用户可以考虑基于云计算平台的大数据服务,数据量大的用户推荐采用自建大数据平台方式。

分享到
关闭