总第8期
2016年12月刊
Practice    实践
Practice    实践
智慧校园大数据建设解决方案
文/孙瑶
分享

教育信息化发展的过程是一个数据逐步沉淀、累积的过程,然而数据则是智慧校园建设阶段的核心资产;数据价值的挖掘将成为精细化管理、个性化服务、科学化决策的直接驱动力高校信息化的发展主要经历了如下几个阶段:

  • 基础设施建设阶段

这一阶段主要以基础硬件设施建设为主,保证有线网络通,完成基础业务应用搭建。

  • 数字化校园阶段

该阶段以管理为中心提倡源数字化、应用多样化;逐步建设校园数据中心,完成业务系统资源大集中

  • 互联网+校园建设阶段

互联网+校园建设阶段以用户为中心,以服务为中心,流程优化再造,业务互联网化;逐步完善数据共享交换,充分打通部门壁垒

  • 智慧校园建设阶段

通过各类物联网传感器完成环境全面感知,完成有线、无线网络全覆盖,具备海量数据支撑;将师生个性服务作为工作重心之一。

一、高校信息化建设现状分析

高校数据的种类呈现出多样性,数据总量也在不断呈爆炸式增长。经长期调研分析,校园数据主要有以下三种。

  • 传统业务数据

传统业务系统数据来源主要包含学工、教务、财务、图书馆、信息中心、安保、后勤等几大部门,该类数据以结构化即二维表形式为主,数据量级为GB级别,增长相对较慢。

  • 机器数据

机器数据主要包括物联网设备数据、IT系统软硬件日志,学生上网行为日志等,该类数据以非结构化、半结构化数据为主,数据量呈指数增长趋势,数据量级为TB级别。

  • 互联网数据

教育系统引入微信、微博、论坛、社交网站、招聘网站等互联网数据,该类数据包含大量图片、音、视频等非结构化数据,数据量级是PB级别,价值密度低。

在数字化校园建设阶段,高校信息中心基本完成了数据共享交换平台的建设,该平台中集成了各个业务部门的子系统数据,成功打通了业务部门之间的壁垒,实现了业务部门之间的数据互访。在这个阶段中,某项指标支撑同时

在数据不断增长的同时,其价值也逐渐受到重视,尤其是与行业业务相结合的产物 更是备受关注。高校为师生提供更精细的服务,为高层领导提供科学的决策依据这些目标。

二、高校数据处理架构现状及瓶颈分析

图1数字化校园建设现状

目前高校信息中心与业务部门之间逻辑架构如图1所示,统一认证平台、信息门户平台、数据交换平台三大平台,是数字化校园建设中非常关键的部分。其中数据集成平台即数据共享交换系统,将各业务系统数据上收后存入公共数据库。公共数据库通常使用两个计算节点做Oracle RAC集群,后端使用共享存储。目前对于校内业务系统数据存储、事务型/交易型场景处理、少量分析型应用需求来说,传统数据处理架构均可以,但在如下场景传统架构对种类多样的海量数据已无法胜任,因此高校信息化建设需要大数据技术架构,来进行技术革新、架构变更,将信息化建设的工作重心投放到数据价值的挖掘中去。

  • 全量数据存储管理

除业务系统少量数据外,高校还需要对TB级别的机器日志以及海量的互联网数据进行全量存储,为多维数据分析挖掘提供环境,对于传统共享存储架构来说,扩容价格太过昂贵,维护难度

  • 多源异构数据处理

传统OLTP型数据库对于处理大量半结构、非结构化数据并不在行。如日志、文件、图片、HTTP、AVRO等文件数据;来自互联网公开的非结构化数据;机器设备日志数据,传统数据库进行快速处理,更无法实现异构数据库之间的关联查询

  • 分析、查询业务实时性需求

传统数据库受限于行存架构,无法对海量数据分析、查询场景提供高效的支撑,尤其是对实时性要求很高的分析型业务无法及时响应,如查询学生实时行动轨迹,需要快速的从海量日志信息中查询学生经过的AP点位,并准确描绘轨迹路线

三、智慧校园大数据建设解决方案

新华三针对高校业务场景进行了深入调研,对于校内数据分布、数据质量、数据标准及各业务部门需求均有了较为深刻的理解。针对教育资源公平化、人员管理精细化、高层决策科学化等高校工作重心进行了整的大数据建设布局规划。新华三提出的智慧校园大数据建设解决方案整体架构如图2所示。

图2高校大数据建设布局图

大数据处理的重要步骤如下:

  • 沉淀数据提取:通过专业的ETL工具集,针对不同数据类型,提取全量的业务系统数据、互联网开放数据、机器日志数据,作为大数据分析的原始素材
  • 海量数据存储:将提取出来的海量异构数据根据其特征及主题进行统一存储
  • 数据统一治理:来自不同源头的数据缺乏统一标准、数据质量评判、元数据及主数据管理体系等,因此需要建立一套适合于高校业务的数据治理体系
  • 数据处理:将异构数据根据一定规则处理为结构化数据;对数据进行去重、去噪等清洗操作以提高数据质量;根据需求特征及业务逻辑要求将处理后的数据分别存入不同数据库
  • 数据价值分析挖掘:根据用户最终需求,进行物理模型、逻辑模型及业务模型建立,通过数据挖掘算法、商业智能工具,实现数据价值自动化分析、挖掘及展示
  • 业务创新:提供易用、稳定的BI工具,使得业务部门可自行完成数据分析及展现工作,为业务人员梳理数据关联性,为创新提供基本条件
  • 为数据封装API接口,对外提供数据服务:对数据进行不同主题分类汇总形成数据集,对各类数据集封装API接口,以运营模式对外提供数据服务
  • 平台资源灵活隔离,对外提供资源服务:通过H3C大数据平台特有的多租户功能将大数据集群资源灵活隔离,为院系科研项目提供底层平台存储及计算能力,避免重复投入造成的浪费

高校大数据建设需要一个统一、稳定、健壮的大数据平台作支撑。平台应能够提供丰富、便利的数据采集工具集、海量数据的高效存储能力、海量异构数据分析挖掘能力、机器学习、数据挖掘算法库,且提供完善的数据治理能力,能够提供可持续发展的资源运营模式。新华三恰恰具备了完备的大数据平台及数据服务解决方案,能够为高校提供可信、安全、易用的底层支撑。 除高校建立大数据平台之外,新华三还可以为教育类客户定制IT大数据应用,包含无线、安全、运维三大类应用场景,并将IT大数据应用与校园业务、物联网应用等紧密结合。下文列举了智慧校园的一些典型应用案例。

  • 学生画像应用系统——辅助学生精细化管理

将学生基本信息、学籍信息、成绩信息、借阅信息、消费情况等传统业务数据与上网行为、移动轨迹等IT系统数据相结合,对人群进行分类并打上相应标签,如学霸、宅男、购物达人等,最终完成对每个学生的精准画像描述。该方案中完成了对各类异构数据的采集、清洗、抽取和转换工作,对数据质量把关;完成数据按需提取后,通过机器学习算法,对各类人群特征进行建模,最终实现通过个人产生的数据自动匹配分类标签,完成画像描绘。

  • 无线大数据应用——提供基于位置的大数据服务

校园无线无缝覆盖已基本建设完成,对于无线设备及周边相关系统产生的数据也可作为大数据看待,其价值也亟待挖掘。该应用中还通过提取用户无线上下线信息、漫游日志、定位信息、探针信息、认证信息及AP布放位置等信息,对其进行关联分析,对海量日志进行持久化存储,并提供高速全文检索能力;可精确描绘历史移动轨迹、实时计算公共区域人流分布情况、实时查询人员所在位置,与业务使用情况结合辅助信息中心进行无线智能运维。

  • IT运维大数据应用——降低运维工作量

高校多针对流量使用情况向学生收取相应费用,但经常出现费用与用量不匹配的窘境,学生想要质疑却无处申诉,由于上网行为日志量巨大(每天可达20GB左右),传统架构无法长时间存储日志信息,即时可存放也无法快速查询,因此信息中心无法提供流量使用明细查询服务,H3C IT大数据应用完美针对高校“流量纠纷”问题,使用大数据平台完成了日志持久化存储及统一纳管,将学生终端MAC地址与流量详情逐一对应,使用大数据平台中的相关模块进行分析处理,最终为学生提供月度流量明细报告,为信息中心减轻了负担,为学生提供了人性化的服务。

结束语

新华三在智慧校园建设中,采用以人为本的理念,将学生、教师数据统一格式,并上收至大数据平台,对人物的行为、位置、习惯等进行建模分析,对师生打上标签,描绘画像,助力高校精细化管理。针对高校IT运维人员,新华三开发了运维及安全大数据应用产品,实现故障链分析、预测等功能,减轻了维护人员工作量,最终实现智能化运维。

分享到
关闭