一、 建设目标
章鱼大数据实验室的建设目的是作为大数据教学实验及科研平台,包括数据挖掘与大数据分析平台。实验室的设计全面落实“产、学、研、用”一体化的思想和模式,从教学、实践、科研和使用多方面注重专业人才和特色人才的培养。
利用虚拟化教学资源,搭建教学系统和集群平台,将理论学习、实践教学和大数据项目实战融为一体,由难而易、循序渐进,逐步提升学生的学习技能和实践水平,
提高“学”的质量和成效。利用大数据分析主流软件框架,搭建与业界主要用户一致的实验与科研环境,将理论课程中学到的数据挖掘算法运用到实际的数据分析过程中,提升学生的动手操作和项目实践能力。使得学生所学与企业项目人才需求无缝衔接,与教师的科研工作紧密配合。
通过专业的大数据分析计算资源搭建的开放式大数据分析平台,可以充分的融合教师的科研需求,教师可以在开放的平台环境下开展大数据科研工作,提升教师的科研创新能力,充分提高“研”的成效。
二、 产品优势
交互式学习模式
提供体系完整、简单易用的在线教学课堂;以基础知识学习、在线视频教学、习题、线上测试、评估等为主线的一系列方法,确保学生在短时间内掌握大数据虚拟仿真实验、分析部署技能。 真机实验训练
实验训练体系设计成各模块相对独立的形式,各模块交互式的实验任务、大数据实验机、实际项目上机操作,通过多方位的训练,最终灵活的、渐进式地掌握大数据生态体系。
大数据实战及案例分析
提供实验数据,包括网站流量数据、租房及二手房数据、电商商品交易数据、搜索引擎访问等多种行业数据,数据内容超过20TB,同时周期更新数据内容。
充分支撑科研工作
提供行业数据及案例解剖用于基础研究,提供数据分析方案及流程,提供数据更新接口,可以对行业数据进行分析统计,按需求生成数据报表,为科研工作提供数据支撑。例如某地区经济数据分析、股市数据分析、全国地震数据分析、食品价格行业数据分析等。
三、 建设规模
按照60台大数据实验机容量进行同时在线使用进行建设为基础,整体系统提供快速扩容升级服务。
四、 硬件配置
采用十六台高性能品牌服务器作为大数据节点进行建设,采用企业级全千兆三层交换机进行网络数据交换。
每台节点的配置如下: 处理器 高速缓存 QPI总线速率 内存 每节点支持2个英特尔® 至强® 处理器 E5-2650 CPU 15MB s 提供12个内存插槽,标配192G内存, 支持高级内存纠错,内存镜像,内存热备等高级功能 磁盘 标配4块3TB SATA硬盘 标配2块120G SSD 硬盘 300G 10000转SAS系统盘 网络控制器 集成1个高性能千兆以太网控制器(双口),支持虚拟化加速,网络加速,负载均衡,冗余等高级功能 电源 虚拟化技术 标配大功率高效白金级电源,1+1冗余 支持VMware vSphere、Docker、OpenStack等
五、 软件平台介绍
1、大数据教学管理系统 1.1 专业管理
提供对专业信息的增加、删除、修改、查询功能。
1.2 班级管理
提供对专业下属班级的增加、删除、修改、查询功能。
1.3 学生管理
提供对班级内学生的管理,学生内容包含姓名、学号、所属班级、所属专业、联系手机、
登录次数等内容。 1.4 交流日志查阅
对实验机分享交流的内容进行查询,包含交流IP、相关学员、相关老师、实验机编号、交
流内容等内容。 1.5 成绩管理
对于学习中心在线学习的学习考核成绩进行管理,包含查询及删除等功能。
1.6 学习记录
提供每个学生在学习中心平台内学习课程的学习记录,包含日期、计划、课程、章节、学
习IP等。 1.7 学习行为报表
对所有学生的课程学习记录进行统计,包含个体统计、班级统计、全体统计等。
1.8 课程管理
对学习课程进行查询、修改、删除等操作。
1.9 开通课程计划
对于学习开课计划的字段内容包含计划名称、授课讲师、授课时间段、开通状态、允许申
请周期,允许申请人数等,功能提供绑定课程计划相关实训平台课程、授课助教、云实验机绑定、实验任务绑定等功能。 1.10 课程测验习题管理
提供对课程相关的习题管理,题型包含单选、多选、判断题等类型,对习题进行增、册、
改、查操作。 1.11 分级权限功能
系统分为总管理员、助教等二级管理角色,总管理员进行管理所有的功能点,助教可以进
行班级管理、学生管理、开课计划制作、实验机远程协助等。 1.12 学生实训系统
提供学生根据姓名、学号、密码登录系统进行实训操作,学生只需安装浏览即可进行实验
任务操作;提供实训课程在线学习功能、实验机在线操作、实验报告提交、实验机界面截图、记录课程学习时长等。 1.13 实验机桌面分享
提供实验机桌面分享功能,如学生在学习、操作云实验机的过程中,有问题可以向老师发
起协助请求,助教在收到请求时,可以远程访问学生的实验机,并指导如何操作。 2、云实验机及实验任务
2.1 云实验机
提供基于Web浏览器的实验机可视化操作,操作终端无需安装其它开发软件即可进行实验
操作;云实验机可以根据学生编号、实验任务和环境要求自动创建,无需管理人员参与实验机创建操作过程。管理平台对云实验机可以进行停止、销毁操作。 2.2 云实验机集群管理功能
提供云实验机集群管理,对实验机所属服务器进行新增、删除等操作。
2.3 云实验机类型
包含Hadoop实验机、Hive实验机、HBase实验机、R语言实验机、Scala实验机、Spark实验机、Kafka实验机、Sqoop实验机、Flume实验机、数据可视化实验机等。 2.4 实验机运行监控系统
系统提供对实验集群运行的所有实验机进行监控,可以查询编号、所属服务器、创建时间、
运行状态、开放端口等内容。 2.5 实验任务管理
提供对实验任务内容的管理,包含任务课程、绑定实验机、设定任务成绩总分,排序值等,
提供多种实验任务内容,例如Hadoop实验任务、Hive实验任务、HBase实验任务、Flume与kafka实验任务等。 2.6 实验报告审阅功能
在实验任务过程中学生上交的任务报告进行审阅评分,提供按照学生、实验任务等字段进
行检索功能。
2.7 云实验机桌面分享系统
提供实验机桌面基于浏览器的分享功能,允许学生与学生、学生与老师同步操作实验机桌
面系统,提供基于浏览器的交流功能。
3、大数据实战平台系统
3.1 大数据集群管理系统
基于分布式集群管理系统,提供大数据集群管理系统,功能包含Hadoop、Hive、HBase、
Sqoop、Flume、Spark等节点部属及管理,提供实时监控集群的CPU、内存、硬盘等使用率及相关信息,可以对管理节点、计算节点进行启动、停止等操作管理。 3.2 大数据作业工作流系统
提供大数据相关作业的上传、部属、流程管理等功能,基于 Web 的任务调度、兼容Hadoop、
Spark主流版本、失败任务的、运行状态监控等。
六、 大数据课程及行业案例
实验平台提供100个课时的Hadoop、Spark等大数据主流课程,课程与大数据实验机完美结合,学员在教学管理系统学习课程,随时进行实训操作,包含项目设计、数据采集、清洗、建模、技术实现等,快速提升实操技能,最终掌握大数据开发、数据分析与数据挖掘等大数据能力。部分案例图片:
【电商大数据分析案例】
【电商大数据分析架构】
【房产大数据分析架构】
【房产大数据分析可视化】
【搜索大数据分析架构】
【网站日志大数据分析架构】
课程实验内容包含:
课程名称 Hadoop基础 课时 10 课程内容介绍 讲解Hadoop生态系统,包括操作与开发;详细讲解HDFS和Map-Reduce的功能及作用;了解MapReduce原理、运行流程、压缩数据处理、作业调度、计算器等环节。 HDFS程序开发 6 讲解Hadoop文件系统HDFS JAVA API的使用。掌握如何使用HDFS Java API,读写文件、读写目录、以及对文件进行压缩处理等。 MapReduce开发 6 本课程针对Hadoop MapReduce开发进行讲解。课程以案例为基础,重点介绍MapReduce程序结构,以及如何使用MapReduce进行数据统计,去重,排序,Map端Join,Reduce端Join等关联操作,掌握MapReduce处理过程。 Hive数据仓库 24 Hive是基于Hadoop构建的数据仓库分析系统,通过学习掌握Hive的函数、Hive数据的加载、Hive的DDL操作、自定义函数(UDF)等内容,达到使用Hive进行查询、汇总、分析数据的能力。 分布式数据库HBase 6 HBase是Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;通过学习对HBase表设计、表操作、数据操作、Java API等内容,掌握对HBase系统的开发及使用。 数据迁移工具 Sqoop 4 Sqoop是关系型数据库和Hadoop生态系统之间进行数据转换的主要工具;通过学习将mysql中的数据导入到hdfs中、将数据导入到HBase中、定义导入导出任务等,掌握对数据迁移的能力。 分布式日志框架Flume 4 Flume对海量日志进行采集、聚合和传输的主流大数据工具;课程内容包含Flume应用场景、FlumeNG、FlumeOG、Flume的核心组件、Flume的架构、Flume的source、sink配置说明等。 Kafka流式数据采集 4 Kafka是分布式的消息队列,广泛应用于实时数据处理。学习内容包含Kafka的体系结构、安装模式及安装部署、Topic、Producer、Consumer、发布订阅消息以及Kafka JAVA开发等。 Spark 6 Spark是一款高性能的分布式计算框架,比MapReduce计算快百倍;本课程内容全面涵盖了Spark生态系统、Spark与Hadoop对比、开发环境搭建、RDD、编程模型、Web监控等内容。 Spark Streaming 4 Spark Streaming是用户结合流式、批处理和交互式查询应用的实时计算框架;本课程内容详细讲解原理与特点、适用场景、Dstream操作、容错、性能优化和内存优化等。 Spark SQL 4 Spark SQL的出现,使得SQL-on-Hadoop的性能相对于Hive有了显著的提高。达到Spark兼容Hive的功能。本课程详细讲解特点、运行架构、数据源、数据缓存、DataFrame等。 实战案例 搜索引擎日志 6 讲解Hadoop系统架构设计以及项目分析流程;通过对用户搜索记录数据的清洗,分析指标内容,得出关键词排行榜、用户停留数据统计分析 实战案例 电子商务平台 大数据分析 6 时间最高页面等。 讲解Spark系统架构设计以及项目分析流程;本课程主要讲解搭建电商的数据处理平台、数据统计、分析及可视化技术的应用开发流程。
七、 行业数据及案例
提供大数据实战案例以及行业数据,提供包含海量网站日志分析案例、租房及二手房大数
据分析案例、电商商品交易大数据挖掘、搜索引擎关键词分析算法案例、汽车销售数据分析案例等案例讲解及实战作业工作流内容。
数据名称 地区房产数据 全国汽车数据 数据描述 包含二手房在售数据、出租房屋数据、经纪人评价数据等。 包含国内不同种类汽车详细配置信息、汽车使用评论数据、汽车销售数据以及二手车数据等。可用于汽车行业市场行情分析。 法律咨询数据 包含国内所有法律咨询服务机构数据、机构评论数据、有关法律咨询话题的数据。可用于法律咨询行业市场行情分析,社会治安情况分析。 疾病问答数据 包含国内不同种类疾病问题数据、医生回复数据、有关疾病常识等话题的数据。 股票基金交易数据 包含国内、港股、美股等国内外股票行情及交易数据、按照时间段提供详细数据;也包含证券投资基金、保险基金、信托投资基金等行情数据。 天气、气象数据 包含全国各个地区气象数据(气温、降水量、风、气压等)、气象观测产品数据。可用于气象业务、天气预报、气候预测以及气象服务。 人脸图像数据 包含国内多种年龄段的人脸图像数据。用于脸部特征分析、人脸识别、人脸检测等,每个人提供多个角度的图片。 电商评价数据 包含上百万条国内知名电商平台产品评价数据。可用于用户购买产每周 每月 每日 每日 每月 每周 更新 每周 每月 品意愿分析、个性化推荐和精准营销,进行商业舆情监控和产品的市场行情分析。 北京生鲜食品价格数据 包含历年北京市蔬菜、水果、肉禽蛋、水产等生鲜食品的最低价、最高价以及平均价以及最新价格。利用大数据可进行生鲜食品行业分析。 搜索引擎访问日志数据 包含用户搜索记录数据。通过对用户搜索记录的分析,可以分析用户行为特征,构建广告点击模型。 海量网站访问日志数据 包含海量用户访问网站的日志数据。通过对日志的分析,我们可以知道获取网站每类页面的PV值(PageView,页面访问量)、独立IP数,哪个网页最有价值等。 每周 每周 每日
八、 安装配置
1、大数据教学管理系统
2、大数据实战集群及案例
因篇幅问题不能全部显示,请点此查看更多更全内容