彦哲研究院——信息化管理先进理论与最佳实践有机结合的推进者!

信息化管理专家网

信息化管理专家网

当前位置: 主页 > 彦哲大讲堂 >

Hadoop云计算开发培训

岗位类型:培训 服务行业:IT 专业特长:云计算 上线日期:16-09-26 22:22 人气:
专家介绍
  课程名称 Hadoop云计算开发
课程时间4天
课程简介
Hadoop天生是为解决大数据高并发问题而生的,是一个能够对海量数据进行分布式处理的开源框架。
互联网企业、金融机构、政府组织和云计算服务企业每天都会产生大量的数据并面临高并发的严峻考验,传统的关系型数据库已经无法满足大数据量高并发的要求,作为云计算实现规范和实施标准的Hadoop应运而生。
培训对象
l 希望从事Hadoop开发工程师工作
l 希望从事Hadoop运维工程师工作
l 希望从事Hadoop数据分析师工作
学员基础
·要求学员接触过信息化系统开发、维护、数据分析相关的工作;
·要求学员掌握一定Java开发基础知识、熟悉常用Linux命令;
培训方式:
整个课程从宏观上介绍以Hadoop存储层HDFS、计算模型Map/Reduce为基础,构建而成的分布式存储与计算的生态系统。
并辅以丰富的实战案例,讲解基于Hive + Hadoop构建的离线(Offline)计算方式,基于Hbase + hadoop构建的实时 (Online) 计算方式。
l Hadoop集群部署实战
l Hive集群部署实战
l HBase集群部署实战
l HDFS项目实战——基于HDFS的网盘系统
l MapReduce项目实战——倒排序索引系统
l Hive案例实战——基于Hive的海量日志分析系统
l HBase案例实战——基于HBase的电信行业话单查询统计系统
课程安排:
第一天(共计6课时)
Section 1:初识神象——Hadoop
l Hadoop设计目标与应用场景
l Hadoop体系结构与工作机制
l Hadoop生态圈
Section 2:项目实战: Hadoop集群部署
l Hadoop集群的搭建
l Hadoop集群的维护
l Hadoop集群问题关键点分析
Section 3:分布式海量存储系统——HDFS
l HDFS设计目标与应用场景
l HDFS架构剖析与工作机制
l HDFS下的文件操作
l HDFS API应用详解
l HDFS性能优化
相关工具:Linux、VM、Eclipse
第二天(共计6课时)
Section 1:项目实战: 基于HDFS的网盘系统
l HDFS网盘系统架构设计
l HDFS网盘系统的设计与实现
项目简介
网盘系统是一个基于Hadoop HDFS的分布式文件存储解决方案。
基于HDFS的网盘系统可以把独立的服务器磁盘或磁盘阵列统一为有机整体,由Hadoop HDFS全局维护数据的存储与备份,以存储海量数据,对外部系统提供一致的文件下载服务。
基于HDFS的网盘系统可以将数据冗余存储,保证了数据的安全存储与备份,并使整个存储的水平扩展非常容易。
Section 2:分久必合——MapReduce计算模型
l MapReduce设计目标与应用场景
l MapReduce架构剖析与工作机制
l MapReduce实现经典的WordCount案例详解
l 利用Combiner减少中间数据
l 编写Partitioner优化负载均衡
l 组合式MapReduce作业
l MapReduce中多数据源的连接
l MapReduce与关系数据库的连接与访问
 Section 3:项目实战: 基于MapReduce的倒排序索引系统
l 倒排序索引系统架构设计
l 倒排序索引系统的设计与实现
第三天(共计6课时)
Section 1:飞进数据仓库的小蜜蜂——Hive
l Hive设计目标与应用场景
l Hive架构剖析与工作机制
l Hive提供的接口服务
l HiveQL数据类型与HiveQL语法
l UDF与UDAF编程详解
l 使用Hive处理海量数据
Section 2:项目实战: Hive集群部署
l Hive集群的搭建
l Hive集群的维护
l Hive集群问题关键点分析
Section 3:项目实战:基于Hive的海量日志分析系统
l 日志分析系统架构设计
l 日志分析系统的设计与实现
项目简介
Hive是基于Hadoop的数据仓库平台,它将结构化的数据文件映射为数据库表,并提供类SQL语句的HQL查询功能,将HQL语句转换为MapReduce任务运行。
Hive学习成本低,可以通过HQL语句快速实现MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
Hive将数据存储在HDFS之上,在对数据作统计分析的同时,又保证了数据的安全存储与备份。
日志分析系统使用Hive的HiveQL分析处理一个Hadoop集群中产生的海量日志数据,并将查询筛选出来的结果数据转存到传统的关系数据库MySQL中。整个项目学习如何使用HiveQL分析处理海量数据,并学习Hive与关系数据库的连接与访问。
第四天(共计6课时)
Section 1:一张无限大的表——Hbase
l HBase设计目标与应用场景
l HBase架构剖析与工作机制
l HBase提供的接口服务
l Hbase中常用的Table操作
l HBase API应用详解
l Hbase性能优化
Section 2:项目实战: HBase集群部署
l HBase集群的搭建
l HBase集群的维护
l HBase集群问题关键点分析
Section 3:项目实战:基于HBase的电信行业话单查询统计系统
l 话单系统架构设计
l 话单系统的设计与实现
项目简介
Hbase是基于Hadoop的分布式数据库。实现了高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统,适合于存储粗数度的结构化数据。
在传统关系数据库中,单表亿行规模以上的查询统计耗时较长,往往不适合实时性要求较高的应用。基于HBase的话单查询统计系统,是一个对海量数据的实时性统计响应较高的应用。系统的优点是读写性能高、吞吐量大、存储可扩展、计算可扩展、稳定性好。
师资介绍:
刘老师,北京航空航天大学软件工程硕士,国家系统分析师,国家信息系统项目管理师,国家系统集成高级项目经理资质,彦哲研究院顾问,希赛顾问团顾问。
多年从事Hadoop分布式存储与计算系统设计研发,电信行业经营分析系统、业务支撑系统、通讯网关系统设计研发工作。
在Hadoop云计算、分布式存储与计算、海量数据分析与处理等方面有深入的应用和丰富的实践经验。
联系方式:
彦哲研究院秘书处
电子邮件:service@yima.org.cn
官方网站:www.yima.org.cn(信息化管理专家网)
织梦二维码生成器
------分隔线----------------------------
栏目列表
专家推荐