OpenCloud 2015

 

Spark实战培训

随着大数据相关技术和产业的逐渐成熟,单个组织内往往需要同时进行多种类型的大数据分析作业:批量计算、各种机器学习算法为代表的迭代型计算、流式计算、社交网络中常用的图计算、SQL关系查询、交互式即席查询等。在Spark出现前,要在一个组织内同时完成以上数种大数据分析任务,就不得不与多套独立的系统打交道,一方面引入了不容小觑的运维复杂性,另一方面还免不了要在多个系统间频繁进行代价高昂的数据转储。
作为Apache的顶尖项目Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。
通过这次培训,将可以帮助您快速走进Spark的世界,了解Spark的编程模型及其内核,Spark如何支持SQL交互,基于Spark的机器学习算法库MLlib及其向量模型、矩阵模型,优化并行等

课程:Spark经典实战技术解析
深入Spark内核,基于Spark的结构化数据分析和机器学习

本次培训适合人群: 业务主管,IT高管,架构师,研发经理,软件工程师等

 

本次培训特约合作伙伴:小象学院

小象介绍:

小象学院(ChinaHadoop.cn)是北京小象科技旗下的在线教育服务平台,专注于互联网技术的普及和推广。依托于中国最活跃的大数据云计算人才和智慧聚集地——ChinaHadoop社区,小象学院向全国以及海外华人提供最新、最快、最专业的在线课程和在线实验室云服务。目前,小象学院的课程体系包括:大数据平台、大数据应用、云计算等,已经为数千家企业、高校、产业园区提供服务。小象学院于2013年12月份正式上线,小象学院的目标是成为中国互联网技术职业教育的“黄埔军校”!

课程体系

主题:

Spark编程模型、内核及Spark Streaming

时间:

4月17日上午

内容:

一、Spark编程模型

    • Spark生态系统概述

    • RDD

  • • 缓存策略介绍
  • • transformation
  • • action
  • • lineage
  • • 容错处理
  • • 宽依赖与窄依赖
  • • 集群配置

二、Spark内核剖析

  • • Spark术语解释
  • • 集群概览
  • • 核心组件
  • • 数据本地性
  • • 常用RDD
  • • 任务调度(DAGScheduler ,TaskScheduler)
  • • Task细节
  • • 广播变量
  • • 累加器
  • • 性能调优

三、Spark Streaming流式计算

  • • DStream
  • • 数据源
  • • 无状态transformation与有状态transformation
  • • checkpoint
  • • 容错

 

时间:

13:30-15:30

内容:

基于Spark的结构化数据分析

一、Spark SQL

  • • DataFrame API
  • • Hive交互
  • • 外部数据源API
  • • 与Spark其他组件的交互
  • • Catalyst查询优化器

主题:

基于Spark的机器学习实现

时间:

15:40-17:40

内容:

一、Spark MLlib

  • • MLlib最新进展简介
  • • 模型表示 --> MLlib的向量模型与矩阵模型
  • • 优化并行 --> 同步方式、优化调度、以及模型存储
  • • 计算模式 --> MLlib与GraphX
  • • 数据承载 --> MLlib与SparkSQL
  • • 实例分析 --> MLlib与Scikit-learn
主题 / 时间 内容
Spark编程模型、内核及Spark Streaming
09:00-12:00

一、Spark编程模型

• Spark生态系统概述
• RDD
• 缓存策略介绍 
• transformation
• action 
• lineage
• 容错处理 
• 宽依赖与窄依赖 
• 集群配置

二、Spark内核剖析

• Spark术语解释
• 集群概览
• 核心组件 
• 数据本地性
• 常用RDD 
• 任务调度(DAGScheduler ,TaskScheduler)
• Task细节 
• 广播变量
• 累加器
• 性能调优 

三、Spark Streaming流式计算

• DStream
• 数据源
• 无状态transformation与有状态transformation
• checkpoint
• 容错 

基于Spark的结构化数据分析
13:30-15:30

Spark SQL

• DataFrame API
• Hive交互
• 外部数据源API
• 与Spark其他组件的交互
• Catalyst查询优化器 

基于Spark的机器学习实现
15:40-17:40

Spark MLlib

• MLlib最新进展简介
• 模型表示 --> MLlib的向量模型与矩阵模型
• 优化并行 --> 同步方式、优化调度、以及模型存储 
• 计算模式 --> MLlib与GraphX
• 数据承载 --> MLlib与SparkSQL
• 实例分析 --> MLlib与Scikit-learn

 

 

培训门票

Spark技术培训票

课程:

Spark技术培训门票

原价:1800元/张

现价:1260元/张

立即购票

课程:

非大会参会者购买培训门票

现价:1800元/张

立即购票

Spark技术培训票
课程 会议时间 原价 现价 购票
Spark技术培训门票 4月17日 1800元/张 大会参会者
1260元/张
立即购票
非大会参会者
1800元/张
立即购票

注: 参会者可参加4月17日spark实战培训课程、同时包含展区参观、大会资料和当天午餐 购票咨询热线:010-64351456

讲师团队

陈超
七牛云存储技术总监

嘉宾介绍:
近年来,陈超一直专注于分布式计算与机器学习相关领域,是国内最早的Spark研究与使用者。 目前专注于Spark平台的大数据处理,尤其精通Scala语言,Machine Learning ,实时计算和图计算,并将实践成果快速应用于大数据相关的业务和产品。

尹绪森
Intel中国研究院 高级工程师 资深Spark技术实践者和研究者

嘉宾介绍:
对Spark、Mahout、GraphLab等开源项目有深入研究和理解,并从优化层向下,系统层向上对并行算法及平台做出社区贡献。 对Spark底层架构及其原理有全面深入的认识,尤其熟悉基于Spark的机器学习相关内容,同时对自然语言处理、推荐系统等有丰富的实践经验。 目前正全力致力于基于Spark的机器学习算法并行、凸优化层面的算法优化问题,以及Spark大数据平台性能调优。

连城
Databricks工程师,Apache Spark Committer ,Spark SQL主要开发者之一

嘉宾介绍:
曾就职于网易杭州研究院、百度及Intel物联技术研究院。感兴趣的技术方向主要包括数据库、分布式系统及函数式编程语言。