随着大数据相关技术和产业的逐渐成熟,单个组织内往往需要同时进行多种类型的大数据分析作业:批量计算、各种机器学习算法为代表的迭代型计算、流式计算、社交网络中常用的图计算、SQL关系查询、交互式即席查询等。在Spark出现前,要在一个组织内同时完成以上数种大数据分析任务,就不得不与多套独立的系统打交道,一方面引入了不容小觑的运维复杂性,另一方面还免不了要在多个系统间频繁进行代价高昂的数据转储。
作为Apache的顶尖项目Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。
通过这次培训,将可以帮助您快速走进Spark的世界,了解Spark的编程模型及其内核,Spark如何支持SQL交互,基于Spark的机器学习算法库MLlib及其向量模型、矩阵模型,优化并行等
课程:Spark经典实战技术解析
深入Spark内核,基于Spark的结构化数据分析和机器学习
本次培训适合人群: 业务主管,IT高管,架构师,研发经理,软件工程师等
本次培训特约合作伙伴:小象学院
小象介绍:
小象学院(ChinaHadoop.cn)是北京小象科技旗下的在线教育服务平台,专注于互联网技术的普及和推广。依托于中国最活跃的大数据云计算人才和智慧聚集地——ChinaHadoop社区,小象学院向全国以及海外华人提供最新、最快、最专业的在线课程和在线实验室云服务。目前,小象学院的课程体系包括:大数据平台、大数据应用、云计算等,已经为数千家企业、高校、产业园区提供服务。小象学院于2013年12月份正式上线,小象学院的目标是成为中国互联网技术职业教育的“黄埔军校”!
主题:Spark编程模型、内核及Spark Streaming 时间:4月17日上午 内容:一、Spark编程模型
• Spark生态系统概述 • RDD 二、Spark内核剖析
三、Spark Streaming流式计算
|
时间:13:30-15:30 内容:基于Spark的结构化数据分析一、Spark SQL
|
主题:基于Spark的机器学习实现 时间:15:40-17:40 内容:一、Spark MLlib
|
主题 / 时间 | 内容 |
---|---|
Spark编程模型、内核及Spark Streaming 09:00-12:00 |
一、Spark编程模型
• Spark生态系统概述 |
二、Spark内核剖析
• Spark术语解释 |
|
三、Spark Streaming流式计算
• DStream |
|
基于Spark的结构化数据分析 13:30-15:30 |
Spark SQL
• DataFrame API |
基于Spark的机器学习实现 15:40-17:40 |
Spark MLlib
• MLlib最新进展简介 |
注: 参会者可参加4月17日spark实战培训课程、同时包含展区参观、大会资料和当天午餐 购票咨询热线:010-64351456
嘉宾介绍:
近年来,陈超一直专注于分布式计算与机器学习相关领域,是国内最早的Spark研究与使用者。 目前专注于Spark平台的大数据处理,尤其精通Scala语言,Machine Learning ,实时计算和图计算,并将实践成果快速应用于大数据相关的业务和产品。
嘉宾介绍:
对Spark、Mahout、GraphLab等开源项目有深入研究和理解,并从优化层向下,系统层向上对并行算法及平台做出社区贡献。 对Spark底层架构及其原理有全面深入的认识,尤其熟悉基于Spark的机器学习相关内容,同时对自然语言处理、推荐系统等有丰富的实践经验。 目前正全力致力于基于Spark的机器学习算法并行、凸优化层面的算法优化问题,以及Spark大数据平台性能调优。
嘉宾介绍:
曾就职于网易杭州研究院、百度及Intel物联技术研究院。感兴趣的技术方向主要包括数据库、分布式系统及函数式编程语言。