小小千想和您聊一聊

当前位置: 首页> 视频教程> Spark基础及源码分析

Spark基础及源码分析高级

   评分9.6

103节课

8683人已学

下载本章视频你能学到什么?

本节课能够掌握Spark的环境搭建 ,任务调度流程  ,以及RDD代码的应用。

千锋大数据官方①群(857910996)——猛戳进入


课程介绍

Apache Spark 是在大数据工业界里用的最多的基于内存的技术框架,尤其是RDD的特性以及应用,对帮助理解Spark和任务提交的流程以及缓存机制 。


章节目录
1 .Scala语言环境安装、Scala的基本语法(14集) 第6章 Spark集群安装、Spark任务提交(5集)
1、认识scala 1、spark简介
2、安装开发环境 2、spark集群搭建、启动
3、scala Shell、用idea创建maven项目 3、spark Shell.启动和提交任务
4、配置maven本地仓库、导入切换项目等其它配置 4、spark Wordcount
5、变量的声明 5、上传并执行任务
6、scala的7种值类型和条件表达式 第7章 RDD的基本概念、常用算子练习(5集)
7、for循环 1、rdd的概念
8、方法和函数的声明以及方法转换成函数 2、生成rdd的两种方式
9、数组 3、两种类型的算子:transformation和action
10、映射 4、常用算子练习1
11、元组 5、常用算子练习2
12、集合之seq 第8章 案例练习(4集)
13、集合之set 1、案例需求-求用户在某基站停留的时间
14、集合之map 2、案例实现-求用户在某基站停留的时间
第2章 常用方法练习(7集) 3、案例实现-求用户访问学科的子网页top3
1、lazy关键字 4、案例实现-求用户访问学科的子网页top3-chache
2、函数式编程练习之常用方法 第9章 Spark集群启动流程和任务提交流程(4集)
3、函数式编程之reduce 1、spark集群启动流程
4、函数式编程之fold 2、spark任务提交流程
5、函数式编程之aggregate 3、wordcount中创建了那些rdd
6、函数式编程之交并差集 4、案例分析实现-按照ip统计区域访问量
7、scala实现wordcount 第10章 RDD的依赖关系、Stage划分(4集)
第3章 面向对象、模式匹配(12集) 1、rdd之间的依赖关系
1、创建类、属性 2、dag的生成和stage的划分
2、构造器、辅助构造器 3、webui观察stage划分和任务的生成
3、单例对象 4、自定义二次排序
4、伴生对象 第11章 Day11 Checkpoint、SparkSQL(8集)
5、apply和unapply方法 1、checkpoint
6、private关键字 2、sparksql介绍
7、特质、抽象类、继承、重写、实现等 3、创建dataframe
8、模式匹配之匹配字符串 4、dataframe常用操作-dsl风格语法
9、模式匹配之匹配类型 5、dataframe常用操作-sql风格语法
10、模式匹配之匹配数组、元组、集合 6、通过反射推断schema
11、模式匹配之样例类 7、通过structtype直接指定schema
12、模式匹配之偏函数 8、hive-on-spark
第4章 Actor、柯里化、隐式转换(10集) 第12章 SparkStreaming、Spark-On-Yarn(7集)
1、作为值的函数 1、sparkstreaming简介
2、柯里化概念及声明方式 2、实例分析:获取netcat产生的数据进行实时分析
3、柯里化练习 3、sparkstreaming实现按批次累加
4、隐式转换和隐式参数 4、窗口函数概念及使用场景
5、隐式转换练习1 5、窗口函数实现wordcount
6、隐式转换练习2 6、spark-on-yarn
7、泛型 7、补充:sparkstreaming依赖
8、upperbound 第13章 源码分析:Spark启动流程(14集)
9、viewbound 1、关于查看源码的一些介绍
10、contextbound 2、导入源码
第5章 泛型、Akka(9集) 3、集群启动流程-master类
1、actor概念 4、集群启动流程-worker类
2、actor实例之创建actor 5、sparksubmit提交任务
3、actor实例之消息的接收与发送(异步没有返回值) 6、sparkcontext
4、actor实例之消息的接收与发送(同步有返回值) 7、创建driveractor和clientactor的过程
5、actor实例之消息的接收与发送(异步有返回值) 8、clientactor向master注册任务信息过程
6、actor实例之并行编程思想实现单词计数 9、任务调度的两种方式
7、akka简介 10、executor向driveractor反向注册的过程
8、akka案例需求分析 11、rdd生成和stage划分
9、akka案例代码分析 12、生成任务并提交
13、task任务执行流程
14、总结-任务生成及提交流程


  • 第1章 - Scala语言环境安装、Scala的基本语法

  • 第2章 - 常用方法练习

  • 第3章 - 面向对象、模式匹配

  • 第4章 - Actor、柯里化、隐式转换

  • 第5章 - 泛型、Akka

    • 第44节 - actor概念

      点击播放
    • 第45节 - actor实例之创建actor

      点击播放
    • 第46节 - actor实例之消息的接收与发送(异步没有返回值)

      点击播放
    • 第47节 - actor实例之消息的接收与发送(同步有返回值)

      点击播放
    • 第48节 - actor实例之消息的接收与发送(异步有返回值)

      点击播放
    • 第49节 - actor实例之并行编程思想实现单词计数

      点击播放
    • 第50节 - akka简介

      点击播放
    • 第51节 - akka案例需求分析

      点击播放
    • 第52节 - akka案例代码分析

      点击播放
  • 第6章 - Spark集群安装、Spark任务提交、Spark实现WordCount并上传任务

  • 第7章 - RDD的基本概念、常用算子练习

  • 第8章 - 案例练习

    • 第63节 - 案例需求-求用户在某基站停留的时间

      点击播放
    • 第64节 - 案例实现-求用户在某基站停留的时间

      点击播放
    • 第65节 - 案例实现-求用户访问学科的子网页top3

      点击播放
    • 第66节 - 案例实现-求用户访问学科的子网页top3-chache、自定义分区器

      点击播放
  • 第9章 - Spark集群启动流程和任务提交流程、案例练习

  • 第10章 - RDD的依赖关系、Stage划分、任务的生成、自定义排序

  • 第11章 - Day11 Checkpoint、SparkSQL、Hive-On-Spark

  • 第12章 - SparkStreaming、窗口操作、Spark-On-Yarn

  • 第13章 - 源码分析:Spark启动流程、Stage划分、任务生成、任务提交流程

  • Hive分区和分桶

    当单个表数据量越来越大的时候,hive查询通常会全表扫描,这将会浪费我们不关心数据的扫描,浪费大量时间。从而hive引出分区概念partition

    231
  • 大数据编程之UDF函数

     UDF:user difine function,用户自定义函数,一对一。常用 udaf:user define aggregate function,用户自定义聚合函数,多对一。 udtf:user define table_generate function,用户自定义表生成函数,一对多。

    500
  • marpreduce快速入门

    mapreduce:分布式并行离线计算框架,是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上;

    237
  • 大数据之hive入门操作

     Apache Hive数据仓库软件可以使用SQL方便地阅读、编写和管理分布在分布式存储中的大型数据集。结构可以投射到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。

    502
  • 大数据编程hive内部函数

    大数据编程hive内部函数

    549
  • hive表的查询

    子查询是内嵌在另一个SQL 语句中的SELECT 语句。Hive 对子查询的支持很有限。它只允许子查询出现在SELECT 语句的FROM 子句中。Hive支持非相关子查询,这个子查询通过IN或EXISTS语法在WHERE子句中进行查询。Hive目前暂不支持相关子查询,相关子查询的执行依赖于外部查询的数据。

    527
  • hive的数据类型

    本质上是在hdfs上创建一个目录,使用comment加入数据库的描述信息,描述信息放在引号里。数据库的属性信息放在描述信息之后用with dbproperties 加入,属性信息放在括号内,属性名和属性值放在引号里,用等号连接有多条属性用逗号分隔。

    538
  • 大数据概念

    大数据:指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新模式才能具有更强大的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产

    865
  • HDFS基本概念

    源自于Google的GFS论文发表于2003年10月 HDFS是GFS克隆版 ,HDFS的全称是Hadoop Distributed File System易于扩展的分布式文件系统,运行在大量普通廉价机器上,提供容错机制,为大量用户提供性能不错的文件存取服务

    760
  • 大数据基础教程:TextFile分区问题

    获取分区的个数:rdd1.partitions.length,在spark-shell中没有指定分区的个数获取的是默认分区数,除了这个外parallelize方法可以使用,指定几个分区就会有几个分区出现

    1368

他们都在看