小小千想和您聊一聊

当前位置: 首页> 视频教程> Spark基础及源码分析

Spark基础及源码分析高级

   评分9.9

103节课

20208人已学

下载本章视频你能学到什么?

本节课能够掌握Spark的环境搭建 ,任务调度流程  ,以及RDD代码的应用。

千锋大数据官方①群(857910996)——猛戳进入


课程介绍

Apache Spark 是在大数据工业界里用的最多的基于内存的技术框架,尤其是RDD的特性以及应用,对帮助理解Spark和任务提交的流程以及缓存机制 。


章节目录
1 .Scala语言环境安装、Scala的基本语法(14集) 第6章 Spark集群安装、Spark任务提交(5集)
1、认识scala 1、spark简介
2、安装开发环境 2、spark集群搭建、启动
3、scala Shell、用idea创建maven项目 3、spark Shell.启动和提交任务
4、配置maven本地仓库、导入切换项目等其它配置 4、spark Wordcount
5、变量的声明 5、上传并执行任务
6、scala的7种值类型和条件表达式 第7章 RDD的基本概念、常用算子练习(5集)
7、for循环 1、rdd的概念
8、方法和函数的声明以及方法转换成函数 2、生成rdd的两种方式
9、数组 3、两种类型的算子:transformation和action
10、映射 4、常用算子练习1
11、元组 5、常用算子练习2
12、集合之seq 第8章 案例练习(4集)
13、集合之set 1、案例需求-求用户在某基站停留的时间
14、集合之map 2、案例实现-求用户在某基站停留的时间
第2章 常用方法练习(7集) 3、案例实现-求用户访问学科的子网页top3
1、lazy关键字 4、案例实现-求用户访问学科的子网页top3-chache
2、函数式编程练习之常用方法 第9章 Spark集群启动流程和任务提交流程(4集)
3、函数式编程之reduce 1、spark集群启动流程
4、函数式编程之fold 2、spark任务提交流程
5、函数式编程之aggregate 3、wordcount中创建了那些rdd
6、函数式编程之交并差集 4、案例分析实现-按照ip统计区域访问量
7、scala实现wordcount 第10章 RDD的依赖关系、Stage划分(4集)
第3章 面向对象、模式匹配(12集) 1、rdd之间的依赖关系
1、创建类、属性 2、dag的生成和stage的划分
2、构造器、辅助构造器 3、webui观察stage划分和任务的生成
3、单例对象 4、自定义二次排序
4、伴生对象 第11章 Day11 Checkpoint、SparkSQL(8集)
5、apply和unapply方法 1、checkpoint
6、private关键字 2、sparksql介绍
7、特质、抽象类、继承、重写、实现等 3、创建dataframe
8、模式匹配之匹配字符串 4、dataframe常用操作-dsl风格语法
9、模式匹配之匹配类型 5、dataframe常用操作-sql风格语法
10、模式匹配之匹配数组、元组、集合 6、通过反射推断schema
11、模式匹配之样例类 7、通过structtype直接指定schema
12、模式匹配之偏函数 8、hive-on-spark
第4章 Actor、柯里化、隐式转换(10集) 第12章 SparkStreaming、Spark-On-Yarn(7集)
1、作为值的函数 1、sparkstreaming简介
2、柯里化概念及声明方式 2、实例分析:获取netcat产生的数据进行实时分析
3、柯里化练习 3、sparkstreaming实现按批次累加
4、隐式转换和隐式参数 4、窗口函数概念及使用场景
5、隐式转换练习1 5、窗口函数实现wordcount
6、隐式转换练习2 6、spark-on-yarn
7、泛型 7、补充:sparkstreaming依赖
8、upperbound 第13章 源码分析:Spark启动流程(14集)
9、viewbound 1、关于查看源码的一些介绍
10、contextbound 2、导入源码
第5章 泛型、Akka(9集) 3、集群启动流程-master类
1、actor概念 4、集群启动流程-worker类
2、actor实例之创建actor 5、sparksubmit提交任务
3、actor实例之消息的接收与发送(异步没有返回值) 6、sparkcontext
4、actor实例之消息的接收与发送(同步有返回值) 7、创建driveractor和clientactor的过程
5、actor实例之消息的接收与发送(异步有返回值) 8、clientactor向master注册任务信息过程
6、actor实例之并行编程思想实现单词计数 9、任务调度的两种方式
7、akka简介 10、executor向driveractor反向注册的过程
8、akka案例需求分析 11、rdd生成和stage划分
9、akka案例代码分析 12、生成任务并提交
13、task任务执行流程
14、总结-任务生成及提交流程


  • 第1章 - Scala语言环境安装、Scala的基本语法

  • 第2章 - 常用方法练习

  • 第3章 - 面向对象、模式匹配

  • 第4章 - Actor、柯里化、隐式转换

  • 第5章 - 泛型、Akka

    • 第44节 - actor概念

      点击播放
    • 第45节 - actor实例之创建actor

      点击播放
    • 第46节 - actor实例之消息的接收与发送(异步没有返回值)

      点击播放
    • 第47节 - actor实例之消息的接收与发送(同步有返回值)

      点击播放
    • 第48节 - actor实例之消息的接收与发送(异步有返回值)

      点击播放
    • 第49节 - actor实例之并行编程思想实现单词计数

      点击播放
    • 第50节 - akka简介

      点击播放
    • 第51节 - akka案例需求分析

      点击播放
    • 第52节 - akka案例代码分析

      点击播放
  • 第6章 - Spark集群安装、Spark任务提交、Spark实现WordCount并上传任务

  • 第7章 - RDD的基本概念、常用算子练习

  • 第8章 - 案例练习

    • 第63节 - 案例需求-求用户在某基站停留的时间

      点击播放
    • 第64节 - 案例实现-求用户在某基站停留的时间

      点击播放
    • 第65节 - 案例实现-求用户访问学科的子网页top3

      点击播放
    • 第66节 - 案例实现-求用户访问学科的子网页top3-chache、自定义分区器

      点击播放
  • 第9章 - Spark集群启动流程和任务提交流程、案例练习

  • 第10章 - RDD的依赖关系、Stage划分、任务的生成、自定义排序

  • 第11章 - Day11 Checkpoint、SparkSQL、Hive-On-Spark

  • 第12章 - SparkStreaming、窗口操作、Spark-On-Yarn

  • 第13章 - 源码分析:Spark启动流程、Stage划分、任务生成、任务提交流程

  • 大数据概念

    大数据:指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新模式才能具有更强大的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产

    60
  • HDFS基本概念

    源自于Google的GFS论文发表于2003年10月 HDFS是GFS克隆版 ,HDFS的全称是Hadoop Distributed File System易于扩展的分布式文件系统,运行在大量普通廉价机器上,提供容错机制,为大量用户提供性能不错的文件存取服务

    53
  • 大数据基础教程:TextFile分区问题

    获取分区的个数:rdd1.partitions.length,在spark-shell中没有指定分区的个数获取的是默认分区数,除了这个外parallelize方法可以使用,指定几个分区就会有几个分区出现

    152
  • 大数据基础教程:创建RDD的二种方式

     RDD支持两种操作:转化操作和行动操作。RDD 的转化操作是返回一个新的 RDD的操作,比如 map()和 filter(),而行动操作则是向驱动器程序返回结果或把结果写入外部系统的操作。

    762
  • SparkShell和IDEA中编写Spark程序

     spark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下用Scala编写Spark程序。spark-shell程序一般用作Spark程序测试练习来用。spark-shell属于Spark的特殊应用程序,我们可以在这个特殊的应用程序中提交应用程序

    258
  • 知乎问答3-MySQL安装详解

    知乎问答3-MySQL安装详解

    250
  • 初识Spark和Spark体系介绍

    之前学习了Hadoop的生态圈HDFS MapReduce Yarn 除了这三个总要的的三大框架之外我们还学了Hive Hbase Flume Sqoop等附属在Hadoop这个生态圈中所使用的工具

    213
  • Hadoop2.X 的环境配置与运行官方案例

    Hadoop2.X 的环境配置与运行官方案例

    798
  • 第 3 章 认识Hadoop

      Hadoop是一个开源框架,也是大数据主要框架之一。Hadoop最核心的设计是:HDFS和MapReduce。其中,HDFS为海量数据提供了存储,MapReduce为海量数据提供了计算。Hadoop可以让用户在不了解分布式底层细节的情况下,根据需求进行应用程序开发。

    407
  • 第2章 Shell编程

     Shell是一个作为用户与Linux内核通信的桥梁,它除了解释用户向操作系统输入的命令外,还可以调用其他程序或被其他程序调用,因此,Shell将内核、程序和用户连接在一起。

    383

他们都在看