小小千想和您聊一聊

当前位置: 首页> 视频教程> Spark基础及源码分析

Spark基础及源码分析高级

   评分9.9

103节课

19502人已学

下载本章视频你能学到什么?

本节课能够掌握Spark的环境搭建 ,任务调度流程  ,以及RDD代码的应用。

千锋大数据官方①群(857910996)——猛戳进入


课程介绍

Apache Spark 是在大数据工业界里用的最多的基于内存的技术框架,尤其是RDD的特性以及应用,对帮助理解Spark和任务提交的流程以及缓存机制 。


章节目录
1 .Scala语言环境安装、Scala的基本语法(14集) 第6章 Spark集群安装、Spark任务提交(5集)
1、认识scala 1、spark简介
2、安装开发环境 2、spark集群搭建、启动
3、scala Shell、用idea创建maven项目 3、spark Shell.启动和提交任务
4、配置maven本地仓库、导入切换项目等其它配置 4、spark Wordcount
5、变量的声明 5、上传并执行任务
6、scala的7种值类型和条件表达式 第7章 RDD的基本概念、常用算子练习(5集)
7、for循环 1、rdd的概念
8、方法和函数的声明以及方法转换成函数 2、生成rdd的两种方式
9、数组 3、两种类型的算子:transformation和action
10、映射 4、常用算子练习1
11、元组 5、常用算子练习2
12、集合之seq 第8章 案例练习(4集)
13、集合之set 1、案例需求-求用户在某基站停留的时间
14、集合之map 2、案例实现-求用户在某基站停留的时间
第2章 常用方法练习(7集) 3、案例实现-求用户访问学科的子网页top3
1、lazy关键字 4、案例实现-求用户访问学科的子网页top3-chache
2、函数式编程练习之常用方法 第9章 Spark集群启动流程和任务提交流程(4集)
3、函数式编程之reduce 1、spark集群启动流程
4、函数式编程之fold 2、spark任务提交流程
5、函数式编程之aggregate 3、wordcount中创建了那些rdd
6、函数式编程之交并差集 4、案例分析实现-按照ip统计区域访问量
7、scala实现wordcount 第10章 RDD的依赖关系、Stage划分(4集)
第3章 面向对象、模式匹配(12集) 1、rdd之间的依赖关系
1、创建类、属性 2、dag的生成和stage的划分
2、构造器、辅助构造器 3、webui观察stage划分和任务的生成
3、单例对象 4、自定义二次排序
4、伴生对象 第11章 Day11 Checkpoint、SparkSQL(8集)
5、apply和unapply方法 1、checkpoint
6、private关键字 2、sparksql介绍
7、特质、抽象类、继承、重写、实现等 3、创建dataframe
8、模式匹配之匹配字符串 4、dataframe常用操作-dsl风格语法
9、模式匹配之匹配类型 5、dataframe常用操作-sql风格语法
10、模式匹配之匹配数组、元组、集合 6、通过反射推断schema
11、模式匹配之样例类 7、通过structtype直接指定schema
12、模式匹配之偏函数 8、hive-on-spark
第4章 Actor、柯里化、隐式转换(10集) 第12章 SparkStreaming、Spark-On-Yarn(7集)
1、作为值的函数 1、sparkstreaming简介
2、柯里化概念及声明方式 2、实例分析:获取netcat产生的数据进行实时分析
3、柯里化练习 3、sparkstreaming实现按批次累加
4、隐式转换和隐式参数 4、窗口函数概念及使用场景
5、隐式转换练习1 5、窗口函数实现wordcount
6、隐式转换练习2 6、spark-on-yarn
7、泛型 7、补充:sparkstreaming依赖
8、upperbound 第13章 源码分析:Spark启动流程(14集)
9、viewbound 1、关于查看源码的一些介绍
10、contextbound 2、导入源码
第5章 泛型、Akka(9集) 3、集群启动流程-master类
1、actor概念 4、集群启动流程-worker类
2、actor实例之创建actor 5、sparksubmit提交任务
3、actor实例之消息的接收与发送(异步没有返回值) 6、sparkcontext
4、actor实例之消息的接收与发送(同步有返回值) 7、创建driveractor和clientactor的过程
5、actor实例之消息的接收与发送(异步有返回值) 8、clientactor向master注册任务信息过程
6、actor实例之并行编程思想实现单词计数 9、任务调度的两种方式
7、akka简介 10、executor向driveractor反向注册的过程
8、akka案例需求分析 11、rdd生成和stage划分
9、akka案例代码分析 12、生成任务并提交
13、task任务执行流程
14、总结-任务生成及提交流程


  • 第1章 - Scala语言环境安装、Scala的基本语法

  • 第2章 - 常用方法练习

  • 第3章 - 面向对象、模式匹配

  • 第4章 - Actor、柯里化、隐式转换

  • 第5章 - 泛型、Akka

    • 第44节 - actor概念

      点击播放
    • 第45节 - actor实例之创建actor

      点击播放
    • 第46节 - actor实例之消息的接收与发送(异步没有返回值)

      点击播放
    • 第47节 - actor实例之消息的接收与发送(同步有返回值)

      点击播放
    • 第48节 - actor实例之消息的接收与发送(异步有返回值)

      点击播放
    • 第49节 - actor实例之并行编程思想实现单词计数

      点击播放
    • 第50节 - akka简介

      点击播放
    • 第51节 - akka案例需求分析

      点击播放
    • 第52节 - akka案例代码分析

      点击播放
  • 第6章 - Spark集群安装、Spark任务提交、Spark实现WordCount并上传任务

  • 第7章 - RDD的基本概念、常用算子练习

  • 第8章 - 案例练习

    • 第63节 - 案例需求-求用户在某基站停留的时间

      点击播放
    • 第64节 - 案例实现-求用户在某基站停留的时间

      点击播放
    • 第65节 - 案例实现-求用户访问学科的子网页top3

      点击播放
    • 第66节 - 案例实现-求用户访问学科的子网页top3-chache、自定义分区器

      点击播放
  • 第9章 - Spark集群启动流程和任务提交流程、案例练习

  • 第10章 - RDD的依赖关系、Stage划分、任务的生成、自定义排序

  • 第11章 - Day11 Checkpoint、SparkSQL、Hive-On-Spark

  • 第12章 - SparkStreaming、窗口操作、Spark-On-Yarn

  • 第13章 - 源码分析:Spark启动流程、Stage划分、任务生成、任务提交流程

  • Hadoop2.X 的环境配置与运行官方案例

    Hadoop2.X 的环境配置与运行官方案例

    41
  • 第 3 章 认识Hadoop

      Hadoop是一个开源框架,也是大数据主要框架之一。Hadoop最核心的设计是:HDFS和MapReduce。其中,HDFS为海量数据提供了存储,MapReduce为海量数据提供了计算。Hadoop可以让用户在不了解分布式底层细节的情况下,根据需求进行应用程序开发。

    179
  • 第2章 Shell编程

     Shell是一个作为用户与Linux内核通信的桥梁,它除了解释用户向操作系统输入的命令外,还可以调用其他程序或被其他程序调用,因此,Shell将内核、程序和用户连接在一起。

    199
  • 第1章 Linux基础

      Linux是一套免费使用和自由传播的类Unix操作系统,可以安装在服务器、个人计算机、手机等各类设备上。目前,大数据处理、分布式计算、虚拟化等先进技术都可以在Linux系统上得到很好的支持,本章将带领读者一起进入Linux世界。

    171
  • Zookeeper集群管理与选举

    大数据技术的学习,逐渐成为很多程序员的必修课,因为趋势也是因为自己的职业生涯。在各个技术社区分享交流成为很多人学习的方式,今天我们就一起来看一看大数据基础知识!

    615
  • Hadoop阶段的高可用配置

    HA机制即Hadoop的高可用(7*24小时不中断服务),正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制。hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA。

    662
  • 与你共同解读大数据的处理流程

    随着互联网的发展,大数据也在逐渐彰显出自己的优势特点,那么关于大数据的处理流程,你是否了解?下面我们就一起看看大数据的处理流程。

    592
  • 大数据培训教程之什么是Sqoop

    Apache Sqoop(SQL-to-Hadoop) 项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如HBase和Hive)中;同时也可以把数据从 Hadoop 系统里抽取并导出到关系型数据库里。除了这些主要的功能外,Sqoop 也提供了一些诸如查看数据库表等实用的小工具。理论上,Sqoop 支持任何一款支持 JDBC 规范的数据库,如 DB2、MySQL 等。Sqoop 还能够将 DB2 数据库的数据导入到 HDFS 上,并保存为多种文件类型。常见的有定界文本类型,Avro 二进制类型以及 Sequence Files 类型。

    647
  • 关于Hbase知识点的信息精解

    学习大数据技术的初学者,总会闻到关于hbase的知识点,不如说为什么有hbase?hbase是什么?Hbase的架构。下面我们就一起来看一看。

    616
  • 零基础该如何快速入门Hadoop

    本文将从Hadoop的定义、优势、学习路线图、学习教程各个方面进行阐述分享,尽量能够让你从零基础快速入门Hadoop。

    599

他们都在看