小小千想和您聊一聊

当前位置: 首页> 视频教程> 快速入门Spark

快速入门Spark高级

   评分9.2

63节课

22518人已学

下载本章视频你能学到什么?

本节课能够掌握Spark的环境搭建,任务调度流程,以及RDD代码的应用。

千锋大数据官方①群(857910996)——猛戳进入


课程介绍

Apache Spark 是在大数据工业界里用的最多的基于内存的技术框架,尤其是RDD的特性以及应用,对帮助理解Spark和任务提交的流程以及缓存机制。

章节目录

第1章 Spark知识讲解 32 sample
01 为什么学习Spark 33 union
02 Spark和MapReduce的对比.mp4 34 intersection
03 Spark框架体系 35 distinct
04 Spark下载 36 join
05.Spark运行模式介绍 37 leftOuterJoin
06.Spark集群安装 38 rightOuterJoin
07.Spark程序执行流程 39 cartesian
08.Spark相关名词解释 40 groupBy
09 SparkShellLocal 41 mapPartition
10 SparkShellCluster 42 mapPartitionWithIndex
11 Spark2.2和Spark1.6Shell对比 43 sortby
第2章 Maven和IDEA 44 sortbykey
12 Maven和IDEA下载 45 repartition
13 Maven安装 46 coalesce
14 IDEA安装 47 partitionBy
15 IDEA中配置Maven 48 repartitionAndSortWithinPartitions
16 Scala环境安装和IDEA中配置Scala插件 49 reduce
17 IDEA创建Spark工程 50 reduceByKey
18 Spark开发WordCount程序 51 aggregateByKey
19 Spark程序打包 52 combineByKey
20 Spark集群运行打包程序 第5章 Action算法
第3章 RDD知识讲解 53 collect
21 RDD概念 54 count
22 RDD执行流程 55 top
23 RDD属性 56 take
24 RDD弹性 57 takeOrdered
25 RDD的两种创建 58 first
26 RDD编程API 59 saveAsTextFile
第4章 Transformation算法 60 foreach
27 Transformation算法 61 其他算子之countByKey
28 Action算法 62 其他算子之countByValue
29 Map 63 其他算子之filterByRange
30 filter 64 其他算子之flatMapValues
31 flatMap

  • Hive分区和分桶

    当单个表数据量越来越大的时候,hive查询通常会全表扫描,这将会浪费我们不关心数据的扫描,浪费大量时间。从而hive引出分区概念partition

    231
  • 大数据编程之UDF函数

     UDF:user difine function,用户自定义函数,一对一。常用 udaf:user define aggregate function,用户自定义聚合函数,多对一。 udtf:user define table_generate function,用户自定义表生成函数,一对多。

    500
  • marpreduce快速入门

    mapreduce:分布式并行离线计算框架,是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上;

    237
  • 大数据之hive入门操作

     Apache Hive数据仓库软件可以使用SQL方便地阅读、编写和管理分布在分布式存储中的大型数据集。结构可以投射到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。

    502
  • 大数据编程hive内部函数

    大数据编程hive内部函数

    549
  • hive表的查询

    子查询是内嵌在另一个SQL 语句中的SELECT 语句。Hive 对子查询的支持很有限。它只允许子查询出现在SELECT 语句的FROM 子句中。Hive支持非相关子查询,这个子查询通过IN或EXISTS语法在WHERE子句中进行查询。Hive目前暂不支持相关子查询,相关子查询的执行依赖于外部查询的数据。

    527
  • hive的数据类型

    本质上是在hdfs上创建一个目录,使用comment加入数据库的描述信息,描述信息放在引号里。数据库的属性信息放在描述信息之后用with dbproperties 加入,属性信息放在括号内,属性名和属性值放在引号里,用等号连接有多条属性用逗号分隔。

    538
  • 大数据概念

    大数据:指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新模式才能具有更强大的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产

    865
  • HDFS基本概念

    源自于Google的GFS论文发表于2003年10月 HDFS是GFS克隆版 ,HDFS的全称是Hadoop Distributed File System易于扩展的分布式文件系统,运行在大量普通廉价机器上,提供容错机制,为大量用户提供性能不错的文件存取服务

    759
  • 大数据基础教程:TextFile分区问题

    获取分区的个数:rdd1.partitions.length,在spark-shell中没有指定分区的个数获取的是默认分区数,除了这个外parallelize方法可以使用,指定几个分区就会有几个分区出现

    1368

他们都在看