小小千想和您聊一聊

当前位置: 首页> 视频教程> 最新Hive入门教程

最新Hive入门教程进阶

   评分9.4

34节课

24871人已学

下载本章视频你能学到什么?

本教程在Hadoop集群的基础上,系统的讲述了Hive的作用,安装部署过程,常用的内置函数,UDF的引入方式,数据导入导出的相关组件等,并结合一些企业的场景进行了说明。

千锋大数据官方①群(857910996)——猛戳进入


课程介绍

千锋大数据2019最新Hive入门教程,在企业中,离线数据的来源主要是已存在的有固定格式的文件,或数据库中积累的结构化的数据,如何高效的进行数据的管理以及基本的统计分析是每个大数据开发者必须掌握的技能。

章节目录

第1节 Hive课程介绍 第18节 Hive创建数据库
第2节 Hive是什么 第19节 Hive查询数据库
第3节 为什么使用Hive 第20节 Hive修改数据库
第4节 Hive的特点 第21节 Hive删除数据库
第5节 Hive的架构 22 Hive DDL建表语法
第6节 Hive和Hadoop的关系 第23节 Hive创建表
第7节 Hive与传统数据库的比较 第24节 Hive数据表类型
第8节 hive安装_Hive3种安装方式介绍_ 第25节 Hive内部表
第9节 Hive本地模式安装配置 第26节 Hive外部表
第10节 Hive启动 第27节 Hive数据仓库概念1
11 Hive本地模式特点展示 第28节 Hive数据仓库概念第2
第12节 Hive加载数据 第29节 Hive克隆表
第13节 Hive远程模式安装准备Mysql 第30节 Hive修改表
第14节 Hive配置metastore到Mysql 第31节 Hive修改列名
第15节 Hive使用方式 第32节 Hive修改列位置
第16节 Hive常用命令 33 Hive增加删除列
第17节 Hive常用属性配置 第34节 Hive内部表外部表转换


  • 第1章 - 最新Hive入门教程

  • Hive分区和分桶

    当单个表数据量越来越大的时候,hive查询通常会全表扫描,这将会浪费我们不关心数据的扫描,浪费大量时间。从而hive引出分区概念partition

    231
  • 大数据编程之UDF函数

     UDF:user difine function,用户自定义函数,一对一。常用 udaf:user define aggregate function,用户自定义聚合函数,多对一。 udtf:user define table_generate function,用户自定义表生成函数,一对多。

    500
  • marpreduce快速入门

    mapreduce:分布式并行离线计算框架,是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上;

    237
  • 大数据之hive入门操作

     Apache Hive数据仓库软件可以使用SQL方便地阅读、编写和管理分布在分布式存储中的大型数据集。结构可以投射到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。

    502
  • 大数据编程hive内部函数

    大数据编程hive内部函数

    549
  • hive表的查询

    子查询是内嵌在另一个SQL 语句中的SELECT 语句。Hive 对子查询的支持很有限。它只允许子查询出现在SELECT 语句的FROM 子句中。Hive支持非相关子查询,这个子查询通过IN或EXISTS语法在WHERE子句中进行查询。Hive目前暂不支持相关子查询,相关子查询的执行依赖于外部查询的数据。

    527
  • hive的数据类型

    本质上是在hdfs上创建一个目录,使用comment加入数据库的描述信息,描述信息放在引号里。数据库的属性信息放在描述信息之后用with dbproperties 加入,属性信息放在括号内,属性名和属性值放在引号里,用等号连接有多条属性用逗号分隔。

    538
  • 大数据概念

    大数据:指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新模式才能具有更强大的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产

    865
  • HDFS基本概念

    源自于Google的GFS论文发表于2003年10月 HDFS是GFS克隆版 ,HDFS的全称是Hadoop Distributed File System易于扩展的分布式文件系统,运行在大量普通廉价机器上,提供容错机制,为大量用户提供性能不错的文件存取服务

    759
  • 大数据基础教程:TextFile分区问题

    获取分区的个数:rdd1.partitions.length,在spark-shell中没有指定分区的个数获取的是默认分区数,除了这个外parallelize方法可以使用,指定几个分区就会有几个分区出现

    1368

他们都在看