小小千想和您聊一聊

当前位置: 首页> 技术分享> 大数据基础教程:TextFile分区问题

大数据基础教程:TextFile分区问题

  val rdd1 = sc.parallelize(List(2,3,4,1,7,5,6,9,8))

  获取分区的个数:rdd1.partitions.length,在spark-shell中没有指定分区的个数获取的是默认分区数,除了这个外parallelize方法可以使用,指定几个分区就会有几个分区出现

  val rdd1 = sc.textFile("hdfs://hadoop02:8020/word.txt",3).flatMap _.split('')).map((_,1)).reduceByKey(_+_)

  textFile这个方法是有默认值就是2 除非改变loacl中的即默认值这个只要这个默认值小于2的话会使用小于默认的值

  这个默认属性是有值的defaultMinPartitions

  如果在textfile中传入了分区数,那么这个分区数可能相同也可能不同需要看底层计算!

  下面就是分片了,这个就是为什么textfile传入的参数和实际输出的分区可能不符合的原因

  总结:

  在textFile中没有指定分区的情况下都是默认大小2,除非指定小于2的值

  若在textFile中指定了分区,name切分文件工作,实际上是计算出多少切分大小即多少切分一下,然后将文件按照这个大小切分成多份,最后partition数就是切分文件的个数。

上一篇:PS教程:如何拼图调色出高大上的作品

下一篇:不学JavaScript直接学ts可以么?

QQ技术交流群

千锋大数据官方①群
857910996

加入群聊

用户登录

手机号:

密码:

图形验证码:

点击切换

用户注册

手机号:

登录密码:

图形验证码:

点击切换

短信验证码:

获取验证码

忘记密码

1安全验证

2重置密码

手机号:

图形验证码:

短信验证码:

获取验证码

忘记密码

1安全验证

2重置密码

新密码:

确认新密码:

获取课程

添加小千老师微信,获取课程信息

如何获取课程?

一、需拥有此本教材

如没有,可点击下方入口购买当当购买入口京东购买入口

二、添加小千老师,发送拥有凭证,解锁课程资源

1.购买该教材的订单信息
2.拥有的实体书信息等

更换手机号

新手机号:

图形验证码:

短信验证码:

获取验证码