博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
028 Partitioner:数据分区器
阅读量:6914 次
发布时间:2019-06-27

本文共 273 字,大约阅读时间需要 1 分钟。

Partitioner:数据分区器,决定数据到下一个RDD的时候在那一个分区

  HashPartitioner:根据key的hashCode值来实现
  RangePartitioner: 根据key所属范围的进行分区
    1. 先进行数据抽样,对抽样数据进行排序后得到分区的边界数据
    2. 根据key在边界数据中所属的位置来判断分区的id

注意:90%的API默认使用HashPartitioner分区器,sortByKey使用RangePartitioner(RangePartitioner主要用于需要按照分区进行数据排序的)

转载地址:http://omxcl.baihongyu.com/

你可能感兴趣的文章
梦断代码阅读笔记一。
查看>>
【python】-- 多进程的基本语法 、进程间数据交互与共享、进程锁和进程池的使用...
查看>>
linux虚拟机使用VMware的NAT共享windows主机IP上网 [转]
查看>>
Rabbitmq编程
查看>>
C++虚函数
查看>>
Android记住密码后自动登录
查看>>
python 訪问webservice
查看>>
CSDN开源夏令营 百度数据可视化实践 ECharts(4)
查看>>
SVN 初试
查看>>
安装edX DevStack
查看>>
避开Unity的坑
查看>>
微软Windows Phone今日正式面向中国市场发布
查看>>
bzoj1112 [POI2008]砖块Klo
查看>>
235D Graph Game
查看>>
csu 1984: LXX的能力值
查看>>
汉编随想(一)
查看>>
开源的Android开发框架-------PowerFramework使用心得(五)网络请求HTTPRequest
查看>>
[转载]kmeans
查看>>
一个不错的架构图:基于SpringCloud的微服务项目
查看>>
成为顶尖自由职业者必备的7个软技能之一:沟通(转)
查看>>