设为首页 收藏本站
查看: 1025|回复: 0

[经验分享] Spark操作—aggregate、aggregateByKey详解

[复制链接]

尚未签到

发表于 2019-1-30 14:16:41 | 显示全部楼层 |阅读模式
import org.apache.spark.SparkConf  
import org.apache.spark.SparkContext
  

  
object AggregateByKeyOp {
  
  def main(args:Array[String]){
  
     val sparkConf: SparkConf = new SparkConf().setAppName("AggregateByKey").setMaster("local")
  
    val sc: SparkContext = new SparkContext(sparkConf)
  

  
     val data=List((1,3),(1,2),(1,4),(2,3))
  
     val rdd=sc.parallelize(data, 2)
  

  
     //合并不同partition中的值,a,b得数据类型为zeroValue的数据类型
  
     def combOp(a:String,b:String):String={
  
       println("combOp: "+a+"\t"+b)
  
       a+b
  
     }
  
     //合并在同一个partition中的值,a的数据类型为zeroValue的数据类型,b的数据类型为原value的数据类型
  
      def seqOp(a:String,b:Int):String={
  
        println("SeqOp:"+a+"\t"+b)
  
        a+b
  
      }
  
      rdd.foreach(println)
  
      //zeroValue:中立值,定义返回value的类型,并参与运算
  
      //seqOp:用来在同一个partition中合并值
  
      //combOp:用来在不同partiton中合并值
  
      val aggregateByKeyRDD=rdd.aggregateByKey("100")(seqOp, combOp)
  
      sc.stop()
  
  }
  
}
  
运行结果:
  
将数据拆分成两个分区
  

  
//分区一数据
  
(1,3)
  
(1,2)
  
//分区二数据
  
(1,4)
  
(2,3)
  

  
//分区一相同key的数据进行合并
  
seq: 100     3   //(1,3)开始和中立值进行合并  合并结果为 1003
  
seq: 1003     2   //(1,2)再次合并 结果为 10032
  

  
//分区二相同key的数据进行合并
  
seq: 100     4  //(1,4) 开始和中立值进行合并 1004
  
seq: 100     3  //(2,3) 开始和中立值进行合并 1003
  

  
将两个分区的结果进行合并
  
//key为2的,只在一个分区存在,不需要合并 (2,1003)(2,1003)//key为1的, 在两个分区存在,并且数据类型一致,合并
  
comb: 10032     1004(1,100321004)



运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-669703-1-1.html 上篇帖子: 第42讲:Scala中泛型类、泛型函数、泛型在Spark中的广泛应用 下篇帖子: spark笔记之模式匹配和样例类
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表