ReduceByKey

Key값을 가져야한다.

같은 node의 같은 key값 기준으로 values를 미리 병합하여 suffling한다.

reduceByKey에 function을 같이 넘겨 줄수 있다.

accociate / commutative (+, x만 사용) 


countByValue : return값이 dictionary


Picture

GroupByKey 

각 노드에서 병합하지않고 shuflling한후에 병합하기 때문에 네트워크부하가 많이 걸려 효율성이 떨어진다.(그래서 추천X)

groupbyKey 후에 function을 적용해서 값을 구한다.

K는 그대론데V는 iterableObject로 결과가 나온다.

Picture


그림출처 : http://www.ruxizhang.com/blog/spark-difference-between-reducebykey-groupbykey

'Hadoop ecosystem > Spark' 카테고리의 다른 글

Actions function  (0) 2017.05.11
Transformations function  (0) 2017.05.11
Map vs. flatMap  (0) 2017.05.11
RDD(Resilient Distributed DataSet)  (0) 2017.05.10

+ Recent posts