'resilient distributed datasets' 태그의 글 목록

resilient distributed datasets 1

Spark RDD - Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing

Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing (2012)에 나온 논문을 읽어보았다. 데이터 중간 결과를 재사용하는 iterative한 연산이 필요한 알고리즘들 machine learning and graph algorithms, PageRank, K-means clustering, logstic regression, data mining이 있다. 위 알고리즘을 MapReduce에서 처리를 하게 되면 Map과 Reduce의 사이에서 data replication, disk I/O, serialization의 overhead가 발생한다. 즉, MapReduce가 iteration에서 수행..

빅데이터/Spark 2016.07.01

불로

함께 하는 블로그

Linux, 데이터분석, nodejs, 파이썬, ubuntu, 스파크, TensorFlow, 리눅스, 설치, javascript, 빅데이터, git, 소스코드, Python, 안드로이드, Spark, Android, RDD, dict, 자바스크립트,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

resilient distributed datasets 1

티스토리툴바