반응형

distributed 2

[Tensorflow] tensorflow 기본 설명 (tensor, variables, fetches, feeds, session, etc)

overview tensorflow는 graphs의 형태로 나타내는 프로그래밍 시스템을 말합니다. 그래프에 있는 노드들은 operations이라고 불리우는데, 줄여서 ops라고 칭합니다. op는 Tensor로 이루어져 있고, tensors간에 computaiton을 수행하게 됩니다. tensor는 multi-dimentional array형태로 되어있다. Tensorflow graph를 연산하기 위해서는 Session을 launch를 해야한다. Session은 Devices(CPUs, GPUs)위에서 연산을 실행한 후에 결과를 반환한다. The computation graph Tensorflow 프로그램은 graph의 형태로 되어 있고, 그래프에 있는 ops의 연산을 수행하기 위해 session을 이용한..

Spark - RDD

RDD란? 분산되어 존재하는 데이터 요소들의 모임이라고 생각하시면 됩니다. RDD는 java의 String처럼 변경이 불가능한 객체(immutable)의 집합으로 각각의 RDD는 여러개의 파티션으로 분리가 됩니다. 변경을 하기 위해서는 새로운 RDD를 만들거나, 존재하는 RDD를 변형, 결과 계산을 위해 RDD에서 연산을 호출하여 생성을 해야 합니다. Spark는 자동으로 RDD에 있는 데이터들을 클러스터에 분배, 수행하는 연산들을 병렬화 합니다. Spark는 RDD를 lazy evaluation으로 액션을 사용하는 시점에서 처리하기 때문에, 구현할때는 transformation과 action의 operation을 확실히 이해하고 있어야 결과를 받아보는데 효율적으로 구현이 가능합니다. 예를 들어 한 라인..

빅데이터/Spark 2016.06.16
반응형