반응형

2017/12 28

하둡(Hadoop) 데이터 복사, 로컬 및 클러스터간

하둡(Hadoop)에서 데이터 복사하는 방법 HDFS에서 데이터를 복사하는 방법은 아주 다양하다. 효율적으로 데이터를 복사하는게 중요하다 데이터를 복사하는 다양한 방법 일단 데이터를 복사하는 방법은 다양하다 로컬 클러스터 아래 속성을 통해서 로컬에 있는 데이터를, 클러스터에 있는 데이터를 옮길 수 있다. copyToLocal put get 클러스터 클러스터 클러스터간에 데이터를 옮기기 위해서는 아래와 같이 하면 된다. 클러스터 -> 로컬 -> 클러스터 과연 이렇게 하는 사람이 있을까 싶지만, 이렇게 하는 사람을 내가 보았음 클러스터 -> 클러스터 로 데이터를 옮기는 방법은 한가지가 아니다. cp distcp 두 가지 방법의 차이를 알지 못한다면, 작업에 엄청난 문제가 생길 것이다. 만약 distcp를 이..

빅데이터/Hadoop 2017.12.10

RNN(Recursive Neural Networks)

RNN Recursive Neural Networks RNN 구조 자연어처리 분야에서 각광받고 있는 모델, 음석 문자 등 순차적 데이터 처리에 강점 Recurrent VS Convolutional VS Recursive Recurrent Neural Networks 입력값을 순서대로 받아 하나씩 순차적으로 처리하는 네트워크. CNN 입력값을 생략없이 모두 반영한다는 점에서는 Recurrent Neural Networks와는 차이가 없다. filter(2)를 이용해 2개의 단어씩 한번에 분석하고 있는 것을 알 수 있다 filter의 크기로 한칸씩 슬라이딩하면서 문장을 단어 두개씩 읽어들여 분석하는 구조 문장의 지역적인 정보를 반영한다는 점 Recursive Neural Networks 입력값으로 주어지는 ..

MachineLearning 2017.12.10

쉘(Shell)에서 중복단어 제거하기

쉘에서 중복단어 제거하는 방법 (Shell: How To Remove Duplicate Text Lines) 사전을 만든다고 할때 unique한 단어만 가져와야 할때 간단하게 쉘 스크립트로 작성이 가능하다. pipeline은 정말 강력한 무기인듯 하다. uniq와 sort를 통해서 중복된 단어를 제거하는 예제를 소개한다. 사용예 사용전 banana banana apple banana 실행후 apple banana 명령어(syntax) sort {file-name} | uniq -u sort all_words.txt | uniq -u > uniqu_words.txt

Programming/Shell 2017.12.10

쉘(Shell)에서 POST시 json 데이터에 변수 넣기

쉘에서 curl post할때 json형식의 데이터를 사용하는 방법 쉘에서 json형식의 데이터를 curl을 통해 POST로 요청할때가 있는데, 파라미터로 받은 값, 또는 변수의 값을 직접 사용하면 json의 형태로 만들기 어렵다. 아래 방식을 이용하면 슆게 json 데이터의 형태로 post요청을 할 수 있다. 코드 물론 아래에 POST $HOST -d json을 넣을 수 있지만, 아래 함수와 같이 함수화를 하지 않으면 에러가 난다.

Programming/Shell 2017.12.10

쉘(Shell)에서 파일 읽어 변수로 저장

쉘에서 파일을 읽어서 파일에 있는 값을 변수로 저장하는 방법 쉘에서 파일을 저장하고, 그 파일의 값을 읽어서 변수로 사용하는 경우가 있다. 예를 들면 어떤 설정값을 미리 저장해놓고, 그 값에 따라 쉘에서 동작을 다르게 하고 싶을때가 있는데, 이때 사용하면 매우 유용하다. 코드 아래 파일 info.txt의 파일의 값을 읽어서 변수에 저장하는 코드이다. info.txt A=15 B=23 C=4

Programming/Shell 2017.12.10

파이썬(Python) 한글 문자 길이

파이썬 (Python)에서 한글 문자 길이에 대해서 작성한다. 파이썬에서 제일 거지같을 때 만약 파이썬에서 그냥 len(text)를 하면, 어떻게 결과가 나올까 결론부터 말하면 정말 거지같은건 파이썬 2.x의 버전에서는 기본 인코딩은 ascii 이기 때문에 unicode로 처리를 해야 한다. 만약 len(text)를 한다면 len('바나나')의 결과는 3이 아닌 9가 나온다 파이썬에서는 인코딩(encoding)문제가 많아서, 확실하게 이해하고 하나의 솔루션을 만들어 놓는게 좋다. 예를 들면 모든 텍스트에 hangul('바나나')에서 hangul 함수를 만들어 놓으면 좋다. 3이아닌 9가 나오는 이유 그 이유는 ? '바나나'의 값은 다음과 같다 '\xeb\xb0\x94\xeb\x82\x98\xeb\x82\..

Programming/Python 2017.12.10

C를 Python으로 Wrapping하는 방법

C 모듈을 파이썬에서 사용하는 방법 Python에서 C모듈을 Wrapping해서 사용하는 방법에 대해서 설명한다. 보통 Python에서는 성능상 이슈가 있기 때문에, C로 작성된 라이브러리를 사용을 한다. C로 작성된 코드를, Python에서 호출 가능하도록 swig를 이용해서 아래와 같이 사용하였다. wrapping될 C코드 파일 설명 /* flags.c – Source file */ ```c include include “flags.h” int gFlag = 0; void welcome_msg(char *msg) { printf(“%s\n”, msg); return; } int get_flag() { return gFlag; } void set_flag(int flag) { gFlag = flag; ..

Programming/Python 2017.12.10

RNN(Recurrent Nueral Networks)

RNN RNN은 Recurrent Neural Networks와 더불어 자연어처리 분야에서 각광받고 있는 모델. Recursive, Recurrent Neural Neworks 두 모델은 음성, 문자 등 순차적 데이터 처리에 강점을 지니고 있음 이름이 유사하지만, 조금은 차이가 있다. Recurrent Nueral Networks RNN의 기본 구조 RNN은 히든 노드가 방향을 가진 엣지로 연결돼 순환구조를 이루는(directed cycle) 인공신경망의 한 종류 시퀀스 길이에 관계없이 인풋과 아웃풋을 받아들일 수 있는 네트워크 구조 > 다양하고 유연하게 구조를 만들 수 있다는 점 RNN 큰 특징 ht는 직전 시점의 히든 state h(t-1)를 받아 갱신 hidden state의 activation f..

MachineLearning 2017.12.10
반응형