반응형

2017/11/06 3

쉘 특정 컬럼 더하기

쉘(shell)에서 특정 컬럼 더하기 데이터 분석을 하다 보면 특정 컬럼의 값을 더할 때가 있다. 예를 들어서 positive/negative의 비율(ratio)을 확인할 때, label의 값이 0 또는 1의 값이면, 1의 값을 모두 더하면 positive의 개수를 알 수 있다. 전체 positive의 개수를 확인하고, 파일의 line수를 계산하면 쉽게 알 수 있다. shell $ cat data | wc -l 데이터 1 2 3 4 5 6 7 8 9 명령어 shell $ cat data | awk '{sum+=$2 ; print $0} END{print "sum=",sum}' 출력 결과 1 2 3 4 5 6 7 8 9 sum= 15

Programming/Shell 2017.11.06

하이브(Hive) 테이블 생성

하이브(Hive) 테이블 생성 하이브 테이블이 만약 textfile로 되어 있다면, 테이블을 load하거나, hue에서 테이블을 로딩할때 에러가 발생하는 경우가 있다. malformed ORC 에러가 뜬다면, 하이브 테이블의 타입을 확인할 필요가 있다. 이럴 경우에는 아래와 같이 기존 textfile을 orc테이블의 형태로 생성한 뒤에 export/import를 하면 에러 없이 진행이 된다. 코드

빅데이터/Hive 2017.11.06
반응형