반응형

2017/11 37

하이브(Hive) 테이블 생성

하이브(Hive) 테이블 생성 하이브 테이블이 만약 textfile로 되어 있다면, 테이블을 load하거나, hue에서 테이블을 로딩할때 에러가 발생하는 경우가 있다. malformed ORC 에러가 뜬다면, 하이브 테이블의 타입을 확인할 필요가 있다. 이럴 경우에는 아래와 같이 기존 textfile을 orc테이블의 형태로 생성한 뒤에 export/import를 하면 에러 없이 진행이 된다. 코드

빅데이터/Hive 2017.11.29

하이브(Hive) 조인(Join) 성능 올리기

하이브(Hive) 테이블 join 성능 올리기, 최적화, 튜닝하는 방법 들어가며 하이브에서 테이블 조인의 성능을 올리기 위해서는 다양한 방법이 있지만, 크게 두가지 방법에 대해서 설명을 한다. 하이브에서 큰 두개의 테이블을 만약 그냥 조인을 한다면 쿼리를 날리고 다음 날 아침에 와도, 쿼리는 동작하고 있을 것이다. 두개의 테이블을 조인을 해보자 두개의 테이블을 조인을 하기 전에, 각 테이블의 성격을 알아야 한다. 한개의 테이블의 metadata의 성격이 있는 테이블, 즉 작은 테이블의 사이즈라면, 해당 테이블을 메모리에 올린 이후에, 조인을 하면 성능이 올라갈 것이고, 두 테이블이 너무 커서 메모리에 올리기 어렵다면, 조인할 키를 뭉탱이로 뭉쳐서 뭉탱이 끼리 조인을 하면 빠르게 할 수 있다. Map-Si..

빅데이터/Hive 2017.11.29

하둡(Hadoop) 데이터 복사, 로컬 및 클러스터간

하둡(Hadoop)에서 데이터 복사하는 방법 HDFS에서 데이터를 복사하는 방법은 아주 다양하다. 하지만 효율적으로 데이터를 복사하는게 중요하다 데이터를 복사하는 다양한 방법 일단 데이터를 복사하는 방법은 다양하다 로컬 클러스터 아래 속성을 통해서 로컬에 있는 데이터를, 클러스터에 있는 데이터를 옮길 수 있다. copyToLocal put get 클러스터 클러스터 클러스터간에 데이터를 옮기기 위해서는 아래와 같이 하면 된다. 클러스터 -> 로컬 -> 클러스터 과연 이렇게 하는 사람이 있을까 싶지만, 이렇게 하는 사람을 내가 보았음 클러스터 -> 클러스터 로 데이터를 옮기는 방법은 한가지가 아니다. cp distcp 두 가지 방법의 차이를 알지 못한다면, 작업에 엄청난 문제가 생길 것이다. 만약 distc..

빅데이터/Hadoop 2017.11.29

야경사진촬영

야경사진 촬영 렌즈 필터를 제거하자 UV필터는 성능에 민감하지 않고, 투명한 필터는 그냥 렌즈 보호용 빛이 안좋은 사이에는 필터라는 놈이 문제가 발생한다. 필터를 통과하고 렌즈를 통해서 이미지 센서 까지 들어가는데, 필터 내부에서 난반사가 터지는 경우가 있음 > 이미지 센서에 맺히는 경우가 있음 (플레어: 빛이 들어와서 약간 고스트현상이나 포그 현상을 포괄하여 렌즈 플레어 현상이라고 한다.) 결론적으로 필터를 제거하고 하는게 좋다. 야경사진은 흔들림을 줄이는게 아니라, 흔들림을 없애야 한다. > 삼각대 셔터 스피드로 인한 진동을 줄이자 누르는 힘에 의해서 미세한 진동으로 사진이 흔들릴 수 있음, 셔터를 물리적인 힘이 아니라, 릴리즈로 하는게 좋음 릴리즈는 저렴한게 많아서 구매하는데 부담이 없음, 앱도 있..

Camera 2017.11.29

거친계곡을 부드럽게 표현하는 방법

부드럽게 계곡을 표현하는 방법 준비물은 ND필터! ND필터 저녁노을은 한낮보다 노출이 어둡다고 해도 30초 가량 길게 노출하려면 ND필터가 필요하다. 구름이 흐르게 표현하려면 ND1000 필터에 F14정도로 조여야한다. 조리개를 조이고 ND필터를 사용하면 구름이 흐르도록 가능하다. 파도도 궤적이 되어 부드럽게 담긴다 ND필터 촬영은 MF로 바꾸고, 적정 노출로 테스트 촬영을 한다. ND필터를 끼우고 10스톱 가량 셔터속도를 늦춘다. 셔터스피드가 30초에 도달하면, 조리개를 조여 10스톱을 채운다. 저녁 노을 24mm, (F22, 239s, ISO100) 계곡 촬영 조리개를 조이는게 좋다. F7.1, 셔 소피드 1/125 노출이 상당히 내리니까 조리개를 내리지 말고, 셔터스피드를 내리지 말고, ISO 감도..

Camera 2017.11.29

쉘 특정 컬럼 더하기

쉘(shell)에서 특정 컬럼 더하기 데이터 분석을 하다 보면 특정 컬럼의 값을 더할 때가 있다. 예를 들어서 positive/negative의 비율(ratio)을 확인할 때, label의 값이 0 또는 1의 값이면, 1의 값을 모두 더하면 positive의 개수를 알 수 있다. 전체 positive의 개수를 확인하고, 파일의 line수를 계산하면 쉽게 알 수 있다. shell $ cat data | wc -l 데이터 1 2 3 4 5 6 7 8 9 명령어 shell $ cat data | awk '{sum+=$2 ; print $0} END{print "sum=",sum}' 출력 결과 1 2 3 4 5 6 7 8 9 sum= 15

Programming/Shell 2017.11.06

하이브(Hive) 테이블 생성

하이브(Hive) 테이블 생성 하이브 테이블이 만약 textfile로 되어 있다면, 테이블을 load하거나, hue에서 테이블을 로딩할때 에러가 발생하는 경우가 있다. malformed ORC 에러가 뜬다면, 하이브 테이블의 타입을 확인할 필요가 있다. 이럴 경우에는 아래와 같이 기존 textfile을 orc테이블의 형태로 생성한 뒤에 export/import를 하면 에러 없이 진행이 된다. 코드

빅데이터/Hive 2017.11.06
반응형