반응형

전체 글 359

[Hadoop] HDFS 디렐토리별 용량 체크하는 방법

Hadoop HDFS에서 디렉토리별 사용량 체크를 하는 방법 HDFS를 사용하다보면 directory 별로 디스크 사용량 체크가 필요하다. 아래와 같이 Permission denied 에러가 발생할것이다. 그 이유는 ROOT의 사용량 조회를 일반 유저 아이디로는 조회가 불가능하기 때문이다. 루트를 포함해 디스크 용량을 확인하기 위해서는 모든 키를 갖고 있는 HDFS 유저로 조회를 하면 된다. du: Permission denied: user=icecream, access=READ_EXECUTE, inode="/user/hue/.Trash":hue:hue:drwx------ ``` sudo -u hdfs hdfs dfs -du -s | sort -r -k 1 -g | awk '{ suffix="KMGT";..

빅데이터/Hadoop 2019.03.24

[Spark] Pyspark에서 NoneType Filtering 하는 방법

PySpark 에서 NoneType을 Filtering 하는 방법 (any, all, subset) pyspark에서 drop method는 NULL을 가진 행을 제거하는데 가장 간단한 함수다. 기본적으로 NULL 값을 가진 행을 모두 제거를 한다. 모든 컬럼이 NULL인 경우 제거를 하고, 하나의 컬럼이 NULL인 경우 제거를 하고 싶은 경우가 있을것이다. 이런 경우에 어떻게 다르게 진행하는지 "any", "all"을 통해 설명 위 작업을 SQL에서 진행한다면 WHERE 절에 해당 컬림이 NULL인지 체크하는 구문을 넣어야 한다. 만약 모든 컬럼에 대해서 해야 하면? 모든 컬럼을 명시해야하는 단점이 있다. (SELECT * FROM TABLE WHERE COL1 IS NOT NULL) drop 메소드에..

빅데이터/Spark 2019.03.24

[Spark] Pyspark NoneType, null, blank, empty string 필터링 하는 방법

Pyspark NoneType, Null, Blank, Empty String 필터링 하는 방법 pyspark에서 NoneType, NULL, Blank, Empty String 등 사용지 않는 값을 필털이 하는 방법에 대해서 설명을 한다. SQL로 진행하면 컬럼 하나 하나에 대해서 WHERE 절을 이용해서 필터링을 해야한다. 하지만 spark에서 Condition을 생성하고, 해당 Condition을 filter() 함수의 인자로 넘겨주면, 동일한 조건으로 모든 컬럼에 적용이 가능하다. 코드에서 살펴볼 내용 None, Null Empty String이 포함된 Row만 추출이 가능 None, Null, Empty String을 제외한 모든 Row만 추출도 가능 코드 설명 간단하게 각각 컬럼에 공통적으로 ..

빅데이터/Spark 2019.03.24

[Hive] Shell Script에서 외부에서 하이브 테이블 가져오기

Shell Script에서 외부 하이브 테이블 가져오는 방법 외부에서 하이브 테이블 가져오기 (외부) 하이브 테이블 데이터 복사 (내부) 하이브 테이블 생성 (내부) 데이터 하이브 테이블로 로드(Load) 쉘(shell)에서 데이터를 덤프, 테이블 생성, 로드 까지 하는 방법 스크립트 스크립트에서 첫번째로 hadoop distcp를 이용해서 데이터를 덤프해 오자. cat을 이용해서 하이브 쿼리를 특정 디렉토리의 .hql을 생성 .hql의 파일을 hive -f를 통해서 실행 위 과정에서 Hive 쿼리를 직접 입력하지 않고, hql을 생성한 이유는 이후에 스크립트에서가 아닌 스크립트 내에 있는 여러 쿼리들 중에서 하나만 실행하고 싶을때 사용하면 좋다. 또한 cat을 이용하는 이유는 하이브 쿼리를 순수하게 그..

빅데이터/Hive 2019.03.24

[Bash] 데이터에서 특정 컬럼 추출하는 방법

데이터에서 특정 컬럼을 추출해야 하는 경우 기본으로 awk를 사용하면 seperator는 " "(공백)으로 들어가기 때문에 -F오션을 사용해서 내가원하는 delimter를 설정할 수 있다. print $를 사용하면 되는데, index는 1부터 시작이다 $ awk -F "\t" '{print $5}' data.txt.sample reference https://stackoverflow.com/questions/2609552/how-to-use-as-awk-field-separator

Programming/Shell 2019.01.16

[Mac] Mounty를 이용해서 NTFS 형식의 외장하드 읽고쓰기

외장하드가 읽기만 가능할때, 외장하드가 쓰기가 불가능? 삼성 외장하드 P3을 사용하고 있는데, macOS에서 read-only라는 ...? 폴더도 생성을 할 수 없었다 문제 해결을 위해서 별도의 추가 앱이 필요하다. (다른 사람들은 극단적으로 포매을 해야 한다고... 따라하지마셔요) Mounty는 윈도우에서 NTFS로 포맷된 외장하드를 읽기/쓰기를 지원 가능하도록 해준다. 다운로드 http://enjoygineering.com/mounty/# 다운을 받고 설치하면, 추후에 외장하드가 mount가 되면 읽으시겠냐고 물어보면 '응'이라고 눌러주면 끝 그리고 위쪽에 Mounty의 아이콘을 통해서 Finderd에서 오픈이 가능하다. 하지만 여기서 Finder에서가 아닌 다른곳에서 열기 위해서 경로를 찾으면 Mo..

Mac 2019.01.16

[DevEnv] kubernetes

Kubernetes open-source features automatic binpacking horizontal scaling automated rollouts and rollbacks self-healing service discovery and load balancing secret and configuration management storage orchestration batch execution Kubernetes features 멀티플 호스트 전체에서 컨테이너를 오케스트레이션 하드웨어를 더 효과적으로 활용하여 엔터프라이즈 애플리케이션을 실행하는 데 필요한 리소스를 극대화 애플리케이션 배포 및 업데이트를 제어하고 자동화 스토리지를 장착 및 추가해 스테이트풀(stateful) 애플리케이션을 실행..

DevEnv 2019.01.16

[Python] 큰 데이터 사이즈 읽는 방법(Iterator, Generator)

파이썬에서 데이터를 읽을때, 보통은 모든 데이터를 메모리에 올리고 사용하는 경우가 많다. 하지만, 작은 사이즈의 데이터는 가능하지만 큰 사이즈의 데이터를 메모리에 올리고 사용하는게 가능하다면? 피시에 감사하자. 큰 데이터셋을 사용하는 경우인 데이터 학습 시킬 학습 데이터, 통계를 낼때 데이터 등등.. 이때는 데이터를 built-in 함수인 iterator, generator를 이용을 해야만 한다. MUST!! Iterator, Generator 자 interation을 어떻게 쓰는게 좋은가? python for x in range(10): print x range(10)은 리스트를 생성하는것과 동일하다. [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] list를 iteration object로 생..

Programming/Python 2019.01.16

해운대 전월세 규모별 거래량은?

오늘의 부동산 주제는 "시군구별 규모 거래량"에 대해서 알아보도록 하겠습니다. 그 중에서도 "해운대" 지역에 대해서 알아볼까합니다. 차트 아래 차트는 "해운대의 시군구별 규모 거래량" 를 나타낸 내용입니다. 차트설명 x축의 값은 시군구 y축의 값은 전월세 거래량을 의미 왼쪽 위에는 범례(legend) 부동산 관련 데이터 문의는 "direcision@gmail.com" 관련 데이터 분석은 유투브 채널

경제/부동산 2018.12.15
반응형