반응형
PySpark 에서 NoneType을 Filtering 하는 방법 (any, all, subset)
pyspark에서 drop method는 NULL을 가진 행을 제거하는데 가장 간단한 함수다. 기본적으로 NULL 값을 가진 행을 모두 제거를 한다. 모든 컬럼이 NULL인 경우 제거를 하고, 하나의 컬럼이 NULL인 경우 제거를 하고 싶은 경우가 있을것이다. 이런 경우에 어떻게 다르게 진행하는지 "any", "all"을 통해 설명
위 작업을 SQL에서 진행한다면 WHERE 절에 해당 컬림이 NULL인지 체크하는 구문을 넣어야 한다. 만약 모든 컬럼에 대해서 해야 하면? 모든 컬럼을 명시해야하는 단점이 있다. (SELECT * FROM TABLE WHERE COL1 IS NOT NULL)
- drop 메소드에 인수
- any: 모든 행의 컬럼값 중 하나라도 NULL의 값을 가지면 해당 행을 제거
- all: 모든 컬럼 값이 NULL이거나 NaN인 경우에만 해당 행을 제거
위에서 보면 항상 "모든"이 조건이 된다. 하지만 drop 인자중에 subset
을 이용하면 특정 컬럼에 대해서만 drop을 진행할 수 있다. 아래 소스코드 참고
소스코드
반응형
'빅데이터 > Spark' 카테고리의 다른 글
[Spark] Pyspark NoneType, null, blank, empty string 필터링 하는 방법 (0) | 2019.03.24 |
---|---|
[Spark] 스파크에서 외부 라이브러리 사용하는 방법 (0) | 2016.11.08 |
[Spark] timestamp에서 날짜 추출하는 방법 (month, day, hour) (0) | 2016.08.09 |
[Spark] Row의 Seq Collection으로 RDD, DataFrame 생성하기 (0) | 2016.08.03 |
[Spark] Json 포맷 처리하기 - Json Object List (0) | 2016.08.03 |