빅데이터/Spark

[Spark] Pyspark에서 NoneType Filtering 하는 방법

쌍쌍바나나 2019. 3. 24. 20:37

PySpark 에서 NoneType을 Filtering 하는 방법 (any, all, subset)

pyspark에서 drop method는 NULL을 가진 행을 제거하는데 가장 간단한 함수다. 기본적으로 NULL 값을 가진 행을 모두 제거를 한다. 모든 컬럼이 NULL인 경우 제거를 하고, 하나의 컬럼이 NULL인 경우 제거를 하고 싶은 경우가 있을것이다. 이런 경우에 어떻게 다르게 진행하는지 "any", "all"을 통해 설명

위 작업을 SQL에서 진행한다면 WHERE 절에 해당 컬림이 NULL인지 체크하는 구문을 넣어야 한다. 만약 모든 컬럼에 대해서 해야 하면? 모든 컬럼을 명시해야하는 단점이 있다. (SELECT * FROM TABLE WHERE COL1 IS NOT NULL)

drop 메소드에 인수
- any: 모든 행의 컬럼값 중 하나라도 NULL의 값을 가지면 해당 행을 제거
- all: 모든 컬럼 값이 NULL이거나 NaN인 경우에만 해당 행을 제거

위에서 보면 항상 "모든"이 조건이 된다. 하지만 drop 인자중에 subset을 이용하면 특정 컬럼에 대해서만 drop을 진행할 수 있다. 아래 소스코드 참고

소스코드

'빅데이터 > Spark' 카테고리의 다른 글

[Spark] Pyspark NoneType, null, blank, empty string 필터링 하는 방법 (0)	2019.03.24
[Spark] 스파크에서 외부 라이브러리 사용하는 방법 (0)	2016.11.08
[Spark] timestamp에서 날짜 추출하는 방법 (month, day, hour) (0)	2016.08.09
[Spark] Row의 Seq Collection으로 RDD, DataFrame 생성하기 (0)	2016.08.03
[Spark] Json 포맷 처리하기 - Json Object List (0)	2016.08.03

현재글[Spark] Pyspark에서 NoneType Filtering 하는 방법

함께 하는 블로그

nodejs, 데이터분석, 파이썬, RDD, ubuntu, 빅데이터, git, 스파크, 설치, javascript, 안드로이드, 자바스크립트, TensorFlow, Android, dict, 소스코드, Spark, Linux, 리눅스, Python,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

불로

[Spark] Pyspark에서 NoneType Filtering 하는 방법

PySpark 에서 NoneType을 Filtering 하는 방법 (any, all, subset)

소스코드

'빅데이터 > Spark' 카테고리의 다른 글

'빅데이터/Spark'의 다른글

티스토리툴바

[Spark] Pyspark에서 NoneType Filtering 하는 방법

PySpark 에서 NoneType을 Filtering 하는 방법 (any, all, subset)

소스코드

'빅데이터 > Spark' 카테고리의 다른 글

'빅데이터/Spark'의 다른글

관련글

티스토리툴바