반응형
들어가며
데이터 분석에서 가장 많이, 그리고 자주 사용하는 field가 timestamp의 값이 아닐까 싶다. 그 중에서도 timestamp의 raw데이터를 통해서 새로운 feature를 생성하는 방법이 있다. 예를 들어 날짜별 사용자 방문 수 라고 할때, timestamp의 값에서 우리는 month와 day를 추출해서 새로운 feature의 값으로 사용을 해야 한다.
소스코드
DataFrame의 데이터 타입인 df에서 select의 함수를 통해서 원하는 Column을 추출을 하는 과정이다. timestamp_milli의 값은 ms의 단위의 값이기 때문에 1000을 나눈뒤에 spark에서 제공하는 functions의 라이브러리를 import한 뒤에 사용하면 된다. from_unixtime을 통해 date형태의 String값으로 변환을 한 뒤에 month, dayofmonth, hour을 통해서 월, 일, 시간을 추출을 할 수 있다.
org.apache.spark.sql.functions함수 확인하기
반응형
'빅데이터 > Spark' 카테고리의 다른 글
[Spark] Pyspark NoneType, null, blank, empty string 필터링 하는 방법 (0) | 2019.03.24 |
---|---|
[Spark] 스파크에서 외부 라이브러리 사용하는 방법 (0) | 2016.11.08 |
[Spark] Row의 Seq Collection으로 RDD, DataFrame 생성하기 (0) | 2016.08.03 |
[Spark] Json 포맷 처리하기 - Json Object List (0) | 2016.08.03 |
[Spark] 파티셔닝 예제 - 페이지랭크(PageRank) 알고리즘 (0) | 2016.07.26 |