반응형

데이터분석 13

[데이터분석] 어디지역의 아파트를 사야할까? (#서울특별시)

안녕하세요. 오늘은 부동산 "시군구별평당가격"에 대해서 알아보도록 하겠습니다. 그 중에서도 "서울특별시"지역에 대해서 알아볼까합니다. 차트 아래 차트는 "서울특별시의 시군구별평당가격" 를 나타낸 내용입니다. x축의 값은 시간을 나타냅니다. y축의 값은 평당거래액을 나타내며 단위는 만원입니다. 왼쪽 위에는 범례(legend)를 나타냅니다. 해당 그래프는 시간에 따라 평당거래금액의 변화 추이를 확인하기 위한 그래프입니다. 차트 오른쪽에 붙어있는 테이블은 평균, 편차, 최소값, 최대값, 상위 하위 25%, 중간값을 나타냅니다. 위 차트에서는 평당거래액의 편차가 크면 클수록 네모박스의 크기가 커집니다. 네모박스가 커진것은 월마다 평당가격의 변화가 크다고 해석하시면 됩니다. 네모박스 안에 있는 초록색 선은 해당 ..

경제/부동산 2018.12.08

[부동산 데이터 분석] #3. 실거래데이터 쌓기 (데이터를 꼭 DB에 저장해야 한다는 생각을 버려~ 노하우 공유!!)

​ [부동산 데이터 분석] #3. 실거래데이터 쌓기 (데이터를 꼭 DB에 저장해야 한다는 생각을 버려~ 노하우 공유!!)​ # 주제 부동산 데이터 분석 [부동산 데이터 분석] #1.데이터의 출처 어디일까? 공공데이터 포털의 실체 (feat. Postman) 내집마련이 시급하다!​ [부동산 데이터 분석] #2.재료만들기 (“11110” 아는사람은 Skip, 모르면 드루와)​ 에 이어서 실거래 매매 데이터 쌓기 최종회! 어떻게 함수형태로 구성하고 데이터를 저장할까~? # 오늘 다루는 주제 * 이전 영상 리뷰 * 파이썬 함수형태 * 어떻데 유니크한값을 찾을까? * 데이터 저장할때 어떻게 효율적으로? 데이터 저장구조 * 날짜데이터는 어떻게 생성할까? (datetime) * 주피터랩 (JuipyterLab) * ..

Programming/Python 2018.12.06

[부동산 데이터 분석] #2.재료만들기 (“11110” 아는사람은 Skip, 모르면 드루와)

​ https://youtu.be/xJy4IShFZ2I​ # 주제 부동산 데이터 분석 https://www.youtube.com/watch?v=e1N3PVwRV_U 에서 부동산 실거래 매매 내역 데이터의 출처와 가져오는 방법에 대해서 소개를 했습니다. 부동산 데이터를 다루기 전에 필요한 재료들을 모으는 시간입니다. “11110”은 무엇을 의미할까요? # 오늘 다루는 주제 * 부동산 주소코드 구조 * 인코딩 해결 방법 [¿⁄∑·∞«ºˆ] ∞«π∞DB(2018≥‚ 10ø˘ 31¿œ ±‚¡ÿ) * 윈도우에서 리눅스로 데이터 옮길때 한글 짐 현상 * 나만의 메타데이터 생성하기 (*.csv) * 주피터랩 (JuipyterLab) * https://www.youtube.com/watch?v=sqMYhAIaYZQ *..

데이터분석 2018.12.02

[부동산 데이터 분석] #1.데이터의 출처 어디일까? 공공데이터 포털의 실체 (feat. Postman) 내집마련이 시급하다!

​ # 주제 부동산 데이터 분석의 시작! “Chapter1. 요리에 필요한 재료를 어디에서 얻을까?” 부동산 실거래 (매매, 전세) 데이터를 수집 아파트, 오피스텔 계약(매매,전세)시에 나에게 맞는 집을 어떻게 찾을수 있을까? 내집마련이 필요한 사람들 다 모여라! 데이터 분석을 통한 내집마련 이제 시작합니다. https://youtu.be/e1N3PVwRV_U​ # 오늘 다룰 주제 * 공공데이터 * 국토교통부의 정체 * API를 이용한 데이터 조회 * API를 개발할때 유용한 툴 postman # URLs * https://www.data.go.kr * https://www.getpostman.com # 블로그 * 영상을 보시고 궁금한점이 있으면 아래 댓글로 남겨주시면 답변 해드리겠습니다. * 이것이 알..

데이터분석 2018.12.02

[Tensorflow] 설치 및 환경 구축하기

이미 google에서 만들어서 deep learning하는 플랫폼중에 가장 유명하다고 할 수 있는... Tensorflow를 설치하는 방법에 대해서 정리를 해보았다. Tensorflow는 설치하기 아주 간단하다. 하지만 처음부터 pip 설치하고 번거로운 일이 있기에 그냥 정리해 보았다. $ sudo apt-get install python-pip python-dev$ sudo pip install —upgrade pip $ export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-0.12.1-cp27-none-linux_x86_64.whl$ sudo pip install --upgrade $TF_BINARY_UR..

[Python] matpltlib import 에서 발생한 에러

파이썬에서 matplotlib을 import하는데 아래와 같은 에러가 발생했다. RuntimeError: Python is not installed as a framework. The Mac OS X backend will not be able to function correctly if Python is not installed as a >>> import matplotlib.pyplot as plt Traceback (most recent call last): File "", line 1, in File "//anaconda/envs/myenv/lib/python2.7/site-packages/matplotlib/pyplot.py", line 109, in _backend_mod, new_figure..

Programming/Python 2017.02.07

데이터 용어 정리

분산: 하나의 변수가 변수의 평균에서 얼마나 멀리 떨어져 있는지 계산 공분산: 두 변수가 각각의 평균에서 얼마나 멀리 떨어져 있는지 심슨의 역설: 혼재변수(confounding variables)가 누락되어 상관관계가 잘못 계산되는 심슨의 역설(simp son’s paradox)을 흔히 직면하게 된다. 예) 미국 서부, 동부 과학자 친구수 (석사, 박사에 따라 수가 다르고…) 베이즈 정리: 조건부 확률을 반대로 뒤집는 ‘베이즈 정리’ (조건부확률 ) 사건 E가 발생했다는 가정하에, 사건 F가 발생할 확률만 주어졌을때, (베이즈 정리) 사건 F가 발생했다는 가정하에, 사건 E가 발생할 확률은? P(E|F) = P(E,F)/P(F) = P(F|E)P(E)/P(F) 사건 F = 사건F와 사건 E가 모두 발생하..

데이터분석 2017.02.07

[Python] Pillow를 이용한 이미지 분석 with Jupyter(IPython Notebook) 확인하는 방법

들어가며: Pillow는 이미 유명한 파이썬 이미지 분석 라이브러리 입니다. 이미지 파일을 읽어 resize, scale 등 다양한 작업을 할 수 있습니다. 이번에는 pillow를 이용해 이미지를 처리하는 내용보다는 image분석을 위해서 사용하는 IPython Notebook인 Jupyter에서 이미지를 그래프 형태로 변환해서 화면에 출력을 하는 예제를 살펴보겠습니다. Pillow에서 읽어들인 이미지의 변화를 확인하고 싶을때, 항상 이미지를 창에 띄우는 방법도 있지만, Jupyter에서 처리하게 될때 이미지가 matplotlib의 차트처럼 나오면 이미지 처리의 전후를 확인할 수 있습니다. 사용하기: 필요한 라이브러리는 통계분석을 할때 자주사용하는 matplotlib, numpy가 필요하다. 코드에 대해..

Programming/Python 2016.11.08

[데이터 분석] 머신러닝 예제 - Loan Prediction

데이터 분석 머신러닝 예제 - Loan Prediction 데이터 분석에 대해서 학습을 할때, 매번 이론만 보니까 크게 와닿은 감이 없었습니다. 몇개의 유명한 사이트에서는 데이터 분석 주제를 던지고, 분석가들 사이에 서로 경쟁을 하는 사이트가 있습니다. 상금도 걸려 있으니 한번 시간이 나면 해보는것도 좋은 경험이 될 것 같습니다. 그 외에도 사이트에서는 data science에 대해서 학습할 수 있는 글 이나 예제을 주니 학습하는데는 좋은 사이트입니다. 실제 데이터 분석가들이 작성한 글이기 때문에 많은 도움이 될것입니다. 주요 사이트는 아래와 같습니다. http://datahack.analyticsvidhya.com/ https://www.kaggle.com/ 이번에 접해본 예제는 Loan Predict..

데이터분석 2016.07.06 (4)

[데이터 분석] Data Exploration Guide - Outlier(3)

Outlier란? 잘못 평가된 값으로, 결과적으로 잘못된 분석결과를 초래할 수 있는 값들을 말합니다. 간단하게 말해서 샘플의 전체적인 패턴에서 벗어나게 관측되는 값을 말합니다. 아래 그림을 보면 고객들의 수입을 프로파일링 한 결과를 box-plot 그래프로 표현을 했습니다. 수입의 분포를 보면 $0.8million이 매년 수입의 평균을 나타냅니다. 그러나 두명의 고객은 매년 $4, $4.2 million의 수입이 있습니다. 전체적인 population을 볼때 이 두명의 고객은 상대적으로 많이 높은 수입을 갖고 있습니다. 이처럼 두명의 고객의 수입은 전체적인 수입 패턴에서 벗어나게 나타나는 outlier라고 말할 수 있습니다. Outliers의 종류 Outlier의 종류는 Univariate와 Multiv..

데이터분석 2016.07.05
반응형