반응형

데이터분석 17

[부동산 데이터 분석] #2.재료만들기 (“11110” 아는사람은 Skip, 모르면 드루와)

​ https://youtu.be/xJy4IShFZ2I​ # 주제 부동산 데이터 분석 https://www.youtube.com/watch?v=e1N3PVwRV_U 에서 부동산 실거래 매매 내역 데이터의 출처와 가져오는 방법에 대해서 소개를 했습니다. 부동산 데이터를 다루기 전에 필요한 재료들을 모으는 시간입니다. “11110”은 무엇을 의미할까요? # 오늘 다루는 주제 * 부동산 주소코드 구조 * 인코딩 해결 방법 [¿⁄∑·∞«ºˆ] ∞«π∞DB(2018≥‚ 10ø˘ 31¿œ ±‚¡ÿ) * 윈도우에서 리눅스로 데이터 옮길때 한글 짐 현상 * 나만의 메타데이터 생성하기 (*.csv) * 주피터랩 (JuipyterLab) * https://www.youtube.com/watch?v=sqMYhAIaYZQ *..

데이터분석 2018.12.02

[부동산 데이터 분석] #1.데이터의 출처 어디일까? 공공데이터 포털의 실체 (feat. Postman) 내집마련이 시급하다!

​ # 주제 부동산 데이터 분석의 시작! “Chapter1. 요리에 필요한 재료를 어디에서 얻을까?” 부동산 실거래 (매매, 전세) 데이터를 수집 아파트, 오피스텔 계약(매매,전세)시에 나에게 맞는 집을 어떻게 찾을수 있을까? 내집마련이 필요한 사람들 다 모여라! 데이터 분석을 통한 내집마련 이제 시작합니다. https://youtu.be/e1N3PVwRV_U​ # 오늘 다룰 주제 * 공공데이터 * 국토교통부의 정체 * API를 이용한 데이터 조회 * API를 개발할때 유용한 툴 postman # URLs * https://www.data.go.kr * https://www.getpostman.com # 블로그 * 영상을 보시고 궁금한점이 있으면 아래 댓글로 남겨주시면 답변 해드리겠습니다. * 이것이 알..

데이터분석 2018.12.02

[Tensorflow] tensorflow 기본 설명 (tensor, variables, fetches, feeds, session, etc)

overview tensorflow는 graphs의 형태로 나타내는 프로그래밍 시스템을 말합니다. 그래프에 있는 노드들은 operations이라고 불리우는데, 줄여서 ops라고 칭합니다. op는 Tensor로 이루어져 있고, tensors간에 computaiton을 수행하게 됩니다. tensor는 multi-dimentional array형태로 되어있다. Tensorflow graph를 연산하기 위해서는 Session을 launch를 해야한다. Session은 Devices(CPUs, GPUs)위에서 연산을 실행한 후에 결과를 반환한다. The computation graph Tensorflow 프로그램은 graph의 형태로 되어 있고, 그래프에 있는 ops의 연산을 수행하기 위해 session을 이용한..

[Tensorflow] How to Retrain Inception’s Final Layer for New Categories

modern object recognition models은 수백만개의 파라미터의 값과 full train을 하는데 걸리는 시간이 주 단위로 걸리게 된다. Transfer learning은 여러개의 categories로 이루어진 set을 fully-trained model인 ImageNet을 대상으로, 새로운 클래스를 추가해서 기존에 존재하는 weights를 다시 retrain하는 것을 말한다. 요약해서 말하면, 이미 트레이닝이 된 모델의 수백만개의 parameters를 그대로 사용하는데, 새로운 클래스를 추가하므로서, 기존 weights를 retrain하는 것을 Transfer learning이라고 한다. 예를 들어서 마지막 final layer를 retraining하고, 그 나머지 모든 layer에 ..

[Tensorflow] CNN (Convolutional Neural Networks): cifar-10

Overview CIFAR-10 classification은 machine learning에서 공통적으로 benchmark problem이다. 여기서 문제는 RGB 32 x 32 pixel의 이미지들을 10개의 카테고리로 분류하는것이다. Goals image recognition을 위한 작은 convolutional neural network를 build하는 tutorial입니다. - network architecture, training, evaluation을 위해서 어떻게 조직화 할 것인지. - models을 construct하기 위한 template을 제공 CIFAR-10은 model을 만들기위해 tensorflow의 예제코드로 이루어져 있다. 현재는 작고, 빠르게 트레이닝이 가능하다. CIFAR-..

[Tensorflow] Overfitting 해결방법

네트워크를 구성하고, training을 하는데, accuracy와 cross-entropy의 그래프에서 training, validation의 값이 차이가 나는게 보였다. 빨간색이 training, 파란색이 validation이다. training의 acc의 값은 증가하고, cross-entropy의 값은 계속 줄어드는데 반면, validation의 값은 반대로 유지가 되거나, 반대로 증감하는 그래프를 확인할 수 있었다. 즉 현재 네트워크는 overfitting 되었다고 말할 수 있다. Dropout tensorflow에서는 fully connected layer를 일정 노드를 dropout을 함으로써, overfitting문제를 해결한다. input으로는 neuron’s을 유지할 probability를..

[xgboost] XGBoost 설치 및 데모

Tensorflow와 함께 요즘 핫한 xgboost는 ensemble classification을 해주는 플랫폼이다. 기본 베이스로 decision tree를 사용하고 있다. 학습시키는것도 매우 간단하게 몇개의 파라미터만 넣으면 학습이된다. 근데 더 웃긴건 성능이 잘나온다는 거... 요즘 딥러닝도 뜨고 있지만 xgboost도 성능이 좋아서 kaggle같은 competition에서도 많이 사용하니 참고하면 좋을것 같다. github.com/dmlc/xgboostxgboost (decision tree) 설치하기 python의 pip로 설치가 가능하다. 설치를 하기 전에 c++ compiler가 필요하기 때문에 설치를 해야 한다. mac에서는 $ brew install gcc —without-multilib..

데이터분석 2017.02.07

[Scikit-learn] large data set 학습시키는데 발생하는 문제

scikit-learn을 이용해 기존에 학습하는 데이터 셋이 작을때는 SVC에서 kernel로 모델을 생성했다. 하지만 샘플의 개수가 늘어남에 따라 문제가 생기기 시작했다. 그 이유는 간단하다. scikit-learn에서 이미 샘플의 수가 많으면 동작이 안된다고 명시하고 있다. 정리하면 SVC kernel은 scalable하지 않기 때문에, training set의 small subset에 적합하고, incremental/online learning을 지원하지 않는다. oneline learning은 간단하게 말하면, 모든 데이터를 한번에 모델을 학습시키는데 사용하지 않고, batch 형태로 데이터를 나누어서 학습시킨다. 기존에는 한번의 batch 작업으로 모델을 생성했다면, 여러번의 batch로 모델을..

데이터분석 2017.02.07

[Tensorflow] 설치 및 환경 구축하기

이미 google에서 만들어서 deep learning하는 플랫폼중에 가장 유명하다고 할 수 있는... Tensorflow를 설치하는 방법에 대해서 정리를 해보았다. Tensorflow는 설치하기 아주 간단하다. 하지만 처음부터 pip 설치하고 번거로운 일이 있기에 그냥 정리해 보았다. $ sudo apt-get install python-pip python-dev$ sudo pip install —upgrade pip $ export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-0.12.1-cp27-none-linux_x86_64.whl$ sudo pip install --upgrade $TF_BINARY_UR..

데이터 용어 정리

분산: 하나의 변수가 변수의 평균에서 얼마나 멀리 떨어져 있는지 계산 공분산: 두 변수가 각각의 평균에서 얼마나 멀리 떨어져 있는지 심슨의 역설: 혼재변수(confounding variables)가 누락되어 상관관계가 잘못 계산되는 심슨의 역설(simp son’s paradox)을 흔히 직면하게 된다. 예) 미국 서부, 동부 과학자 친구수 (석사, 박사에 따라 수가 다르고…) 베이즈 정리: 조건부 확률을 반대로 뒤집는 ‘베이즈 정리’ (조건부확률 ) 사건 E가 발생했다는 가정하에, 사건 F가 발생할 확률만 주어졌을때, (베이즈 정리) 사건 F가 발생했다는 가정하에, 사건 E가 발생할 확률은? P(E|F) = P(E,F)/P(F) = P(F|E)P(E)/P(F) 사건 F = 사건F와 사건 E가 모두 발생하..

데이터분석 2017.02.07
반응형