반응형

Programming 164

[Bash] 데이터에서 특정 컬럼 추출하는 방법

데이터에서 특정 컬럼을 추출해야 하는 경우 기본으로 awk를 사용하면 seperator는 " "(공백)으로 들어가기 때문에 -F오션을 사용해서 내가원하는 delimter를 설정할 수 있다. print $를 사용하면 되는데, index는 1부터 시작이다 $ awk -F "\t" '{print $5}' data.txt.sample reference https://stackoverflow.com/questions/2609552/how-to-use-as-awk-field-separator

Programming/Shell 2019.01.16

[Python] 큰 데이터 사이즈 읽는 방법(Iterator, Generator)

파이썬에서 데이터를 읽을때, 보통은 모든 데이터를 메모리에 올리고 사용하는 경우가 많다. 하지만, 작은 사이즈의 데이터는 가능하지만 큰 사이즈의 데이터를 메모리에 올리고 사용하는게 가능하다면? 피시에 감사하자. 큰 데이터셋을 사용하는 경우인 데이터 학습 시킬 학습 데이터, 통계를 낼때 데이터 등등.. 이때는 데이터를 built-in 함수인 iterator, generator를 이용을 해야만 한다. MUST!! Iterator, Generator 자 interation을 어떻게 쓰는게 좋은가? python for x in range(10): print x range(10)은 리스트를 생성하는것과 동일하다. [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] list를 iteration object로 생..

Programming/Python 2019.01.16

[부동산 데이터 분석] #3. 실거래데이터 쌓기 (데이터를 꼭 DB에 저장해야 한다는 생각을 버려~ 노하우 공유!!)

​ [부동산 데이터 분석] #3. 실거래데이터 쌓기 (데이터를 꼭 DB에 저장해야 한다는 생각을 버려~ 노하우 공유!!)​ # 주제 부동산 데이터 분석 [부동산 데이터 분석] #1.데이터의 출처 어디일까? 공공데이터 포털의 실체 (feat. Postman) 내집마련이 시급하다!​ [부동산 데이터 분석] #2.재료만들기 (“11110” 아는사람은 Skip, 모르면 드루와)​ 에 이어서 실거래 매매 데이터 쌓기 최종회! 어떻게 함수형태로 구성하고 데이터를 저장할까~? # 오늘 다루는 주제 * 이전 영상 리뷰 * 파이썬 함수형태 * 어떻데 유니크한값을 찾을까? * 데이터 저장할때 어떻게 효율적으로? 데이터 저장구조 * 날짜데이터는 어떻게 생성할까? (datetime) * 주피터랩 (JuipyterLab) * ..

Programming/Python 2018.12.06

네이버 댓글 봇, 야구 자동예매 어떻게 만들어지는 걸까? (Selenium with Python을 이용한 자동화를 해보자!!!)

​ 유투브 바로가기​ # 주제 안녕하세요 동화입니다. 네이버 댓글 봇, 야구자동예매, 웹클롤러는 어떻게 만들어질까? 브라우저에서 하는 작업을 모든것을 자동화할 수 있습니다. 잘못 사용하면 악용이 될 수 있습니다. # 오늘 다루는 주제 * 네이버 댓글 논란! 어떻게 만들어지는 걸까 ? * 나보다 빠른 예매, 야구 공연 티켓을 어떻게 할까? * 데이터를 모으는 크롤링(Crawling)은 어떻게 할까? * Selenium, WebDriver를 설치하고, 실습까지!! * 브라우저에서 하는 모든 작업은 자동화가 가능합니다! # URLs * https://selenium-python.readthedocs.io/ *http://chromedriver.chromium.org/downloads * http://ourcs..

Programming/Python 2018.11.21

엑셀 언제까지? 간단한 개발로 3초안에 정산 순삭! (엑셀하는 사람들 모여라~) 판다스(Pandas)로 한방에!

영상 ​ 엑셀 언제까지? 간단한 개발로 3초안에 정산 순삭! (엑셀하는 사람들 모여라~) https://youtu.be/hRMAl3cRE8c # 정산하는 방법 안녕하세요 동화입니다. 엑셀로 반복적인 지긋지긋한 정산은 이제그만~ 손쉬운 코딩으로 자동화 하면! 3초면 정산 완료! # 오늘 다루는 주제 * 정산 어떻게 하면 쉽게 할 수 있을까? * 쥬피터랩(Jupyterlab)을 사용하고 정산하기 * 판다스(Pandas)를 사용해서 쉽게 정산하기 * 일상에서 간단한 프로그래밍 * 배달의 민족, 요기요, 배달통 정산 3초에 끝내기 # URLs * http://jupyter.org/ * https://pandas.pydata.org/ * https://jupyterlab.readthedocs.io/en/... #..

Programming 2018.11.18

[Shell] 데이터에서 구분자 변경하는 방법

데이터에서 구분자를 변경하는 방법 데이터의 delimeter가 항상 같지 않기 때ㅔ문에 알아 놓으면 좋은 방법! 1) tab을 ,로 변경하는 방법 $ sed 's/\t/,/g' inputfile > outputfile 2) ,를 tab으로 변경하는 방법 $ sed 's/,/\t/g' inputfile > outputfile $ sed 's/::/,/g' ratings.dat > ratings.csv 참고 https://stackoverflow.com/questions/3509332/how-to-convert-a-tab-separated-file-into-comma-separated-file

Programming/Shell 2018.10.20

[Shell] 데이터 특정 퍼센트로 나누는 방법

데이터를 특정 퍼센트로 나누는 방법 하나의 큰 데이터를 특정 퍼센트 만큼 샘플링을 하거나, train/test 데이터셋으로 나누고 싶은 경우가 있는데, 이때 사용하면 좋다. 1) split 70% based on lines split -l $[ $(wc -l filename|cut -d" " -f1) * 70 / 100 ] filename 2) split 70% based on bytes split -b $[ $(wc -c filename|cut -d" " -f1) * 70 / 100 ] filename 참고 https://unix.stackexchange.com/questions/10219/split-how-to-split-into-different-percentages

Programming/Shell 2018.10.20

[Paper] Neural Factorization Machines for Sparse Predictive Analytics

Neural Factorization Machines for Sparse Predictive Analytics Abstract web applications의 predictive tasks는 categorical variables을 modeling하는게 필요하다. categorical data user IDs demographics genders occupations standard machine learning에서는 binary features의 set으로 변환을 했다 (one-hot encoding). 결과적으로 feature vector는 highly sparse한 결과물이 생긴다. 이러한 sparse data를 효과적으로 학습하기 위해서는 features 사이에 interactions를 설명하는게..

Programming/Python 2018.10.20
반응형