반응형

2018/10/20 19

[Shell] 데이터에서 구분자 변경하는 방법

데이터에서 구분자를 변경하는 방법 데이터의 delimeter가 항상 같지 않기 때ㅔ문에 알아 놓으면 좋은 방법! 1) tab을 ,로 변경하는 방법 $ sed 's/\t/,/g' inputfile > outputfile 2) ,를 tab으로 변경하는 방법 $ sed 's/,/\t/g' inputfile > outputfile $ sed 's/::/,/g' ratings.dat > ratings.csv 참고 https://stackoverflow.com/questions/3509332/how-to-convert-a-tab-separated-file-into-comma-separated-file

Programming/Shell 2018.10.20

[Shell] 데이터 특정 퍼센트로 나누는 방법

데이터를 특정 퍼센트로 나누는 방법 하나의 큰 데이터를 특정 퍼센트 만큼 샘플링을 하거나, train/test 데이터셋으로 나누고 싶은 경우가 있는데, 이때 사용하면 좋다. 1) split 70% based on lines split -l $[ $(wc -l filename|cut -d" " -f1) * 70 / 100 ] filename 2) split 70% based on bytes split -b $[ $(wc -c filename|cut -d" " -f1) * 70 / 100 ] filename 참고 https://unix.stackexchange.com/questions/10219/split-how-to-split-into-different-percentages

Programming/Shell 2018.10.20

[MachineLearning] libFM 사용 방법

FM? Factorization Machines (FM)은 feature engineering 하는데 사용되는 generic approach large domain에서의 categorical variables 사이에 interaction을 estimating하는데 사용된다. libFM stochastic gradient descent (SGD), alternating least squares (ALS) optimization: 설치 latest release를 다운로드 받자 $ wget http://www.libfm.org/libfm-1.42.src.tar.gz $ tar xvf libfm-1.42.src.tar.gz 메뉴얼 http://www.libfm.org/libfm-1.42.manual.pdf 데..

MachineLearning 2018.10.20

[Mac] Mounty를 이용해서 NTFS 형식의 외장하드 읽고쓰기

외장하드가 읽기만 가능할때, 외장하드가 쓰기가 불가능? 삼성 외장하드 P3을 사용하고 있는데, macOS에서 read-only라는 ...? 폴더도 생성을 할 수 없었다 문제 해결을 위해서 별도의 추가 앱이 필요하다. (다른 사람들은 극단적으로 포매을 해야 한다고... 따라하지마셔요) Mounty는 윈도우에서 NTFS로 포맷된 외장하드를 읽기/쓰기를 지원 가능하도록 해준다. 다운로드 http://enjoygineering.com/mounty/# 다운을 받고 설치하면, 추후에 외장하드가 mount가 되면 읽으시겠냐고 물어보면 '응'이라고 눌러주면 끝 그리고 위쪽에 Mounty의 아이콘을 통해서 Finderd에서 오픈이 가능하다. 하지만 여기서 Finder에서가 아닌 다른곳에서 열기 위해서 경로를 찾으면 Mo..

Mac 2018.10.20

[DevEnv] Tmux 여러 터미널에 동시에 입력하기 sync

Tmux에서 동시에 여러 Pane에 동일한 값을 입력하는 방법 동일한 서버에 동일한 작업을 반복해서 진행해야 할 때가 있다. 이럴때 사용하면 좋은게 tmux에 있는 synchronize의 기능이다. 각각의 pane을 키고 sync를 on/off 하면서 작업을 하면 반복잡업을 피할 수 있다. :setw synchronize-panes :setw synchronize-panes off 참고 https://sanctum.geek.nz/arabesque/sync-tmux-panes/

DevEnv 2018.10.20

[DevEnv] kubernetes

Kubernetes open-source features automatic binpacking horizontal scaling automated rollouts and rollbacks self-healing service discovery and load balancing secret and configuration management storage orchestration batch execution Kubernetes features 멀티플 호스트 전체에서 컨테이너를 오케스트레이션 하드웨어를 더 효과적으로 활용하여 엔터프라이즈 애플리케이션을 실행하는 데 필요한 리소스를 극대화 애플리케이션 배포 및 업데이트를 제어하고 자동화 스토리지를 장착 및 추가해 스테이트풀(stateful) 애플리케이션을 실행..

DevEnv 2018.10.20

[Paper] Neural Factorization Machines for Sparse Predictive Analytics

Neural Factorization Machines for Sparse Predictive Analytics Abstract web applications의 predictive tasks는 categorical variables을 modeling하는게 필요하다. categorical data user IDs demographics genders occupations standard machine learning에서는 binary features의 set으로 변환을 했다 (one-hot encoding). 결과적으로 feature vector는 highly sparse한 결과물이 생긴다. 이러한 sparse data를 효과적으로 학습하기 위해서는 features 사이에 interactions를 설명하는게..

Programming/Python 2018.10.20

[Python] Jupyter Notebook에서 Slack 메시지 보내기

쥬피터(Jupyter) Notebook에서 Slack 메시지를 보내는 방법 데이터 분석일을 하다보니 작업을 돌려놓고, 다른 업무를 보는 일이 많다. 여러개를 병렬적으로 돌려야 하다보니, 언제 어떤 작업이 완료했는지 알람을 받는게 필요했다. 일단 단계는 4단계로 크게 나누어 봤다. sendlogto_slack 의 python 코드 작성 sendlogto_slack을 bashrc에 alias로 지정 ipython에서 alias를 추가하는 부분 코드 작성 및 startup 스크립트 작성 ipython에서 alias로 메시지보내기 사용 sendlogto_slack 파이썬 코드 작성하기 bashrc에 alias로 등록 bashrc에 아래 코드 추가 alias msg="python send_log_to_slack...

Programming/Python 2018.10.20
반응형