반응형

MachineLearning 9

[MachineLearning] libFM 사용 방법

FM? Factorization Machines (FM)은 feature engineering 하는데 사용되는 generic approach large domain에서의 categorical variables 사이에 interaction을 estimating하는데 사용된다. libFM stochastic gradient descent (SGD), alternating least squares (ALS) optimization: 설치 latest release를 다운로드 받자 $ wget http://www.libfm.org/libfm-1.42.src.tar.gz $ tar xvf libfm-1.42.src.tar.gz 메뉴얼 http://www.libfm.org/libfm-1.42.manual.pdf 데..

MachineLearning 2018.10.20 (2)

[MachineLearning] libFM 사용 방법

FM? Factorization Machines (FM)은 feature engineering 하는데 사용되는 generic approach large domain에서의 categorical variables 사이에 interaction을 estimating하는데 사용된다. libFM stochastic gradient descent (SGD), alternating least squares (ALS) optimization: 설치 latest release를 다운로드 받자 $ wget http://www.libfm.org/libfm-1.42.src.tar.gz $ tar xvf libfm-1.42.src.tar.gz 메뉴얼 http://www.libfm.org/libfm-1.42.manual.pdf 데..

MachineLearning 2018.03.18

[Paper] Neural Factorization Machines for Sparse Predictive Analytics

Neural Factorization Machines for Sparse Predictive Analytics Abstract web applications의 predictive tasks는 categorical variables을 modeling하는게 필요하다. categorical data user IDs demographics genders occupations standard machine learning에서는 binary features의 set으로 변환을 했다 (one-hot encoding). 결과적으로 feature vector는 highly sparse한 결과물이 생긴다. 이러한 sparse data를 효과적으로 학습하기 위해서는 features 사이에 interactions를 설명하는게..

MachineLearning 2018.03.18

RNN(Recursive Neural Networks)

RNN Recursive Neural Networks RNN 구조 자연어처리 분야에서 각광받고 있는 모델, 음석 문자 등 순차적 데이터 처리에 강점 Recurrent VS Convolutional VS Recursive Recurrent Neural Networks 입력값을 순서대로 받아 하나씩 순차적으로 처리하는 네트워크. CNN 입력값을 생략없이 모두 반영한다는 점에서는 Recurrent Neural Networks와는 차이가 없다. filter(2)를 이용해 2개의 단어씩 한번에 분석하고 있는 것을 알 수 있다 filter의 크기로 한칸씩 슬라이딩하면서 문장을 단어 두개씩 읽어들여 분석하는 구조 문장의 지역적인 정보를 반영한다는 점 Recursive Neural Networks 입력값으로 주어지는 ..

MachineLearning 2017.12.10

RNN(Recurrent Nueral Networks)

RNN RNN은 Recurrent Neural Networks와 더불어 자연어처리 분야에서 각광받고 있는 모델. Recursive, Recurrent Neural Neworks 두 모델은 음성, 문자 등 순차적 데이터 처리에 강점을 지니고 있음 이름이 유사하지만, 조금은 차이가 있다. Recurrent Nueral Networks RNN의 기본 구조 RNN은 히든 노드가 방향을 가진 엣지로 연결돼 순환구조를 이루는(directed cycle) 인공신경망의 한 종류 시퀀스 길이에 관계없이 인풋과 아웃풋을 받아들일 수 있는 네트워크 구조 > 다양하고 유연하게 구조를 만들 수 있다는 점 RNN 큰 특징 ht는 직전 시점의 히든 state h(t-1)를 받아 갱신 hidden state의 activation f..

MachineLearning 2017.12.10

XGBoost parameters

Complte Guide to Parameter Tuning in XGBoost (with codes in Python) Introduction XGBoost는 highly sophisticated algorithm. irregularities of data를 처리하는데 강력한 알고리즘이다. XGBooster model을 building 하는 과정은 쉽다. 하지만 성능을 향상시키는건 쉽지 않다. 이 알고리즘은 multiple paramters를 사용해서 model을 향상시킨다. 그렇기 때문에 paramter tuning은 필수 작업이다. 그렇다면 어떻게 파라미터를 tuning해야 할까? 파라미터중에서 어떤 파라미터가 optimal ouput일까? 아래 내용은 parameter tuning하는 방법에 대해..

MachineLearning 2017.08.27

Imbalanced data를 처리하는 기술 7가지

7 Techniques to Handle Imbalanced Data intrusion detection real-time bidding Introduction fraud detection in banking real-time bidding in marekting intrusion detection in networks 위 분야에서는 1%보다 낮게 interesting의 events가 포함되어 있다. (예를 들면 fraudsters using credit cards, clicking advertisement, corrupted server scanning its network) 그러나 머신러닝 알고리즘에서는 imbalanced datasets에 대해서 처리를 잘 하지 못한다. 아래 7개의 techniqu..

MachineLearning 2017.08.27

Class imbalanced problem - 데이터 비대칭 문제 (oversampling, undersampling)

Class imbalance problem imbalance problem Class Imbalance Problem이 무엇인가 데이터에서 각 클래스의 개수가 현저하게 차이가 나는 문제를 말한다. 이 문제는 실제로 여러 학문에서 나타나는데 그 중에는 fraud detection, anomaly detection, medical diagnosis, oil spillage detection, facial recognition 등에서 나타난다. 무엇인 문제인가 머신 러닝 알고리즘은 각 클래스들의 개수가 거의 비슷한 경우에 가장 좋은 결과를 보여준다. 하나의 클래스의 개수가 다른 클래스보다 많게 되면 아래와 같은 문제가 발생한다. transaction data의 데이터셋이 주어졌을때, fraudulent(사기를..

MachineLearning 2017.08.27

[머신러닝] Machine Learning?

Machine Learning? 머신러닝에 대한 정의는 두가지가 있는데, 오래전에 Arthur Samuel의 정의는 'the field of study that gives computers the ability to learn without being explicitly prgrammed'. 하지만 현재는 Tom Mitchell의 정의를 따르고 있습니다. "A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E..

MachineLearning 2016.07.08
반응형