Boost Model
Recap
지난주에는 앙상블(ensemble) 모델중 하나인 Random Forest 모델을 배웠다
Random Forest 모델은 우리가 학습하고자 하는 데이터 셋에서, 무작위의 특성을 가지고 Weak leaner/작은 나무를 많이 만들어 많은 모델을 만들고
그 모델들의 결과를 aggregate/취합/평균/집계하여 우리가 이해할수있는 수치로 만들어 주는 방법이다.

Random Forest Model에서 만들어진, weak learner들은 어떠한 순서로 만들어졌는지, 어떤 특성을 사용해서 만들어졌는지는 모델에 큰 영향을 미치지 않는다.
Boosting Model
Boosting Model은 Random Forest와 같이 여러 weak learner/작은 나무를 많이 많드는 모델인것은 맞지만 Random Forest와는 다르게 weak learner들dml 만들어진 순서가 중요하다.
Weak Learner가 만들어진 순서가 중요하다는 말은…
첫번째로 만들어진 weak learner는 두번째로 만들어질 weak learner에 영향을 주고, 세번째로 만들어질 weak learner는, 두번째 만들어진 weak learner로 부터 영향을 받아 만들어 진다는것이다.
아래의 그림을 예로 들어 설명하겠다.

윗줄의 상자는 왼쪽으로 부터 Box1, Box2, Box3이고
아랫줄에 위치한 상자 Box4는 윗줄에 있는 Box1, Box2, 그리고 Box3의 모델을 결과를 토대로 만들어진 모델이다.
각 상자에서 파란 부분은 양수로 분류한 부분이고 , 빨간 부분은 음수로 분류한부분이다.
1. Box 1을 보면, D1(분류기)를 따라 나눈 빨간색/음수로 분류 되어야 할 곳에 양수가 포함되어있다.
양수라고 분류된 부분은 2/2 확률 (100%)
음수라고 분류된 부분은 5/8 확률 (62.5%)
1–1. Box 1에서 잘못 분유된 양수들에게 가중치를 준다 (Box 2에서 +표시가 더 커져 있다)
2. Box 2, D2(분류기)를 따라 양수 음수를 분류 했을때…
양수로 분류 된 부분은 4/7 확률 (57.15%)
음수로 분류 된 부분은 2/2 확률 (100%)
2–1. Box 2에서 양수 분류 부분에 포함된 음수 들에게 가중치를 주어 다음엔 분류가 더 잘 되게 한다 (Box 3에서 크게 표시됨)
3. Box 3에서 D3(분류기)를 기준으로 양수와 음수를 나누었을떄…
양수로 분류 된 부분은 3/4 확률 (75%)
음수로 분류 된 부분은 4/6 확률 (66.6%)
3–1. 분류가 잘 안된 값에 가중치를 준다.
4. 모든 분류기들의 결과를 결합/취합하여 최종 예측을 시행.
제대로 분류가 된 Box 4가 나온다. BAAM!
이처럼 Boosting Model은 만들어질 weak learner가 이전에 만들어진 weak learner의 영향을 받는다.
각각의 Boosting 알고리즘 마다, 가중치가 달라서, 내가 사용하는 데이터에 잘 맞는 Boosting 알고리즘을 잘 활용하는것도 중요하다.
이에 관련해서는 다음 블로깅에 적도록 하겠다.