Random Forest 간략 정리

김진짜 2023. 8. 20. 22:18

랜덤포레스트는 앙상블 러닝의 한 버전입니다. 그러면 앙상블러닝이란?

기존의 것보다 더욱 강력한 것을 만들기 위해 "여러 개의 같은 알고리즘"을 합치고 이를 취합해서 최적의 결과값을 찾아내는 것을 의미하죠

랜덤 포레스트를 간단히 말하면, 훈련을 통해 여러개의 나무를 만들고, 이들의 분류 결과를 취합해서 결론을 얻는 방식입니다.

(일종의 인기투표)

하나의 나무의 결과값을 받는 것이 아닌, 다수의 나무의 결과값을 받고 이를 취합한다는 점, 즉 나무가 아닌 Forest 숲을 보자!

하나의 나무에서 Overfitting이 이루어질지라도, 다수의 나무로부터 보정받을 수 있으므로, 나무 하나하나, 데이터 하나하나의 영향력이 줄어들고 안정적인 알고리즘이 될 거야!

이러한 특징을 가지는게 랜덤 포레스트입니다.

여기서 배깅을 하는 이유는 데이터셋의 분산을 줄이면서, Overfitting을 방지하는 것에 있습니다. 데이터셋의 분산이 줄어들면, 데이터 간의 차이가 줄어들고 균등해지면서, 일반화 성능이 높아지게 되는 것을 응용한 셈이죠.

3. Parameter 정리