데이터 분석 - 회귀 계수 축소 모델

* 일반적으로 변수가 많을수록 회귀 모델의 학습 데이터에 대한 성능은 높아지고, 학습하지 않은 데이터에 대한 성능은 낮아짐.
변수가 많아지면 변수의 해석력도 낮아짐. -> 회귀모델이 지니고 있는 학습의 특성때문임.
종속 변수를 설명하는 독립 변수의 설명력이 있을 때 각각의 독립 변수가 지니고 있는 이 설명력을 중복으로 가져가ㅣ는 못함.

예를들어, 키와 발의 크기를 이용해 몸무게를 예측한다고 했을 때, '키'라는 변수가 지니고 있는 설명력과 '발'이라는 변수가 지니고 있는 설명력이 겹치는 부분이 있을텐데, 이에 대해 각각의 변수가 중복으로 가져가지 못함.

그러면 키나 몸무게 하나만 적합시켰을 때, 그 변수의 영향력 보다 적게 나오게 됩니다. 이러한 문제 때문에 적절한 변수만 선택해 사용하는 것이 중요함.

이러한 문제를 완화시켜주는 방법이 회귀 계수 축소 모델Shiringkage Regression Model인데, MSE를 최소화 시키는 것과 더불어 회귀 계수 자체도 축소시키도록 Loss를 구성함.

회귀계수 축소 모델은 크게 라쏘, 릿지, 엘라스틱넷이 있고,
Lasso는 회귀계수가 완전히 0이 되도록 축소시킬 수 있다는 특성이 있고,
릿지는 회귀계수가 0으로 가까워지기는 하지만 완전히 0이 되지 않는다는 특성이 있음.
변수를 선택할 수 있다는 특성을 고려했을 때 Lasso가 우위에 있지만, 성능면에서는 릿지가 좀 더 우위에 있음.
엘라스틱 넷은 라쏘 릿지의 중간 모델임.

저작자표시 비영리 변경금지 (새창열림)

'python & DS' 카테고리의 다른 글

시험 DP-900: Microsoft Azure (0)	2024.03.16
python 실행시간 측정 및 디버깅 (0)	2024.01.09
RandomForestClassifier (1)	2023.11.18
pandas AI (0)	2023.11.18
make_column_transformer, make_column_selector (0)	2023.11.08

development note

데이터 분석 - 회귀 계수 축소 모델

'python & DS' 카테고리의 다른 글

티스토리툴바

데이터 분석 - 회귀 계수 축소 모델

'python & DS' 카테고리의 다른 글

'python & DS' Related Articles

티스토리툴바