본문 바로가기

카테고리 없음

statistics

반응형


1. 다중회귀분석의 변수 중요도는 회귀계수가 아니라 t의 절대값으로 판단해야됨

종속변수를 체중, 독립변수를 목, 허리, 엉덩이, 팔뚝, 손목 둘레로 하여 직원들의 체중을 예측하는 모델
Coef, Std error, t, P>|t|, [0.025 0.975] 와 같은 table 작성

해설:  체중을 줄이려면 어느 변수를 가장 잘 관리해야 하는가?
변수의 중요도가 무엇인지?

회귀계수(coef: coefficient)
다른 변수는 고정시키고 어떤 독립변수를 1단위 증감했을 때, 종속변수가 얼마나 변하는가를 의미함.

문제:

1) 단위가 다르면 동등비교가 되나?
2) 변수마다 회귀계수 산포(std err)이 다른데, 고려되어야함

회귀계수를 표준화하기. (t) 

t(stat)= b1-B1 / S b1

b1=모델의 회귀계수 (coef)
B1=귀무가설의 회귀계수 즉 0 
Sb1= 회귀계수의 표준오차(std err)
|t|의 절대값으로 중요도를 평가함

다중공선성: 독립변수들간에 서로 상관성이 존재하면 안좋은데, 존재하는 경우
회귀계수의 표준오차가 팽창을 하게 됨. t(stat)통계랑 값은 줄어들고, 편차가 줄어들면 t(stat)이 올라감.
그래서 t의 절대값을 사용함 

smf.ols(formula=~~, data)의 결과 테이블을 excel로 옮기고, Intercept를 제외한 t값의 절대값을 새 컬럼에 구하고, 이들의 합을 구한다. 

중요도 셀, 컬럼을 추가하여 T절대 값들을 다시 또 합계로 나눈 값들을 저장한다. (퍼센테이지 구하기)

회귀계수 값만으로 중요도를 판단하면 안될 때, 중요도를 구함

 

2. CV, Coefficient of variation 변동계수

단위가 다른, 평균이 다른,
그룹 간 변동 비교하는 계수

S: 표본 표준편차
|X: 표본평균 이라 하면

표본집단sample, 변동계수CV는 S/X 표본 표준편차/표본 표준편차
표준편차는 평균에서 변동을 보기 위한 절대적 지표로 단위가 있고,
변동계수는 상대적인 변동 보기위한 지표로 단위가 없음

농구공이나 야구공의 제조사나 브랜드마다 다른 크기일때,
농구공 집단의 변동과 야구공 집단의 변동을 구하는 것으로, 

농구공 Sample 지름 크기가 24.2 / 24.3/ 24.7 일 때, S=0.26, X=24.4, CV= 0.01
야구공 Sample 지름 크기가 71.5 / 72.3/ 72.1 일 때 S=0.41 X=71.9 CV = 0.005

반응형