단순한 데이터에 최소제곱 적합을 적용할 때 왜 편향이 있는 것처럼 보이는가

1 month ago 10

  • 선형 최소제곱 회귀선이 단순한 테스트 데이터에서 실제보다 기울어져 보이는 이유는 데이터 생성 과정의 특성 때문임
  • 회귀모형은 오차항이 X와 독립이라는 가정하에 ( Y = \beta_0 + \beta_1 X + \varepsilon ) 형태를 따름
  • 오차 분산이 커질수록 데이터의 분산이 수직 방향으로 커지며, PCA의 주성분 방향이 점점 수직에 가까워짐
  • 반대로 X의 분산이 오차보다 훨씬 클 때, PCA와 OLS 회귀선이 거의 일치함
  • 이러한 차이는 PCA와 OLS가 서로 다른 목적(분산 최대화 vs. 오차 최소화) 을 가지기 때문이며, 데이터의 분포 형태에 따라 시각적으로 다른 결과를 보임

회귀모형과 데이터 생성 과정

  • 단순 OLS(최소제곱법)는 ( Y = \beta_0 + \beta_1 X + \varepsilon ) 형태로, X와 오차항 (\varepsilon) 이 독립이라는 가정을 전제로 함
  • 오차항이 0일 때 모든 점이 회귀선 위에 위치하며, PCA의 주성분 방향은 회귀선과 동일함
  • 오차를 추가하면 분산이 수직 방향으로 증가하고, PCA는 이 분산을 반영해 기울기가 더 가파른 방향을 주성분으로 선택함

오차 분산이 지배적인 경우

  • ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ) 관계에서
    ( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) )이면 대부분의 변동이 수직 방향에 집중됨
  • 이때 PCA의 주성분 방향이 거의 수직에 가까워짐, 즉 회귀선보다 더 가파르게 보임
  • 반대로 ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) )이면 PCA와 OLS가 거의 일치함

공분산 타원과 분포 형태

  • 공분산 타원(covariance ellipse) 은 ( (X, Y) )가 공동정규분포일 때만 데이터의 형태를 잘 나타냄
  • X의 분포가 이항, 균등, 이봉(bimodal), 삼각형 등으로 달라질 경우에도
    X의 분산이 크면 PCA와 회귀선이 일치하고, 오차가 크면 PCA가 수직 방향으로 이동함
  • 타원은 데이터의 방향성을 나타내지만, 밀도나 실제 분포 형태를 정확히 표현하지 않음

X의 성격과 모델링 고려사항

  • 코드에서 make_y_from_x 함수는 OLS 가정에 맞게 Y를 X의 선형함수와 IID 가우시안 잡음으로 생성함
  • X는 반드시 확률변수일 필요가 없으며, 실험 설계에 따라 고정된 값일 수도 있음
  • 공분산 타원은 X와 Y를 대칭적으로 다루지만, 실제 데이터 생성 과정은 비대칭적

핵심 요약

  • ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA와 OLS가 일치
  • ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA가 수직 방향으로 이동
  • X는 반드시 확률변수일 필요가 없으며, 정규분포를 따를 필요도 없음
  • PCA는 분산의 방향, OLS는 예측 오차 최소화에 초점을 두므로 결과가 다르게 나타남

Read Entire Article