-
선형 최소제곱 회귀선이 단순한 테스트 데이터에서 실제보다 기울어져 보이는 이유는 데이터 생성 과정의 특성 때문임
- 회귀모형은 오차항이 X와 독립이라는 가정하에 ( Y = \beta_0 + \beta_1 X + \varepsilon ) 형태를 따름
-
오차 분산이 커질수록 데이터의 분산이 수직 방향으로 커지며, PCA의 주성분 방향이 점점 수직에 가까워짐
- 반대로 X의 분산이 오차보다 훨씬 클 때, PCA와 OLS 회귀선이 거의 일치함
- 이러한 차이는 PCA와 OLS가 서로 다른 목적(분산 최대화 vs. 오차 최소화) 을 가지기 때문이며, 데이터의 분포 형태에 따라 시각적으로 다른 결과를 보임
회귀모형과 데이터 생성 과정
- 단순 OLS(최소제곱법)는 ( Y = \beta_0 + \beta_1 X + \varepsilon ) 형태로, X와 오차항 (\varepsilon) 이 독립이라는 가정을 전제로 함
- 오차항이 0일 때 모든 점이 회귀선 위에 위치하며, PCA의 주성분 방향은 회귀선과 동일함
- 오차를 추가하면 분산이 수직 방향으로 증가하고, PCA는 이 분산을 반영해 기울기가 더 가파른 방향을 주성분으로 선택함
오차 분산이 지배적인 경우
- ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ) 관계에서
( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) )이면 대부분의 변동이 수직 방향에 집중됨
- 이때 PCA의 주성분 방향이 거의 수직에 가까워짐, 즉 회귀선보다 더 가파르게 보임
- 반대로 ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) )이면 PCA와 OLS가 거의 일치함
공분산 타원과 분포 형태
-
공분산 타원(covariance ellipse) 은 ( (X, Y) )가 공동정규분포일 때만 데이터의 형태를 잘 나타냄
- X의 분포가 이항, 균등, 이봉(bimodal), 삼각형 등으로 달라질 경우에도
X의 분산이 크면 PCA와 회귀선이 일치하고, 오차가 크면 PCA가 수직 방향으로 이동함
- 타원은 데이터의 방향성을 나타내지만, 밀도나 실제 분포 형태를 정확히 표현하지 않음
X의 성격과 모델링 고려사항
- 코드에서 make_y_from_x 함수는 OLS 가정에 맞게 Y를 X의 선형함수와 IID 가우시안 잡음으로 생성함
- X는 반드시 확률변수일 필요가 없으며, 실험 설계에 따라 고정된 값일 수도 있음
- 공분산 타원은 X와 Y를 대칭적으로 다루지만, 실제 데이터 생성 과정은 비대칭적임
핵심 요약
- ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ): PCA와 OLS가 일치
- ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ): PCA가 수직 방향으로 이동
- X는 반드시 확률변수일 필요가 없으며, 정규분포를 따를 필요도 없음
-
PCA는 분산의 방향, OLS는 예측 오차 최소화에 초점을 두므로 결과가 다르게 나타남