- 세상의 모든 계산기 수학, 과학, 공학 이야기 수학
공분산 & 상관계수 예시
DATA 출처 : http://blog.naver.com/leerider/100189040284
1. DATA
x | y |
---|---|
1 | 11 |
2 | 12 |
3 | 13 |
4 | 14 |
5 | 15 |
2. 모 분석
x | y | |
---|---|---|
평균 | 3 | 13 |
분산 | 2 | 2 |
표준편차 | 1.414... | 1.414... |
(x,y) 공분산 = 2
(x,y) 상관계수 = 2 / (1.414×1.414) = 1
3. 표본 분석
x | y | |
---|---|---|
평균 | ||
(표본) 분산 | 2.5 | 2.5 |
(표본) 표준편차 | sqrt(2.5) | sqrt(2.5) |
(x,y) 표본 공분산 = 2.5
(x,y) 표본 상관계수 = 2.5 / (sqrt(2.5)*sqrt(2.5)) = 1
상관계수 vs 결정계수
상관계수와 결정계수는 모두 데이터 간 관계를 설명하는 중요한 통계적 지표이지만, 그 의미와 계산 방식, 해석에 차이가 있습니다.
1. 상관계수 (Correlation Coefficient, \( r \))
- 의미: 두 변수 간의 선형 관계의 강도와 방향을 나타내는 값입니다.
- 범위: -1에서 +1 사이의 값을 가집니다.
- +1에 가까울수록 두 변수는 강한 양의 선형 관계를 가지고, -1에 가까울수록 강한 음의 선형 관계를 가집니다.
- 0에 가까울수록 관계가 약하다는 의미입니다.
- 해석: 예를 들어, 상관계수 \( r = 0.8 \)이라면 두 변수는 강한 양의 선형 관계가 있다고 볼 수 있습니다.
2. 결정계수 (Coefficient of Determination, \( R^2 \))
- 의미: 회귀분석에서 종속변수의 변동 중에서 설명변수가 설명할 수 있는 비율을 나타냅니다.
- 범위: 0에서 1 사이의 값을 가집니다.
- 1에 가까울수록 회귀 모델이 데이터를 잘 설명하고 있다는 뜻입니다.
- 0에 가까울수록 설명력이 낮다는 의미입니다.
- 해석: 예를 들어 \( R^2 = 0.64 \)라면, 회귀 모델이 종속변수의 변동성 중 64%를 설명한다고 해석할 수 있습니다.
주요 차이점
- 용도: 상관계수는 두 변수 간 선형 관계의 강도를 파악하는 데 사용되며, 결정계수는 회귀 모델의 설명력을 평가하는 데 사용됩니다.
- 계산: 상관계수 \( r \)을 제곱하면 결정계수 \( R^2 \)이 나오므로 \( R^2 = r^2 \) 관계가 성립합니다.
기타 참고 : https://adnoctum.tistory.com/188