- 세상의 모든 계산기 수학, 과학, 공학 이야기 확률통계
[통계] 왜도 SKEWNESS, 첨도 KURTOSIS
왜도(skewness)와 첨도(kurtosis)는 통계학에서 데이터 분포의 형태를 설명하는 두 가지 중요한 척도입니다. 각각의 개념을 자세히 설명하면 다음과 같습니다:
1. 왜도 (Skewness)
왜도는 데이터 분포의 비대칭성을 나타내는 척도입니다. 왜도의 값은 데이터가 평균을 중심으로 얼마나 비대칭적으로 분포되어 있는지를 나타냅니다. 왜도의 종류는 다음과 같습니다:
- 양의 왜도 (Positive Skewness): 분포의 오른쪽 꼬리가 더 긴 경우입니다. 이 경우 데이터의 대부분이 평균보다 작은 값에 몰려 있으며, 평균보다 큰 값들이 일부 존재하게 됩니다. 양의 왜도의 값은 0보다 큽니다.
- 음의 왜도 (Negative Skewness): 분포의 왼쪽 꼬리가 더 긴 경우입니다. 이 경우 데이터의 대부분이 평균보다 큰 값에 몰려 있으며, 평균보다 작은 값들이 일부 존재하게 됩니다. 음의 왜도의 값은 0보다 작습니다.
- 대칭 (Symmetry): 분포가 좌우 대칭인 경우 왜도의 값은 0입니다. 이때, 평균, 중앙값, 최빈값이 거의 일치합니다.
왜도의 공식은 다음과 같습니다:
\[ \text{왜도} = \frac{E[(X - \mu)^3]}{\sigma^3} \]
여기서 \( E \)는 기대값, \( X \)는 변수, \( \mu \)는 평균, \( \sigma \)는 표준편차입니다.
### 2. 첨도 (Kurtosis)
첨도는 데이터 분포의 꼬리가 얼마나 두꺼운지 또는 뾰족한지를 나타내는 척도입니다. 첨도는 분포의 중심부와 꼬리 부분에서의 데이터 밀도를 설명하는데 유용합니다. 첨도의 종류는 다음과 같습니다:
- 정규분포 (Mesokurtic): 정규분포와 같은 형태로, 첨도의 값이 0입니다. 보통 첨도가 3인 경우를 정규분포로 간주합니다.
- 뾰족한 분포 (Leptokurtic): 중심부가 더 뾰족하고 꼬리가 두꺼운 분포로, 첨도의 값이 0보다 큽니다. 이 경우 극단적인 값들이 더 자주 나타납니다.
- 평평한 분포 (Platykurtic): 중심부가 평평하고 꼬리가 얇은 분포로, 첨도의 값이 0보다 작습니다. 이 경우 극단적인 값들이 덜 자주 나타납니다.
첨도의 공식은 다음과 같습니다:
\[ \text{첨도} = \frac{E[(X - \mu)^4]}{\sigma^4} - 3 \]
여기서 \( E \)는 기대값, \( X \)는 변수, \( \mu \)는 평균, \( \sigma \)는 표준편차입니다. 여기서 3을 빼는 이유는 정규분포의 첨도가 3이기 때문에 이를 기준으로 비교하기 위해서입니다.
요약
- 왜도 (Skewness): 데이터 분포의 비대칭성을 나타냄. 양의 왜도는 오른쪽 꼬리가 길고, 음의 왜도는 왼쪽 꼬리가 긴 분포.
- 첨도 (Kurtosis): 데이터 분포의 꼬리와 중심부의 두께를 나타냄. 정규분포는 첨도가 0이며, 뾰족한 분포는 첨도가 양수, 평평한 분포는 첨도가 음수.
이 두 척도는 데이터를 분석하고 이해하는 데 중요한 역할을 하며, 특히 이상치 탐지나 데이터의 특성을 이해하는 데 유용합니다.
관련 자료
http://www.hanbit.co.kr/preview/4122/sample.pdf
ㄴ 이공계생을 위한 확률과 통계 preview
왜도
https://ko.wikipedia.org/wiki/%EB%B9%84%EB%8C%80%EC%B9%AD%EB%8F%84
첨도
https://ko.wikipedia.org/wiki/%EC%B2%A8%EB%8F%84
예제)
이공계생을 위한 확률과 통계 preview (챕터1, 53Page)
리스트 = {1, 3, 2, 0, 1, 1, 2, 3, 2, 4, 3}
왜도 = 0
첨도 ≒ 1.9388