- 세상의 모든 계산기 수학, 과학, 공학 이야기 확률통계 ()
[통계] 왜도 SKEWNESS, 첨도 KURTOSIS
왜도(skewness)와 첨도(kurtosis)는 통계학에서 데이터 분포의 형태를 설명하는 두 가지 중요한 척도입니다. 각각의 개념을 자세히 설명하면 다음과 같습니다:
1. 왜도 (Skewness)
왜도는 데이터 분포의 비대칭성을 나타내는 척도입니다. 왜도의 값은 데이터가 평균을 중심으로 얼마나 비대칭적으로 분포되어 있는지를 나타냅니다. 왜도의 종류는 다음과 같습니다:
- 양의 왜도 (Positive Skewness): 분포의 오른쪽 꼬리가 더 긴 경우입니다. 이 경우 데이터의 대부분이 평균보다 작은 값에 몰려 있으며, 평균보다 큰 값들이 일부 존재하게 됩니다. 양의 왜도의 값은 0보다 큽니다.
- 음의 왜도 (Negative Skewness): 분포의 왼쪽 꼬리가 더 긴 경우입니다. 이 경우 데이터의 대부분이 평균보다 큰 값에 몰려 있으며, 평균보다 작은 값들이 일부 존재하게 됩니다. 음의 왜도의 값은 0보다 작습니다.
- 대칭 (Symmetry): 분포가 좌우 대칭인 경우 왜도의 값은 0입니다. 이때, 평균, 중앙값, 최빈값이 거의 일치합니다.
왜도의 공식은 다음과 같습니다:
\[ \text{왜도} = \frac{E[(X - \mu)^3]}{\sigma^3} \]
여기서 \( E \)는 기대값, \( X \)는 변수, \( \mu \)는 평균, \( \sigma \)는 표준편차입니다.
### 2. 첨도 (Kurtosis)
첨도는 데이터 분포의 꼬리가 얼마나 두꺼운지 또는 뾰족한지를 나타내는 척도입니다. 첨도는 분포의 중심부와 꼬리 부분에서의 데이터 밀도를 설명하는데 유용합니다. 첨도의 종류는 다음과 같습니다:
- 정규분포 (Mesokurtic): 정규분포와 같은 형태로, 첨도의 값이 0입니다. 보통 첨도가 3인 경우를 정규분포로 간주합니다.
- 뾰족한 분포 (Leptokurtic): 중심부가 더 뾰족하고 꼬리가 두꺼운 분포로, 첨도의 값이 0보다 큽니다. 이 경우 극단적인 값들이 더 자주 나타납니다.
- 평평한 분포 (Platykurtic): 중심부가 평평하고 꼬리가 얇은 분포로, 첨도의 값이 0보다 작습니다. 이 경우 극단적인 값들이 덜 자주 나타납니다.
첨도의 공식은 다음과 같습니다:
\[ \text{첨도} = \frac{E[(X - \mu)^4]}{\sigma^4} - 3 \]
여기서 \( E \)는 기대값, \( X \)는 변수, \( \mu \)는 평균, \( \sigma \)는 표준편차입니다. 여기서 3을 빼는 이유는 정규분포의 첨도가 3이기 때문에 이를 기준으로 비교하기 위해서입니다.
요약
- 왜도 (Skewness): 데이터 분포의 비대칭성을 나타냄. 양의 왜도는 오른쪽 꼬리가 길고, 음의 왜도는 왼쪽 꼬리가 긴 분포.
- 첨도 (Kurtosis): 데이터 분포의 꼬리와 중심부의 두께를 나타냄. 정규분포는 첨도가 0이며, 뾰족한 분포는 첨도가 양수, 평평한 분포는 첨도가 음수.
이 두 척도는 데이터를 분석하고 이해하는 데 중요한 역할을 하며, 특히 이상치 탐지나 데이터의 특성을 이해하는 데 유용합니다.
관련 자료
http://www.hanbit.co.kr/preview/4122/sample.pdf
ㄴ 이공계생을 위한 확률과 통계 preview
왜도
https://ko.wikipedia.org/wiki/%EB%B9%84%EB%8C%80%EC%B9%AD%EB%8F%84
첨도
https://ko.wikipedia.org/wiki/%EC%B2%A8%EB%8F%84
세상의모든계산기 님의 최근 댓글
낮에 TV에서 영화 '말모이' 해주더라구요. 그래서 한번 물어 봤습니다. 2025 10.10 마지막 발언이 마지막 힌트이자 문제의 핵심이군요. 처음 들은 달이 8월이었다면 (15일인지 17일인지 확신할 수 없어서) 마지막 대사를 할 수 없지만, 처음 들은 달이 7월이었다면 (선택지가 16일 하나라서 확신이 가능하므로) 마지막 대사를 할 수 있다. 대사를 했으니 7월이다. 이제 이해되었습니다. 지금 보니까 이해가 되는데, 당시에는 왜 이해가 안됐을까요? 세가지 전제 하에 문제를 풀면 A는 마지막 대화 2줄만으로 C의 생일을 알 수 없어야 정상인데, 무슨 이유에서인지 "그럼 나도 앎!"이라고 선언해 버립니다. 알게 된 이유를 대화 속에서 찾을 수는 없습니다. 이 편견에 사로잡혀 빠져나오지 못하고 다른 길로 계속 샜나봅니다. 2025 10.09 (장*훈)님 (+10,000원) 계좌 후원(2025/10/09) 감사 드립니다. 2025 10.09 원래 식이 풀어진 상태에서는 두번째 인수 v가 분모, 분자에 섞여 있어서 계산기가 처리하지 못하는 듯 합니다. 이 때는 위에서와 반대로 분모 부분만 다른 문자(w)로 치환한 다음 completesquare(,v^2) 처리를 하면 일부분은 묶이는 듯 합니다. 하지만 여기서 처음 모양으로 더 이상 진행되진 않네요. 2025 10.08 전체 식에서 일부분(분모, 루트 내부)만 적용할 수는 없습니다. 번거롭더라도 해당 부분만 따로 끄집어 내서 적용하셔야 합니다. https://allcalc.org/30694#comment_30704 2025 10.08