- 세상의 모든 계산기 수학, 과학, 공학 이야기 확률통계 ()
[통계] 왜도 SKEWNESS, 첨도 KURTOSIS
왜도(skewness)와 첨도(kurtosis)는 통계학에서 데이터 분포의 형태를 설명하는 두 가지 중요한 척도입니다. 각각의 개념을 자세히 설명하면 다음과 같습니다:

1. 왜도 (Skewness)
왜도는 데이터 분포의 비대칭성을 나타내는 척도입니다. 왜도의 값은 데이터가 평균을 중심으로 얼마나 비대칭적으로 분포되어 있는지를 나타냅니다. 왜도의 종류는 다음과 같습니다:
- 양의 왜도 (Positive Skewness): 분포의 오른쪽 꼬리가 더 긴 경우입니다. 이 경우 데이터의 대부분이 평균보다 작은 값에 몰려 있으며, 평균보다 큰 값들이 일부 존재하게 됩니다. 양의 왜도의 값은 0보다 큽니다.
- 음의 왜도 (Negative Skewness): 분포의 왼쪽 꼬리가 더 긴 경우입니다. 이 경우 데이터의 대부분이 평균보다 큰 값에 몰려 있으며, 평균보다 작은 값들이 일부 존재하게 됩니다. 음의 왜도의 값은 0보다 작습니다.
- 대칭 (Symmetry): 분포가 좌우 대칭인 경우 왜도의 값은 0입니다. 이때, 평균, 중앙값, 최빈값이 거의 일치합니다.
왜도의 공식은 다음과 같습니다:
\[ \text{왜도} = \frac{E[(X - \mu)^3]}{\sigma^3} \]
여기서 \( E \)는 기대값, \( X \)는 변수, \( \mu \)는 평균, \( \sigma \)는 표준편차입니다.
### 2. 첨도 (Kurtosis)
첨도는 데이터 분포의 꼬리가 얼마나 두꺼운지 또는 뾰족한지를 나타내는 척도입니다. 첨도는 분포의 중심부와 꼬리 부분에서의 데이터 밀도를 설명하는데 유용합니다. 첨도의 종류는 다음과 같습니다:
- 정규분포 (Mesokurtic): 정규분포와 같은 형태로, 첨도의 값이 0입니다. 보통 첨도가 3인 경우를 정규분포로 간주합니다.
- 뾰족한 분포 (Leptokurtic): 중심부가 더 뾰족하고 꼬리가 두꺼운 분포로, 첨도의 값이 0보다 큽니다. 이 경우 극단적인 값들이 더 자주 나타납니다.
- 평평한 분포 (Platykurtic): 중심부가 평평하고 꼬리가 얇은 분포로, 첨도의 값이 0보다 작습니다. 이 경우 극단적인 값들이 덜 자주 나타납니다.
첨도의 공식은 다음과 같습니다:
\[ \text{첨도} = \frac{E[(X - \mu)^4]}{\sigma^4} - 3 \]
여기서 \( E \)는 기대값, \( X \)는 변수, \( \mu \)는 평균, \( \sigma \)는 표준편차입니다. 여기서 3을 빼는 이유는 정규분포의 첨도가 3이기 때문에 이를 기준으로 비교하기 위해서입니다.
요약
- 왜도 (Skewness): 데이터 분포의 비대칭성을 나타냄. 양의 왜도는 오른쪽 꼬리가 길고, 음의 왜도는 왼쪽 꼬리가 긴 분포.
- 첨도 (Kurtosis): 데이터 분포의 꼬리와 중심부의 두께를 나타냄. 정규분포는 첨도가 0이며, 뾰족한 분포는 첨도가 양수, 평평한 분포는 첨도가 음수.
이 두 척도는 데이터를 분석하고 이해하는 데 중요한 역할을 하며, 특히 이상치 탐지나 데이터의 특성을 이해하는 데 유용합니다.
관련 자료
http://www.hanbit.co.kr/preview/4122/sample.pdf
ㄴ 이공계생을 위한 확률과 통계 preview
왜도
https://ko.wikipedia.org/wiki/%EB%B9%84%EB%8C%80%EC%B9%AD%EB%8F%84
첨도
https://ko.wikipedia.org/wiki/%EC%B2%A8%EB%8F%84
세상의모든계산기 님의 최근 댓글
V2 갱신 (nonK / K-Type 통합형) 예전에는 직접 코드작성 + AI 보조 하여 프로그램 만들었었는데, 갈수록 복잡해져서 손 놓고 있었습니다. 이번에 antigravity 설치하고, 테스트 겸 새로 V2를 올렸습니다. 직접 코드작성하는 일은 전혀 없었고, 바이브 코딩으로 전체 작성했습니다. "잘 했다 / 틀렸다 / 계산기와 다르다." "어떤 방향에서 코드 수정해 봐라." AI가 실물 계산기 각정 버튼의 작동 방식에 대한 정확한 이해는 없는 상태라서, V1을 바탕으로 여러차례 수정해야 했습니다만, 예전과 비교하면 일취월장 했고, 훨씬 쉬워졌습니다. 2026 02.04 A) 1*3*5*7*9 = 계산 945 B) √ 12번 누름 ㄴ 12회 해도 되고, 14회 해도 되는데, 횟수 기억해야 함. ㄴ 횟수가 너무 적으면 오차가 커짐 ㄴ 결과가 1에 매우 가까운 숫자라면 된 겁니다. 1.0016740522338 C) - 1 ÷ 5 + 1 = 1.0003348104468 D) × = 을 (n세트) 반복해 입력 ㄴ 여기서 n세트는, B에서 '루트버튼 누른 횟수' 3.9398949655688 빨간 부분 숫자에 오차 있음. (소숫점 둘째 자리 정도까지만 반올림 해서 답안 작성) 참 값 = 3.9362834270354... 2026 02.04 1. 분모 먼저 계산 400 × 10000 = 100 × 6000 = GT 결과값 4,600,000 역수 처리 ÷÷== 결과값 0.00000021739 2. 분자 곱하기 ×3 00 00 00 ×4 00 ×1 00 00 최종 결과 = 2,608,695.65217 2026 02.04 해결 방법 1. t=-1 을 기준으로 그래프를 2개로 나누어 표현 ㄴ 근데 이것도 tstep을 맞추지 않으면 문제가 발생할 것기도 하고, 상관이 없을 것 같기도 하고... 모르겠네요. 2. t=-1 이 직접 계산되도록 tstep을 적절하게 조정 tstep=0.1 tstep=0.01 도 해 보고 싶지만, 구간 크기에 따라 최소 tstep 이 변하는지 여기서는 0.01로 설정해도 0.015로 바뀌어버립니다. 그래서 tstep=0.02 로 하는게 최대한 긴 그래프를 얻을 수 있습니다. 2026 02.02 불연속 그래프 ti-nspire는 수학자처럼 연속적인 선을 그리는 것이 아니라, 정해진 `tstep` 간격으로 점을 찍고 그 점들을 직선으로 연결하는 'connect-the-dots' 방식으로 그래프를 그립니다. 여기에 tstep 간격에 따라 특이점(분모=0)이 제외되어 문제가 나타난 것입니다. seq(−2+0.13*t,t,0,23) {−2.,−1.87,−1.74,−1.61,−1.48,−1.35,−1.22,−1.09,−0.96,−0.83,−0.7,−0.57,−0.44,−0.31,−0.18,−0.05,0.08,0.21,0.34,0.47,0.6,0.73,0.86,0.99} t=-1 에서 그래프를 찾지 않습니다. 그 좌우 값인 −1.09, −0.96 두 값의 그래프값을 찾고, Window 범위를 보고 적당히 (연속되도록) 이어서 그래프를 완성하는 방식입니다. 그래서 t=-1에서도 그래프 값이 존재하는 것입니다. 2026 02.02