분산은 데이터가 평균으로부터 얼마나 퍼져 있는지를 나타내는 통계적 지표입니다.
이는 데이터의 변동성 또는 산포도를 측정하며, 값이 클수록 데이터가 평균에서 더 많이 흩어져 있음을 의미합니다.
✔ 분산(Variance, s)은 데이터가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 값입니다.
✔ 평균만으로는 데이터의 특징을 알기 어려우므로, 데이터의 흩어진 정도를 분석하는 것이 중요합니다.
분산을 계산하는 단계는 다음과 같습니다:
수식으로 표현하면:
✅ 분산을 구하는 과정
✅ 예제 1: 데이터가 2,4,6,8,10일 때 분산을 구해보자.
✔ 분산을 구하면 데이터의 퍼짐 정도를 알 수 있지만, 단위가 제곱 형태로 표현되므로 해석이 어려울 수 있습니다.
✔ 그래서 분산의 제곱근을 구한 값을 표준편차(Standard Deviation, )라고 합니다.
✅ 위 예제에서 표준편차 구하기
✔ 결과: 표준편차는 2.83
✔ 분산과 표준편차가 클수록 → 데이터가 평균에서 멀리 퍼져 있음
✔ 분산과 표준편차가 작을수록 → 데이터가 평균에 가까이 모여 있음
✅ 예제 비교
데이터 | 평균 | 분산 | 표준편차 |
2, 4, 6, 8, 10 | 6 | 8 | 2.83 |
5, 5, 6, 6, 6 | 5.6 | 0.24 | 0.49 |
💡 표준편차가 작은 데이터는 값들이 평균 근처에 많이 모여 있고, 큰 데이터는 다양하게 퍼져 있다는 의미입니다.
✔ 편차(Deviation)란 개별 데이터 값이 평균(Mean)과 얼마나 차이가 나는지를 나타내는 값입니다.
✔ 즉, 각 데이터 값에서 평균을 뺀 값을 의미해요.
✅ 편차 공식
편차 = xi−xˉ
✅ 예제 1: 데이터가 2,4,6,8,10일 때, 편차를 구해보자.
✔ 결과: 각 데이터의 편차 값은 -4, -2, 0, 2, 4
✔ 모든 편차 값을 더하면 항상 0이 된다.
( −4 ) + ( −2 ) + 0 + 2 + 4 = 0
✔ 편차 값이 클수록 평균에서 멀리 떨어져 있다.
✔ 편차의 제곱을 이용해 분산(Variance)을 구할 수 있다.
✅ 절대 편차(Absolute Deviation)
✔ 편차를 구할 때, 음수를 없애기 위해 절댓값을 취하는 방법
✅ 평균 절대 편차(Mean Absolute Deviation, MAD)
✔ 모든 절대 편차의 평균
상관관계를 알기 위한 기본 수학(1)_함수 (3) | 2025.03.08 |
---|---|
데이터 분석을 위한 기본 수학(3)_분산, 편차값 (8) | 2025.03.07 |
데이터 분석을 위한 기본 수학(2)_ 문자식의 규칙,다항식 전개 (1) | 2025.03.04 |
데이터 분석을 위한 기본 수학(1)_제곱과 제곱근계산 (2) | 2025.03.03 |
빅데이터 분석에 필요한 기본 수학(9)_대표값,상자그림 (1) | 2025.03.03 |