상세 컨텐츠

본문 제목

데이터 분석을 위한 기본 수학(3)_분산, 편차값

본문

반응형

📌 통계수학과 분산 기본 개념 정리

1️⃣ 통계수학이란?

✔ 통계수학(Statistics)은 데이터를 수집, 분석, 해석, 표현하는 학문입니다.
✔ 평균, 중앙값, 최빈값 같은 대표값과 산포도(데이터의 흩어진 정도)를 분석하는 것입니다.

 

2️⃣ 분산(Variance) 기본 개념

📌 분산이란?

✔ 분산(Variance, s2)데이터가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 값입니다.
✔ 평균만으로는 데이터의 특징을 알기 어려우므로, 데이터의 흩어진 정도를 분석하는 것이 중요합니다.

 

3️⃣ 분산 구하는 방법

📌 분산 공식

 

분산을 구하는 과정

  1. 데이터의 평균(Mean, )을 구한다.
  2. 각 데이터에서 평균을 뺀 값을 제곱한다.
  3. 제곱한 값들의 평균을 구한다.

4️⃣ 분산 예제

예제 1: 데이터가 2,4,6,8,10 일 때 분산을 구해보자.

1단계: 평균 구하기

2단계: 각 데이터에서 평균을 빼고 제곱하기

3단계: 제곱한 값들의 평균 구하기

결과: 이 데이터의 분산은 8

 

5️⃣ 표준편차(Standard Deviation)

✔ 분산을 구하면 데이터의 퍼짐 정도를 알 수 있지만, 단위가 제곱 형태로 표현되므로 해석이 어려울 수 있어요.
✔ 그래서 분산의 제곱근을 구한 값을 표준편차(Standard Deviation, )라고 해요.

📌 표준편차 공식

위 예제에서 표준편차 구하기

결과: 표준편차는 2.83

 

6️⃣ 분산과 표준편차의 의미

분산과 표준편차가 클수록 → 데이터가 평균에서 멀리 퍼져 있음
분산과 표준편차가 작을수록 → 데이터가 평균에 가까이 모여 있음

예제 비교

데이터 평균 분산 표준편차
2, 4, 6, 8, 10 6 8 2.83
5, 5, 6, 6, 6 5.6 0.24 0.49

💡 표준편차가 작은 데이터는 값들이 평균 근처에 많이 모여 있고, 큰 데이터는 다양하게 퍼져 있다는 의미예요! 

🎯 통계수학 핵심 정리

평균(Mean, ) → 데이터를 대표하는 값
분산(Variance, ) → 데이터의 퍼짐 정도를 나타내는 값
표준편차(Standard Deviation, s) → 분산의 제곱근으로 해석이 용이함

 

📌 편차(偏差, Deviation)란?

1️⃣ 편차의 개념

✔ 편차(Deviation)란 개별 데이터 값이 평균(Mean)과 얼마나 차이가 나는지를 나타내는 값입니다.
✔ 즉, 각 데이터 값에서 평균을 뺀 값을 의미합니다.

편차 공식

 

2️⃣ 편차 예제

예제 1: 데이터가 2,4,6,8,10 일 때, 편차를 구해보자.

1단계: 평균 구하기

2단계: 각 데이터에서 평균을 빼기

결과: 각 데이터의 편차 값은 -4, -2, 0, 2, 4

 

3️⃣ 편차의 특징

모든 편차 값을 더하면 항상 0이 된다.

편차 값이 클수록 평균에서 멀리 떨어져 있다.
편차의 제곱을 이용해 분산(Variance)을 구할 수 있다.

 

4️⃣ 편차와 관련된 개념

절대 편차(Absolute Deviation)
✔ 편차를 구할 때, 음수를 없애기 위해 절댓값을 취하는 방법

평균 절대 편차(Mean Absolute Deviation, MAD)
✔ 모든 절대 편차의 평균

🎯 정리: 편차란?

편차(Deviation) = 데이터 값 - 평균
모든 편차의 합은 0이 된다.
편차의 크기로 데이터가 평균에서 얼마나 떨어져 있는지 판단 가능
편차의 제곱을 이용하면 분산(Variance)을 구할 수 있음

반응형

관련글 더보기