상세 컨텐츠

본문 제목

빅데이터 분석에 필요한 기본 수학(9)_대표값,상자그림

본문

반응형

📊 통계 수학에서 대표값

대표값은 데이터의 중심을 나타내는 값으로, 전체 데이터를 대표할 수 있는 숫자를 의미한다.

대표값에는 평균, 중앙값, 최빈값이 있으며, 각각 다른 특징을 가지고 있다.

 

1️⃣ 평균 (Mean, 산술평균)

모든 데이터를 더한 후 개수로 나눈 값
➡ 데이터가 고르게 분포되어 있을 때 중심을 가장 잘 나타냄

📌 평균 공식

📌 예제
학생들의 시험 점수: 50, 60, 70, 80, 90


👉 평균 점수 = 70점

특징
모든 데이터를 반영 → 데이터 변화에 민감
극단값(이상치)에 영향받음 → 일부 값이 너무 크거나 작으면 평균이 왜곡됨

 

2️⃣ 중앙값 (Median)

➡ 데이터를 크기순으로 정렬했을 때 가운데 위치한 값
➡ 데이터가 치우쳐 있을 때(극단값이 있을 때) 평균보다 대표값으로 적절

📌 중앙값 구하는 법

  1. 데이터를 오름차순 정렬
  2. 데이터 개수가 홀수가운데 값이 중앙값
  3. 데이터 개수가 짝수면 가운데 두 개 값의 평균이 중앙값

📌 예제 1 (홀수 개 데이터)
점수: 50, 60, 70, 80, 90가운데 값: 70
👉 중앙값 = 70

📌 예제 2 (짝수 개 데이터)
점수: 50, 60, 70, 80, 90, 100 → 가운데 두 값: 70, 80


👉 중앙값 = 75

특징
극단값(이상치)의 영향을 받지 않음
데이터의 분포를 고려할 때 유용


3️⃣ 최빈값 (Mode)

➡ 데이터 중 가장 많이 나타나는 값
➡ 분포가 고르지 않을 때 유용

📌 예제
점수: 50, 60, 70, 70, 80, 80, 80, 90, 90
👉 가장 많이 나온 점수 80 (3번 등장)
👉 최빈값 = 80

특징
빈도가 가장 높은 값을 나타냄
데이터에 따라 여러 개의 최빈값이 존재 가능
연속형 데이터에서는 의미가 적을 수 있음

📌 예제 (최빈값 여러 개일 때)
점수: 50, 60, 70, 70, 80, 80, 90, 90
👉 70, 80, 90이 각각 2번 등장 → 최빈값 3개 (70, 80, 90)


4️⃣ 대표값 비교 및 선택 기준


대표값 장점 단점 사용 예시
평균 모든 데이터를 반영 이상치에 민감 시험 점수, 연봉 분석
중앙값 이상치 영향 없음 데이터 전체 반영 X 부동산 가격, 소득 분석
최빈값 데이터의 가장 흔한 값 유일하지 않을 수 있음 선호하는 브랜드, 인기 메뉴

📌 대표값 선택 방법

  • 이상치(극단값)가 많으면 → 중앙값이 적절
  • 데이터가 고르게 분포 → 평균이 적절
  • 특정 값의 빈도를 강조할 때 → 최빈값 사용

 

📊 상자그림(Box Plot) 완벽 정리!

상자그림(Box Plot, Box-and-Whisker Plot)은 데이터의 분포와 이상치(극단값)를 한눈에 파악할 수 있는 그래프이다.

📌 왜 사용할까?
✔ 데이터의 **중앙값(중앙 경향)**과 **퍼진 정도(분산)**를 쉽게 볼 수 있음
✔ **이상치(극단값)**가 있는지 확인 가능
✔ 여러 집단의 분포를 비교하기 좋음


1️⃣ 상자그림의 구성 요소

상자그림은 다섯 가지 숫자 요약을 사용해 데이터를 표현한다.
이 값들은 최소값, 제1사분위수(Q1), 중앙값(Q2), 제3사분위수(Q3), 최대값으로 구성.

🔹 (1) 최소값 (Minimum) → 가장 작은 데이터 값
🔹 (2) 제1사분위수 (Q1, 1st Quartile)하위 25% 지점 (전체 데이터의 25% 이하인 값)
🔹 (3) 중앙값 (Q2, Median)50% 지점 (데이터의 중간값)
🔹 (4) 제3사분위수 (Q3, 3rd Quartile)상위 25%를 제외한 75% 지점
🔹 (5) 최대값 (Maximum) → 가장 큰 데이터 값

💡 이 다섯 개의 값으로 데이터의 분포를 요약할 수 있다!


2️⃣ 사분위수 범위 (IQR, Interquartile Range)


➡ 데이터의 중간 50%가 포함된 범위

이상치(극단값) 판별 기준

 

 

3️⃣ 상자그림의 구조 해석

📌 상자(Box)

  • Q Q3 (제 1제3사분위수) 사이의 범위
  • 데이터의 중간 50%가 포함된 구간
  • 상자의 길이가 길수록 데이터의 분포가 넓음(산포가 큼)

📌 중앙값(Median, Q2)

  • 상자 안의 가로선
  • 데이터의 중심 위치를 보여줌
  • 중앙값이 상자 한쪽으로 치우쳐 있으면 데이터가 비대칭

📌 수염(Whisker)

  • 최솟값 Q1  Q3 최댓값을 연결하는 선
  • 이상치가 없는 경우: 전체 데이터 범위를 표현
  • 이상치가 있는 경우: 1.5 × IQR 범위 내 최대·최소값까지만 연결

📌 이상치(Outliers)

  • 상자 밖(수염 범위를 벗어난 값)으로 표시되는 점
  • 극단적으로 크거나 작은 값을 의미

 

4️⃣ 상자그림 해석 예제

📌 예제 데이터

학생들의 시험 점수:
45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95

📌 상자그림 분석

Q1 (제1사분위수) = 60
Q2 (중앙값) = 70
Q3 (제3사분위수) = 85
IQR = 85−60=2585 - 60 = 25
수염 범위

  • 최소값: 60−(1.5×25)=22.5 → 실제 최소값 45
  • 최대값: 85+(1.5×25)=122.5 → 실제 최대값 95

이상치 여부

  • 데이터가 22.5보다 작거나, 122.5보다 크면 이상치
  • 이상치 없음

 

5️⃣ 상자그림을 이용한 데이터 비교

📌 상자그림을 여러 개 그리면 데이터 비교 가능
✔ 그룹 간 중앙값 비교 → 어느 그룹이 평균적으로 더 높은지
상자의 길이 비교 → 데이터의 변동성이 큰지
수염 길이 비교 → 데이터의 분포 차이 확인
이상치 확인 → 특정 그룹에 이상치가 많은지

 

6️⃣ 상자그림의 장점과 단점

장점
✔ 데이터의 중앙값, 분포, 이상치를 쉽게 확인 가능
✔ 여러 그룹을 한눈에 비교 가능
✔ 이상치(극단값)를 빠르게 찾을 수 있음

단점
데이터 개수가 적으면 해석이 어려움
평균값을 직접 표시하지 않음
데이터의 개별 값이 보이지 않음 (전체 분포 파악 어려움)

 

🎯 결론

✅ 상자그림(Box Plot)은 데이터의 분포와 이상치를 한눈에 볼 수 있는 그래프
✅ 다섯 가지 숫자 요약 (최소, Q1, 중앙값, Q3, 최대) 를 사용
✅ IQR(사분위 범위)를 이용해 데이터의 변동성과 이상치 판별 가능
여러 집단 비교에 유용

 

반응형

관련글 더보기