대표값은 데이터의 중심을 나타내는 값으로, 전체 데이터를 대표할 수 있는 숫자를 의미한다.
대표값에는 평균, 중앙값, 최빈값이 있으며, 각각 다른 특징을 가지고 있다.
➡ 모든 데이터를 더한 후 개수로 나눈 값
➡ 데이터가 고르게 분포되어 있을 때 중심을 가장 잘 나타냄
📌 평균 공식
📌 예제
학생들의 시험 점수: 50, 60, 70, 80, 90
👉 평균 점수 = 70점
✅ 특징
✔ 모든 데이터를 반영 → 데이터 변화에 민감
✔ 극단값(이상치)에 영향받음 → 일부 값이 너무 크거나 작으면 평균이 왜곡됨
➡ 데이터를 크기순으로 정렬했을 때 가운데 위치한 값
➡ 데이터가 치우쳐 있을 때(극단값이 있을 때) 평균보다 대표값으로 적절
📌 중앙값 구하는 법
📌 예제 1 (홀수 개 데이터)
점수: 50, 60, 70, 80, 90 → 가운데 값: 70
👉 중앙값 = 70
📌 예제 2 (짝수 개 데이터)
점수: 50, 60, 70, 80, 90, 100 → 가운데 두 값: 70, 80
👉 중앙값 = 75
✅ 특징
✔ 극단값(이상치)의 영향을 받지 않음
✔ 데이터의 분포를 고려할 때 유용
➡ 데이터 중 가장 많이 나타나는 값
➡ 분포가 고르지 않을 때 유용
📌 예제
점수: 50, 60, 70, 70, 80, 80, 80, 90, 90
👉 가장 많이 나온 점수 80 (3번 등장)
👉 최빈값 = 80
✅ 특징
✔ 빈도가 가장 높은 값을 나타냄
✔ 데이터에 따라 여러 개의 최빈값이 존재 가능
✔ 연속형 데이터에서는 의미가 적을 수 있음
📌 예제 (최빈값 여러 개일 때)
점수: 50, 60, 70, 70, 80, 80, 90, 90
👉 70, 80, 90이 각각 2번 등장 → 최빈값 3개 (70, 80, 90)
대표값 | 장점 | 단점 | 사용 예시 |
평균 | 모든 데이터를 반영 | 이상치에 민감 | 시험 점수, 연봉 분석 |
중앙값 | 이상치 영향 없음 | 데이터 전체 반영 X | 부동산 가격, 소득 분석 |
최빈값 | 데이터의 가장 흔한 값 | 유일하지 않을 수 있음 | 선호하는 브랜드, 인기 메뉴 |
📌 대표값 선택 방법
상자그림(Box Plot, Box-and-Whisker Plot)은 데이터의 분포와 이상치(극단값)를 한눈에 파악할 수 있는 그래프이다.
📌 왜 사용할까?
✔ 데이터의 **중앙값(중앙 경향)**과 **퍼진 정도(분산)**를 쉽게 볼 수 있음
✔ **이상치(극단값)**가 있는지 확인 가능
✔ 여러 집단의 분포를 비교하기 좋음
상자그림은 다섯 가지 숫자 요약을 사용해 데이터를 표현한다.
이 값들은 최소값, 제1사분위수(Q1), 중앙값(Q2), 제3사분위수(Q3), 최대값으로 구성.
🔹 (1) 최소값 (Minimum) → 가장 작은 데이터 값
🔹 (2) 제1사분위수 (Q1, 1st Quartile) → 하위 25% 지점 (전체 데이터의 25% 이하인 값)
🔹 (3) 중앙값 (Q2, Median) → 50% 지점 (데이터의 중간값)
🔹 (4) 제3사분위수 (Q3, 3rd Quartile) → 상위 25%를 제외한 75% 지점
🔹 (5) 최대값 (Maximum) → 가장 큰 데이터 값
💡 이 다섯 개의 값으로 데이터의 분포를 요약할 수 있다!
➡ 데이터의 중간 50%가 포함된 범위
✔ 이상치(극단값) 판별 기준
📌 상자(Box)
📌 중앙값(Median, Q2)
📌 수염(Whisker)
📌 이상치(Outliers)
학생들의 시험 점수:
45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95
✅ Q1 (제1사분위수) = 60
✅ Q2 (중앙값) = 70
✅ Q3 (제3사분위수) = 85
✅ IQR = 85−60=2585 - 60 = 25
✅ 수염 범위
✅ 이상치 여부
📌 상자그림을 여러 개 그리면 데이터 비교 가능
✔ 그룹 간 중앙값 비교 → 어느 그룹이 평균적으로 더 높은지
✔ 상자의 길이 비교 → 데이터의 변동성이 큰지
✔ 수염 길이 비교 → 데이터의 분포 차이 확인
✔ 이상치 확인 → 특정 그룹에 이상치가 많은지
✅ 장점
✔ 데이터의 중앙값, 분포, 이상치를 쉽게 확인 가능
✔ 여러 그룹을 한눈에 비교 가능
✔ 이상치(극단값)를 빠르게 찾을 수 있음
❌ 단점
✖ 데이터 개수가 적으면 해석이 어려움
✖ 평균값을 직접 표시하지 않음
✖ 데이터의 개별 값이 보이지 않음 (전체 분포 파악 어려움)
✅ 상자그림(Box Plot)은 데이터의 분포와 이상치를 한눈에 볼 수 있는 그래프
✅ 다섯 가지 숫자 요약 (최소, Q1, 중앙값, Q3, 최대) 를 사용
✅ IQR(사분위 범위)를 이용해 데이터의 변동성과 이상치 판별 가능
✅ 여러 집단 비교에 유용
데이터 분석을 위한 기본 수학(2)_ 문자식의 규칙,다항식 전개 (1) | 2025.03.04 |
---|---|
데이터 분석을 위한 기본 수학(1)_제곱과 제곱근계산 (2) | 2025.03.03 |
빅데이터 분석에 필요한 기본수학(8)_도수분포표와히스토그램 (2) | 2025.03.02 |
빅데이터 분석에 필요한 기본 수학(7)_데이터와 변량 (1) | 2025.03.02 |
빅데이터 분석에 필요한 기초수학(6)_그래프 종류 (3) | 2025.03.02 |