디지털 금융/빅데이터 분석에 필요한 기본수학

빅데이터 분석에 필요한 기본 수학(3)_평균

studylife-1 2025. 3. 2. 18:30
반응형

📌 평균(Mean)

평균은 데이터의 중심값을 나타내는 대표적인 값이다.

데이터가 전체적으로 어디에 몰려 있는지를 이해하는 데 유용하며, 여러 가지 방법으로 계산할 수 있다.

1️⃣ 산술 평균 (Arithmetic Mean)

가장 기본적인 평균으로, 모든 데이터를 더한 후 개수로 나눈 값이다.

 

특징

✔ 데이터가 정규 분포(대칭적)일 때 대표값으로 적합
✔ 이상치(극단적인 값)의 영향을 크게 받음

💡 예제

시험 점수가 70, 80, 90, 100, 50인 경우

 

 


2️⃣ 가중 평균 (Weighted Mean)

각 값에 서로 다른 중요도를 부여할 때 사용하는 평균이다.

특징

✔ 각 데이터의 중요도를 다르게 반영할 수 있음
✔ 특정 항목이 더 중요한 경우 적용

💡 예제

시험에서 **중간고사(가중치 40%)**와 **기말고사(가중치 60%)**의 점수가 각각 80점, 90점이라면,


👉 단순 평균(85점)과 다른 결과가 나옴


3️⃣ 기하 평균 (Geometric Mean)

비율이나 성장률 데이터를 다룰 때 사용하는 평균이다.

특징

✔ 수익률, 성장률, 비율 데이터를 다룰 때 적합
✔ 극단적인 값(이상치)의 영향을 덜 받음

💡 예제

어떤 투자에서 10%, 20%, 30% 성장했다고 하면, 기하 평균은


👉 즉, 평균적으로 19.1%의 성장률을 가짐

 

4️⃣ 조화 평균 (Harmonic Mean)

속도나 비율을 다룰 때 유용한 평균이다.

특징

✔ 속도, 비율 데이터를 다룰 때 적절
✔ 작은 값이 강조됨 (큰 값보다 작은 값의 영향을 더 많이 받음)

💡 예제

한 사람이 50km/h로 1시간, 100km/h로 1시간 이동한 경우 평균 속도는?
산술 평균:


조화 평균:


👉 실제 이동 거리와 시간을 고려하면 66.67km/h가 더 정확한 평균 속도

 

5️⃣ 절사 평균 (Trimmed Mean)

이상치(극단적인 값)의 영향을 줄이기 위해 일정 비율의 상위/하위 값을 제거한 후 계산하는 평균이다.

특징

✔ 극단적인 값의 영향을 줄임
✔ 스포츠 경기 점수(예: 피겨스케이팅)에서 자주 사용

💡 예제

점수: 20, 50, 80, 85, 90, 95, 100 (7개)

  • 상위 10%, 하위 10% 제거 → 50, 80, 85, 90, 95 남음
  • 평균: 

👉 극단적인 20점과 100점이 제외되면서 보다 신뢰할 수 있는 평균이 됨

 

🏁 정리: 언제 어떤 평균을 사용할까?

평균 종류 및 사용, 특징
산술 평균 일반적인 경우 이상치에 민감
가중 평균 데이터 중요도가 다를 때 중요도를 반영 가능
기하 평균 성장률, 수익률 이상치 영향이 적음
조화 평균 속도, 비율 작은 값의 영향을 더 많이 받음
절사 평균 이상치가 많을 때 극단값 제거 후 신뢰도 증가

 

 

반응형