빅데이터 분석에 필요한 기본 수학(1)

디지털 금융/빅데이터 분석에 필요한 기본수학

빅데이터 분석에 필요한 기본 수학(1)

studylife-1 2025. 3. 2. 15:21

1. 선형대수학 (Linear Algebra)

빅데이터 분석과 머신러닝에서는 벡터, 행렬, 그리고 행렬 연산이 필수적이에요.

벡터(Vector): 데이터 포인트를 표현하는 기본 단위 (예: 2차원 벡터 [x,y][x, y], n차원 벡터 [x1,x2,...,xn][x_1, x_2, ..., x_n])
행렬(Matrix): 데이터를 구조적으로 저장하는 방법 (예: 추천 시스템에서 사용자-상품 관계 표현)
행렬 연산(Matrix Operations): 전치(transpose), 역행렬(inverse), 행렬 곱(matrix multiplication) 등이 중요함
특이값 분해(SVD, Singular Value Decomposition): 차원 축소 기법으로 사용됨

💡 활용 예시: 추천 시스템, 이미지 처리, 차원 축소(PCA)

2. 확률과 통계 (Probability & Statistics)

데이터 분석의 기초이며, 데이터의 패턴을 이해하고 예측하는 데 필수적이에요.

확률(probability): 사건이 발생할 가능성을 수치화함 (예: 베이즈 정리)
확률 분포(probability distribution): 데이터의 분포를 설명 (예: 정규 분포, 이항 분포, 포아송 분포)
기대값(expected value)과 분산(variance): 평균적인 행동과 데이터의 변동성을 측정
가설 검정(hypothesis testing): 데이터가 특정 가설을 지지하는지 평가 (예: p-value, t-test)
회귀 분석(regression analysis): 변수 간의 관계를 모델링 (예: 선형 회귀, 로지스틱 회귀)

💡 활용 예시: A/B 테스트, 이상 탐지, 머신러닝 모델 평가

3. 미분과 적분 (Calculus)

머신러닝 모델 최적화에서 중요한 역할을 함

미분(derivative): 함수의 변화율을 측정 (예: 경사 하강법(Gradient Descent)에서 사용)
편미분(partial derivative): 다변수 함수에서 각 변수에 대한 변화율 측정
적분(integration): 넓이를 계산하여 누적 효과를 측정

💡 활용 예시: 신경망(딥러닝) 학습, 최적화 알고리즘

4. 이산수학 (Discrete Mathematics)

데이터 구조와 알고리즘에서 활용됨

그래프 이론(Graph Theory): 네트워크 분석 (예: SNS 관계 분석, 페이지 랭크 알고리즘)
집합론(Set Theory): 데이터 군집화 및 필터링
논리(Boolean Algebra): 논리적 판단 및 데이터 필터링

💡 활용 예시: 소셜 네트워크 분석, 추천 시스템, 데이터 구조 설계

5. 최적화 (Optimization)

효율적인 데이터 분석과 머신러닝 모델을 만들기 위해 필요함

경사 하강법(Gradient Descent): 모델의 비용(cost) 최소화
제약 최적화(Constrained Optimization): 특정 조건 내에서 최적의 해를 찾음

💡 활용 예시: 머신러닝 모델 학습, 데이터 클러스터링(K-Means)

📌 정리하면?

데이터를 행렬로 다루기 위해 선형대수학
데이터 분포와 예측을 위해 확률과 통계
머신러닝 최적화를 위해 미분과 적분
알고리즘과 데이터 구조를 위해 이산수학
최적의 모델을 만들기 위해 최적화 기법