Ⅳ. Classification

Intance-based Classifiers

종류

원리

test record를 2차원 좌표로 표현한다면

Untitled

근처에 가장 가까운 record를 보고 predict함

동률이 생길 수도 있어서 K값은 홀수로 함

유클리드 거리 : $\sqrt{(x_1-y_1)^2+(x_2-y_2)^2+...+(x_n-y_n)^2}$
- X = (4.9, 3.0, 1.4, 0.2), Y = (4.6, 3.1, 1.5, 0.2) → d = 0.33
- 단위가 다른경우 Normalization 해준다.
  - Range Transformation : $\frac{x-min(x)}{max(x)}$
  - Z-transformation : $\frac{x-mean(x)}{std(x)}$
맨하탄 거리 : $|(x_1-x_2)+(y_1-y_2)|$
- X = (1,2), Y = (3,1) → d = |1-3|+|2-1| = 2+1 = 3
체비쇼프 거리 : $max(|(x_1-x_2),(y_1-y_2)|)$
- X = (1,2), Y = (3,1) → d = max(|1-3|, |2-1|) = max(2+1) = 2
민코프스키 거리 : $\left ({\sum_{i=1}^{n}} \left| x_i-y_i\right|^p \right )^\frac{1}{p}$
- p=1이면 맨하탄 거리
- p=2이면 유클리드
- p=∞이면 체비쇼프
- 각각 해보면서 최선의 방법을 선택해야함 (이거 시험 나올듯)

Nearest를 결정하는 방법

Untitled