용어	설명
데이터의 유형	Nominal attribute : 명목자료
Ordinal attribute : 순서자료
Interval attribute : 구간자료
Ratio attribute : 비율자료
Data Exploration
데이터 탐색	경향성에 따른 통계값
Mean(이상치에 민감), Median(이상치에 덜 민감), Mode(최빈값)
분포에 따른 통계값
Range, Standard Deviation
correlation coefficient
상관계수	두 변수 사이의 Linear 관계를 표현.
-1에서 1사이의 값을 갖는다.

Untitled

Decision Tree

용어	설명
Decision Tree	Splitting Attribute(나뉘는 속성)의 값에 따라 path가 만들어짐
path의 마지막은 leaf node (클래스 레이블 예측 결과)

Root node : 나가는 엣지만 존재. Splitting Attribute를 나타냄 Internal node 들어오고 나가는 엣지 모두 존재. Splitting Attribute를 나타냄 Leaf or terminal node 들어오는 엣지만 존재. Class Label을 나타냄 | | Decision Tree Issues | • Greedy strategy 특정한 조건에 따라 attribute를 선택해서 record를 split • 어떻게 record를 split할 것인가? • 어디에서 split을 멈출것인가? | | best split | Leaf에서 클래스가 하나만 남거나, 다른 클래스들과 차이가 커지게 하는 split attribute. (ex : genderm car type, ...) | | Measures of Impurity 불순도 측정 | best split을 공식화한거. 모든 클래스들이 동등하게 포함되었을 때 max, 한 개의 클래스만 포함되면 zero가 된다. Imputiry 값이 0이 될 때의 Attribute를 best split를 고르자!! (Split 하기 전 불순도 - Split 하고 난 뒤 불순도)가 최대가 되도록 |

Gini Index

용어	설명
GINI Index
지니계수	클래스 갯수가 비슷해지면 GINI 계수가 점점 늘어난다.
지니계수가 작을 수록 좋다
최댓값 : $1-1/n_c$ (클래스의 갯수)
→ 불순도가 가장 높음 (안좋음)
최솟값 : $0$ → 불순도가 가장 낮음 (좋음)
GINI Index for a split
Split 할지 말지 기준	나누기 전이랑 나눈 후 지니계수 측정해서 더 낮으면 split한다.
각 비율대로 나눠서 더하면 됨

$p(j|t)$ : 노드 t에서 Class j가 나올 확률

ex)

C1 : 0, C2 : 6, GINI : $1-(0^2+1^2) = 0$

C1 : 1, C2 : 5, GINI : $1-((\frac{1}{6})^2+(\frac{5}{6})^2)=0.278$

C1 : 2, C2 : 4, GINI : $1-((\frac{2}{6})^2+(\frac{4}{6})^2)=0.444$

→ 클래스 개수가 비슷해지면 값이 커진다 (작을수록 좋음)

GINI Index for a split

$$ GINI_{split}=\sum\frac{n_i}{n}GINI(i) $$

나누기 전

[Parent] C1 : 6, C2 : 6

[Parent] $1-((\frac{6}{12})^2+(\frac{6}{12})^2)=0.5$