| 용어 | 설명 |
|---|---|
| 데이터의 유형 | Nominal attribute : 명목자료 |
| Ordinal attribute : 순서자료 | |
| Interval attribute : 구간자료 | |
| Ratio attribute : 비율자료 | |
| Data Exploration | |
| 데이터 탐색 | 경향성에 따른 통계값 |
| Mean(이상치에 민감), Median(이상치에 덜 민감), Mode(최빈값) | |
| 분포에 따른 통계값 | |
| Range, Standard Deviation | |
| correlation coefficient | |
| 상관계수 | 두 변수 사이의 Linear 관계를 표현. |
| -1에서 1사이의 값을 갖는다. |

| 용어 | 설명 |
|---|---|
| Decision Tree | Splitting Attribute(나뉘는 속성)의 값에 따라 path가 만들어짐 |
| path의 마지막은 leaf node (클래스 레이블 예측 결과) |
Root node : 나가는 엣지만 존재. Splitting Attribute를 나타냄 Internal node 들어오고 나가는 엣지 모두 존재. Splitting Attribute를 나타냄 Leaf or terminal node 들어오는 엣지만 존재. Class Label을 나타냄 | | Decision Tree Issues | • Greedy strategy 특정한 조건에 따라 attribute를 선택해서 record를 split • 어떻게 record를 split할 것인가? • 어디에서 split을 멈출것인가? | | best split | Leaf에서 클래스가 하나만 남거나, 다른 클래스들과 차이가 커지게 하는 split attribute. (ex : genderm car type, ...) | | Measures of Impurity 불순도 측정 | best split을 공식화한거. 모든 클래스들이 동등하게 포함되었을 때 max, 한 개의 클래스만 포함되면 zero가 된다. Imputiry 값이 0이 될 때의 Attribute를 best split를 고르자!! (Split 하기 전 불순도 - Split 하고 난 뒤 불순도)가 최대가 되도록 |
| 용어 | 설명 |
|---|---|
| GINI Index | |
| 지니계수 | 클래스 갯수가 비슷해지면 GINI 계수가 점점 늘어난다. |
| 지니계수가 작을 수록 좋다 | |
| 최댓값 : $1-1/n_c$ (클래스의 갯수) | |
| → 불순도가 가장 높음 (안좋음) | |
| 최솟값 : $0$ → 불순도가 가장 낮음 (좋음) | |
| GINI Index for a split | |
| Split 할지 말지 기준 | 나누기 전이랑 나눈 후 지니계수 측정해서 더 낮으면 split한다. |
| 각 비율대로 나눠서 더하면 됨 |

$p(j|t)$ : 노드 t에서 Class j가 나올 확률
ex)
C1 : 0, C2 : 6, GINI : $1-(0^2+1^2) = 0$
C1 : 1, C2 : 5, GINI : $1-((\frac{1}{6})^2+(\frac{5}{6})^2)=0.278$
C1 : 2, C2 : 4, GINI : $1-((\frac{2}{6})^2+(\frac{4}{6})^2)=0.444$
→ 클래스 개수가 비슷해지면 값이 커진다 (작을수록 좋음)
GINI Index for a split
$$ GINI_{split}=\sum\frac{n_i}{n}GINI(i) $$
나누기 전
[Parent] C1 : 6, C2 : 6
[Parent] $1-((\frac{6}{12})^2+(\frac{6}{12})^2)=0.5$