용어 | 설명 |
---|---|
데이터의 유형 | Nominal attribute : 명목자료 |
Ordinal attribute : 순서자료 | |
Interval attribute : 구간자료 | |
Ratio attribute : 비율자료 | |
Data Exploration | |
데이터 탐색 | 경향성에 따른 통계값 |
Mean(이상치에 민감), Median(이상치에 덜 민감), Mode(최빈값) | |
분포에 따른 통계값 | |
Range, Standard Deviation | |
correlation coefficient | |
상관계수 | 두 변수 사이의 Linear 관계를 표현. |
-1에서 1사이의 값을 갖는다. |
용어 | 설명 |
---|---|
Decision Tree | Splitting Attribute(나뉘는 속성)의 값에 따라 path가 만들어짐 |
path의 마지막은 leaf node (클래스 레이블 예측 결과) |
Root node : 나가는 엣지만 존재. Splitting Attribute를 나타냄 Internal node 들어오고 나가는 엣지 모두 존재. Splitting Attribute를 나타냄 Leaf or terminal node 들어오는 엣지만 존재. Class Label을 나타냄 | | Decision Tree Issues | • Greedy strategy 특정한 조건에 따라 attribute를 선택해서 record를 split • 어떻게 record를 split할 것인가? • 어디에서 split을 멈출것인가? | | best split | Leaf에서 클래스가 하나만 남거나, 다른 클래스들과 차이가 커지게 하는 split attribute. (ex : genderm car type, ...) |
용어 | 설명 |
---|---|
GINI Index | |
지니계수 | 클래스 갯수가 비슷해지면 GINI 계수가 점점 늘어난다. |
지니계수가 작을 수록 좋다 | |
최댓값 : $1-1/n_c$ (클래스의 갯수) | |
→ 불순도가 가장 높음 (안좋음) | |
최솟값 : $0$ → 불순도가 가장 낮음 (좋음) | |
GINI Index for a split | |
Split 할지 말지 기준 | 나누기 전이랑 나눈 후 지니계수 측정해서 더 낮으면 split한다. |
각 비율대로 나눠서 더하면 됨 |
$p(j|t)$ : 노드 t에서 Class j가 나올 확률
ex)
C1 : 0, C2 : 6, GINI : $1-(0^2+1^2) = 0$
C1 : 1, C2 : 5, GINI : $1-((\frac{1}{6})^2+(\frac{5}{6})^2)=0.278$
C1 : 2, C2 : 4, GINI : $1-((\frac{2}{6})^2+(\frac{4}{6})^2)=0.444$
→ 클래스 개수가 비슷해지면 값이 커진다 (작을수록 좋음)
GINI Index for a split
$$ GINI_{split}=\sum\frac{n_i}{n}GINI(i) $$
나누기 전
[Parent] C1 : 6, C2 : 6
[Parent] $1-((\frac{6}{12})^2+(\frac{6}{12})^2)=0.5$