Why Compression?

Compression for inverted index

term vocabulary가 몇 개 있을까? : 70여개 ^ 20개 character = 10^37

길이 20짜리 string은 10^37개의 가짓수가 나옴

Vocabulary vs Collection size

$$ M=kT^b $$

T : Collection의 token 수, M : Dictionary size

Untitled

아 그러니까 가로축이 $log_{10}T$, 세로축이 $log_{10}M$인 그래프에서 $y=ax+b$를 한거임. $log_{10}M=a(log_{10}T)+b=alog_{10}T^b$ 느낌으로 됨. 그냥 linear regression하는 거인듯.

중요