Ⅱ. Documents and Tokens

여러가지 format으로 이루어져있는 document 다루기

Untitled

classification vs clustering

같은 index가 multiple format을 가질 수 있음

보통 document를 return 하는데 아주 작은 size의 document도 있음

→ document의 unit을 무엇으로 정의할 것인가? file? email? ppt? LaTeX?

token : 문장을 자른 최소 단위

→ processing을 거쳐사전의 entry에 들어갈 후보가 됨

<aside> 🕘 이미지를 찾는 방법 (메타 데이터 + 이미지 자체)

이미지 자체로 찾는 법 : query by image

</aside>

Tokenization’s Issue