여러가지 format으로 이루어져있는 document 다루기
classification vs clustering
같은 index가 multiple format을 가질 수 있음
보통 document를 return 하는데 아주 작은 size의 document도 있음
→ document의 unit을 무엇으로 정의할 것인가? file? email? ppt? LaTeX?
token : 문장을 자른 최소 단위
→ processing을 거쳐사전의 entry에 들어갈 후보가 됨
<aside> 🕘 이미지를 찾는 방법 (메타 데이터 + 이미지 자체)
이미지 자체로 찾는 법 : query by image
</aside>
Tokenization’s Issue
'
-
등의 특수문자들(Finland’s)3/20/19
Mar. 12, 1991
(800) 234-2333