Ⅷ. Evaluation

아무튼 검색 모델의 평가 기준이 되는건 hapiness이다. (개인화)

초기에는 Relevance로만 측정해서 성능을 평가했다. - Benchmark

Untitled

근데 이때까지는 binary임. 쿼리를 던졌을 때 쿼리와 relevant한가 아닌가만 측정할 수 있음 (0아니면 1). 근데 우리는 more relevant한거랑 less relevant한거를 줄 세우고 싶다.

3번째 Judgement of document는 걍 데이터 라벨링 알바처럼 고용해서 일일이 점수를 매김

또 중요한거?

미국에 NIST라고 있는데 collection을 만들고 tram이라는 컨퍼런스를 개최함

Benchmark의 basic

user need → query로 변환되어야함
근데 query에 집중하면 안되고 user need에 집중해야함.
- 의도 : 내 수영장이 점점 더러워져서 깨끗하게 지우고 싶음
- 쿼리 : 수영장 클리너
- 둘 중에 의도에 더 focus를 맞춰야함 (pool, cleaner 각각에 집중 x)
Precision : P(relevant | retrived) : P(관련있는|검색된)