아무튼 검색 모델의 평가 기준이 되는건 hapiness이다. (개인화)

초기에는 Relevance로만 측정해서 성능을 평가했다. - Benchmark

Untitled

근데 이때까지는 binary임. 쿼리를 던졌을 때 쿼리와 relevant한가 아닌가만 측정할 수 있음 (0아니면 1). 근데 우리는 more relevant한거랑 less relevant한거를 줄 세우고 싶다.

3번째 Judgement of document는 걍 데이터 라벨링 알바처럼 고용해서 일일이 점수를 매김

또 중요한거?

미국에 NIST라고 있는데 collection을 만들고 tram이라는 컨퍼런스를 개최함

Benchmark의 basic