보통 RAG 테스트는 두가지로 나눠서 진행한다.
- Retrieval 성능
- 질문 (쿼리) -> 검색 결과(top k) 안에 정답 상품이 포함되는지
- Generation 성능
- LLM이 실제로 정답에 해당하는 상품을 골랐는지 / reason이 적절한지.
Recall@3으로 하고
Recall@k : 검색 결과 상위 k 안에 들어온 정답 product 수 / 정답 product 수
Hit@k: 정답중 하나라도 top-k에 있으면 1 아니면 0
테스트
보통 RAG 테스트는 두가지로 나눠서 진행한다.
Recall@3으로 하고
Recall@k : 검색 결과 상위 k 안에 들어온 정답 product 수 / 정답 product 수
Hit@k: 정답중 하나라도 top-k에 있으면 1 아니면 0