Rag + N Shot

17.0

Build a robustness testing tool for 'LLM-as-a-judge' scenarios that injects controlled semantic needles into documents to test sensitivity. This is vital for RAG-based companies trying to improve evaluation reliability.

emergingimplementation gap

low-resourceevaluationtranslationragn-shot

Signals (2)

arXiv7h ago

Semantic Needles in Document Haystacks: Sensitivity Testing of LLM-as-a-Judge Similarity Scoring

arXiv7h ago

Rag + N Shot

Signals (2)

Semantic Needles in Document Haystacks: Sensitivity Testing of LLM-as-a-Judge Similarity Scoring

Syntax as a Rosetta Stone: Universal Dependencies for In-Context Coptic Translation

Rag + N Shot

Signals (2)

Semantic Needles in Document Haystacks: Sensitivity Testing of LLM-as-a-Judge Similarity Scoring

Syntax as a Rosetta Stone: Universal Dependencies for In-Context Coptic Translation