haebom
Sign In
DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality
Created by
Haebom
Category
Empty
์ ์
Yukun Huang, Leonardo F. R. Ribeiro, Momchil Hardalov, Bhuwan Dhingra, Markus Dreyer, Venkatesh Saligrama
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๊ฒ์ ์ฆ๊ฐ LLM ์์ด์ ํธ๊ฐ ์์ฑํ๋ ์ฌ์ธต ์ฐ๊ตฌ ๋ณด๊ณ ์(DRRs)์ ์ฌ์ค์ฑ ๊ฒ์ฆ์ด ์ด๋ ต๋ค๋ ๋ฌธ์ ๋ฅผ ์ ๊ธฐํฉ๋๋ค. ๊ธฐ์กด์ ์ฌ์ค ๊ฒ์ฆ๊ธฐ๋ ์ผ๋ฐ์ ์ธ ๋ช ๋ฃํ ์ฃผ์ฅ์ ๋ง์ถฐ์ ธ ์์ด DRRs์๋ ํจ๊ณผ์ ์ด์ง ์์ผ๋ฉฐ, ์ด๋ฅผ ์ํ ๋ฒค์น๋งํฌ๋ ๋ถ์ฌํฉ๋๋ค. ์ฐ๊ตฌ์ง์ ๋์ ์ธ ๊ฐ์ฌ-์ ์(AtS) ๋ฐฉ์์ ์ ์ํ์ฌ, ๊ฒ์ฆ ๊ณผ์ ์์ ๋ฐ์ํ๋ ๋ถ์ผ์น๋ฅผ ๊ฐ์ฌํ๊ณ ์ด๋ฅผ ํตํด ๋ฒค์น๋งํฌ๋ฅผ ์ง์์ ์ผ๋ก ๊ฐ์ ํจ์ผ๋ก์จ ์ ๋ฌธ๊ฐ์ ์ ํ๋๋ฅผ 60.8%์์ 90.9%๊น์ง ๋์์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
DRRs์ ๊ฐ์ ๋ณต์กํ ํ ์คํธ์ ์ฌ์ค์ฑ ๊ฒ์ฆ์ ์ํด ์ ์ ์ธ ๋ฒค์น๋งํฌ ๋์ ๋์ ์ผ๋ก ์งํํ๋ ๋ฒค์น๋งํฌ ๊ตฌ์ถ์ ์ค์์ฑ์ ์์ฌํฉ๋๋ค.
โข
์ธ๊ฐ ์ ๋ฌธ๊ฐ๋ ํ ๋ฒ์ ํ๊ฐ๋ก๋ ํ๊ณ๊ฐ ์์ผ๋ฉฐ, ๊ฐ์ฌ ๋ฐ ์ฌ๊ฒํ ๊ณผ์ ์ ํตํด ์ ๋ขฐ๋๋ฅผ ํฌ๊ฒ ํฅ์์ํฌ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
โข
์ ์๋ DeepFact-Bench์ DeepFact-Eval์ด DRR ์ฌ์ค์ฑ ๊ฒ์ฆ ๋ถ์ผ์ ๋ํ ์๋ก์ด ๋ฒค์น๋งํฌ์ ํจ๊ณผ์ ์ธ ๊ฒ์ฆ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค.
โข
๋์ ๋ฒค์น๋งํฌ ๊ตฌ์ถ ๋ฐ ๊ฐ์ฌ ํ๋ก์ธ์ค์ ์๋ํ ๋ฐ ํ์ฅ ๊ฐ๋ฅ์ฑ์ ๋ํ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํ ์ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage