Sign In

Re$^2$Math: Benchmarking Theorem Retrieval in Research-Level Mathematics

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Zicheng Lyu, Wenjie Yang, Shengzhong Zhang, Zengfeng Huang

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๊ธฐ์กด ์ˆ˜ํ•™ ์ฆ๋ช…์—์„œ ๋ณด์กฐ ๋„๊ตฌ(์˜ˆ: ๋ณด์กฐ ์ •๋ฆฌ)๋ฅผ ๊ฒ€์ƒ‰ํ•˜๊ณ  ์ ์šฉํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์ธ Re$^2$Math๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. Re$^2$Math๋Š” ์ฆ๋ช…์˜ ์ค‘๊ฐ„ ๋‹จ๊ณ„์—์„œ ํ•„์š”ํ•œ ๋ณด์กฐ ์ •๋ฆฌ๋ฅผ ์‹๋ณ„ํ•˜๊ณ , ์ด๋ฅผ ๋’ท๋ฐ›์นจํ•˜๋Š” ํ•™์ˆ ์  ์ถœ์ฒ˜๋ฅผ ์ฐพ์œผ๋ฉฐ, ํ•ด๋‹น ๊ฐ€์ •๋“ค์ด ํ˜„์žฌ ์ฆ๋ช… ๋งฅ๋ฝ๊ณผ ์ผ์น˜ํ•˜๋Š”์ง€ ๊ฒ€์ฆํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ œ์•ˆ๋œ ๋ฒค์น˜๋งˆํฌ๋Š” ํ˜„์žฌ 7.0%์˜ ToolAcc ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ํ˜„์žฌ ์‹œ์Šคํ…œ๋“ค์ด ์œ ํšจํ•œ ๋ฌธ์žฅ์„ ๊ฒ€์ƒ‰ํ•˜์ง€๋งŒ ์ง€์—ญ์  ์ฆ๋ช… ๋‹จ๊ณ„์— ๋Œ€ํ•œ ์ ์šฉ์„ฑ์„ ํ™•๋ฆฝํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช๊ณ  ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๊ธฐ์กด ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์€ ์ˆ˜ํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ์€ ๋›ฐ์–ด๋‚˜์ง€๋งŒ, ํ•™์ˆ  ๋ฌธํ—Œ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๊ฒ€์ƒ‰ ๋ฐ ์ ์šฉ ๋Šฅ๋ ฅ์€ ๋ถ€์กฑํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
Re$^2$Math ๋ฒค์น˜๋งˆํฌ๋Š” ์ฆ๋ช… ๊ฒ€์ƒ‰, ๊ทผ๊ฑฐ ๋งˆ๋ จ, ์ฆ๋ช… ๊ฐ„๊ทน ์ถฉ์กฑ์„ ๋ถ„๋ฆฌํ•˜์—ฌ ์ˆ˜ํ•™ ๋ฌธํ—Œ ๊ธฐ๋ฐ˜ ๋„๊ตฌ ์‚ฌ์šฉ์„ ์ฒด๊ณ„์ ์œผ๋กœ ์ง„๋‹จํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
โ€ข
ํ˜„์žฌ ์‹œ์Šคํ…œ์˜ ๋‚ฎ์€ ์„ฑ๋Šฅ์€ ๊ฒ€์ƒ‰๋œ ์ •๋ฆฌ์˜ ํƒ€๋‹น์„ฑ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ํ•ด๋‹น ์ •๋ฆฌ๊ฐ€ ํŠน์ • ์ฆ๋ช… ๋‹จ๊ณ„์— ์–ด๋–ป๊ฒŒ ์ ์šฉ๋˜๋Š”์ง€์— ๋Œ€ํ•œ ์ดํ•ด ๋ถ€์กฑ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
โ€ข
ํ˜„์žฌ ๋ฒค์น˜๋งˆํฌ ํ…Œ์ŠคํŠธ ์„ธํŠธ์—์„œ๋Š” 7.0%์˜ ToolAcc๋งŒ์„ ๋‹ฌ์„ฑํ•˜์—ฌ, ํ–ฅํ›„ ์‹œ์Šคํ…œ์˜ ์ •ํ™•๋„ ๋ฐ ์ ์šฉ์„ฑ ํ–ฅ์ƒ์ด ํ•„์š”ํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๐Ÿ‘