haebom
Sign In
SEA-Eval: A Benchmark for Evaluating Self-Evolving Agents Beyond Episodic Assessment
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Sihang Jiang, Lipeng Ma, Zhonghua Hong, Keyi Wang, Zhiyu Lu, Shisong Chen, Jinghao Zhang, Tianjun Pan, Weijia Zhou, Jiaqing Liang, Yanghua Xiao
π‘ κ°μ
λ³Έ λ Όλ¬Έμ κΈ°μ‘΄ LLM κΈ°λ° μμ΄μ νΈκ° λ¨κΈ°μ μΈ μμ μνμλ κ°νμ§λ§, λꡬμ μ κ³ μ μ±κ³Ό λ¨κΈ° κΈ°μ΅μΌλ‘ μΈν΄ μμ κ° κ²½ν μΆμ λ° μ λ΅ μ΅μ νμ νκ³κ° μμμ μ§μ ν©λλ€. μ΄μ μ μλ€μ λμ§νΈ ꡬνκ³Ό μ°μμ μΈ ν¬λ‘μ€νμ€ν¬ μ§νλ₯Ό κΈ°λ°μΌλ‘ νλ "μκΈ° μ§ν μμ΄μ νΈ(SEA)"μ μλ‘μ΄ μ μλ₯Ό μ μνκ³ , μ΄λ₯Ό νκ°νκΈ° μν μ΅μ΄μ λ²€μΉλ§ν¬μΈ SEA-Evalμ κ°λ°νμ΅λλ€. SEA-Evalμ μμ κ° μ°κ³μ±κ³Ό μ₯κΈ°μ μΈ μ§ν μ±λ₯μ λ κ°μ§ μ°¨μμμ μΈ‘μ νμ¬, κΈ°μ‘΄ λ²€μΉλ§ν¬λ‘λ λΆκ°λ₯νλ μ§νμ μ΄λκ³Ό ꡬ쑰μ μμ μ±μ μ λνν©λλ€.
π μμ¬μ λ° νκ³
β’
νμ¬ μ΅μ²¨λ¨ νλ μμν¬μ μκΈ° μ§ν λ₯λ ₯μλ λ³λͺ© νμμ΄ μ‘΄μ¬νλ©°, λμΌν μ±κ³΅λ₯ νμμλ ν ν° μλΉλμ΄λ μ§ν κΆ€μ μμ μλΉν μ°¨μ΄λ₯Ό 보μμ μ€νμ μΌλ‘ μ μ¦νμ΅λλ€.
β’
SEA-Evalμ μμ΄μ νΈκ° λ¨μν μμ μνμλ₯Ό λμ΄ μ§μ ν μκΈ° μ§νμ λμ§νΈ κ°μ²΄λ‘ λ°μ νκΈ° μν μ격ν κ³Όνμ κΈ°λ°μ μ 곡ν©λλ€.
β’
λ²€μΉλ§ν¬ μ€κ³ λ° νκ° μ§νμ μ§μμ μΈ κ°μ κ³Ό ν¨κ», μμ΄μ νΈμ μ₯κΈ°μ μΈ μ±λ₯ λ° μμ μ±μ 보μ₯νκΈ° μν μΆκ°μ μΈ μ°κ΅¬κ° νμν©λλ€.
PDF 보기
Made with Slashpage