haebom
Sign In
Large Language Models Could Be Rote Learners
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Yuyang Xu, Renjun Hu, Haochao Ying, Jian Wu, Xing Shi, Wei Lin
π‘ κ°μ
λ³Έ μ°κ΅¬λ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM) νκ°μμ λ²€μΉλ§ν¬ μ€μΌ λ¬Έμ λ‘ μΈν΄ λ°μνλ κ³Όλνκ°λ₯Ό ν΄κ²°νκ³ μ ν©λλ€. λ Όλ¬Έμ LLMμ΄ κ²μΌλ‘ λλ¬λλ μκΈ° νμ΅κ³Ό μ€μ λ₯λ ₯ νμ΅μ λμμ μννλ©°, νΉν μκΈ° νμ΅μ΄ λ²€μΉλ§ν¬ μ€μΌμΌλ‘ μΈν΄ λ°μνλ κ³Όλνκ°μ μ£Όμ μμΈμμ μ§μ ν©λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄, μ°κ΅¬μ§μ κ°κ΄μ λ¬Έμ (MCQ)λ₯Ό μ§μ μ€μ¬μ μΈ κ°μ§ ννλ‘ λ³ννμ¬ μκΈ°λ₯Ό μ€μ΄κ³ μ€μ λ₯λ ₯μ νκ°νλ μλ‘μ΄ νλ μμν¬μΈ TrinEvalμ μ μν©λλ€.
π μμ¬μ λ° νκ³
β’
LLMμ λ²€μΉλ§ν¬ μ€μΌ μ μ€μ λ₯λ ₯λ³΄λ€ μκΈ° λ₯λ ₯μ λ μμ‘΄νλ κ²½ν₯μ΄ μμΌλ©°, μ΄λ νκ° κ²°κ³Όμ μ λ’°μ±μ μ ν΄ν©λλ€.
β’
TrinEval νλ μμν¬λ LLMμ μ€μ μ§μ μ΅λ λ₯λ ₯μ λ μ ννκ² νκ°ν μ μλ μλ‘μ΄ λ°©λ²μ μ μν©λλ€.
β’
νμ¬ LLMμ MMLU λ° GSM8K λ°μ΄ν°μ μμ νκ· 19.6%μ μ§μ ν¬μΈνΈλ₯Ό λ¨μ μκΈ°μ μμ‘΄νλ κ²μΌλ‘ λνλ¬μ΅λλ€.
β’
TrinEvalμ ν¨κ³Όμ μ μ© λ²μλ μΆκ°μ μΈ λ²€μΉλ§ν¬μ λͺ¨λΈμ λν κ²μ¦μ΄ νμν©λλ€.
PDF 보기
Made with Slashpage