프롬프트 평가 자동화를 위한 연구
휴먼 작업자의 대화데이터 레이블링 LLM에 input(프롬프트)을 넣고 답변을 평가하기 위한 정량적 벤치마크는 많습니다. Archive에는 이런 metrics들이 쏟아져 나옵니다. 그런데, 이들은 대부분 "정답"이 있는 질문에 대해 언어 모델이 얼마나 답을 정확하게 맞췄느냐에 중점을 둡니다. 수학, 산술, 일반 상식 문제 같은 것들이요. 하지만 사용자의 프롬프트는 답이 없는 경우가 많아요. "정성적"인 접근이 필요해요. 어떤 모델의 답변을 좋다고 할 수 있는지, 좋다면 왜 좋은지, 그 기준은 무엇인지를 평가해야해서 어려운 점이 많습니다. 그래서 신뢰할만한 정성적인 메트릭은 찾기 어렵습니다. ✅ "정성적"인 메트릭스 연구 프롬프트 평가 자동화 연구를 한창하고 있습니다. 정답은 언어 모델의 결과를 받은 사용자(end-user)가 얼마나 만족하고 불만족하는지에 있다고 생각해요. 생성형 AI가 대화형 인터페이스이기 때문에, Turn의 구조를 보면 알 수 있는 것들이 많아요. ✅ 대화 분석학 선호/비선호 구조 (preferred and dispreferred organization) 사용자가 언어 모델의 답이 마음에 들었으면, preferred 구조를 마음에 들지 않았으면 dispreferred organization 의 턴 구조가 확연이 드러나요. Explicit 한 언어로 말이죠. 그럼, 만족/불만족하게 한 원인이 무엇일지 대화 상황에서 찾아보는 것으로 메트릭을 잡을 수 있습니다. ✅ LLMs vs 인간의 프롬프트 답변 평가 메트릭을 가지고, 각 프롬프트와 결과값을 평가하는 단계인데요. 예를들어 100개의 대화 데이터셋이라면, 10개의 메트릭을 두고 LLM과 인간이 평가하는거예요. 이 과정에서 나누고 싶은 경험이 있습니다. LLM은 몇 회에 걸쳐 평가를 하더라도, 자기 일관성이 뛰어납니다. 시간도 사람보다 절대적으로 빠릅니다. 그런데, 사람은 한 번 채점하고 두 번 했을 때 자기 일관성이 매우 떨어져요. 프롬프트 자동화 메트릭을 만들던 초기에는, 인간이 무조건 LLM보다 뛰어나다라고 믿었습니다. 네 명의 친구에게 평가 작업을 시켜봤습니다. 이들이 평가한 작업량은, ✔ 900개 턴(single turn/multi turn포함, 약 17,000개)* LLM 3종류 = 51,000 문장입니다 😢 네 명 중 세 명은 중도 포기를 했고, 한 명만 전체 분량의 50% 를 완료했는데, 결과가 처참했습니다. 아무래도 막 점수를 매긴 것이 아닌가해요...그래프를 보시면, 사람 간에도 일관성이 떨어지고, 모델이 평가한 것과 사람간의 결과에도 일치하지 않습니다. 색이 진할 수록 일관성이 떨어짐을 의미하는 그래프 입니다.
3