제가 프로젝트를 리드하고 가이드하는 업무를 하고 있습니다.
그래서 프롬프트 성능 및 생성형 AI 프로젝트를 수행하면서 품질 수준을 평가할 품질 지표, scale, 선정근거 또는 산정식을 프로젝트에 가이드하려고 하는데 마땅히 정의된 것을 찾지 못했습니다.
현재 우리나라의 공인된 기관에서는 데이터에 대한 품질관리 가이드라인은 있지만 프롬프트나 생성형AI 프로젝트에 대한 품질지표는 없어서요.
박사님이 해외 논문을 공부하면서 알고 있는 품질지표 및 품질 수준(이 정도면 pass 수준), 산정식 등에 대해 문의를 드립니다.
특히 품질수준은 고객들은 일반적인 수준/Global Standard 회사들은 이런 품질지표를 80%, 또는 90%를 기준으로 평가한다와 같이 선정한 근거가 되는 hurdle을 요구하기도 합니다.
혹시 가지고 계신 자료 중에 이와 같은 내용이 있거나 참조가 되는 것이 있으면 공유 부탁드립니다.
아 그래서 여러차례 어떤 평가나 테스트 지표에 대해서 문의를 해주셨군요. 말씀하신 것처럼, 아직 이렇다할 품질지표 및 품질 수준에 대한 일반적인 기준이라는 것이 없습니다. 너무 잘 아시겠지만, 도메인에 따라서, 어떤 프로젝트냐에 따라서 "기준"이라는 것을 정성적으로 만들거나, 혹은 정량적으로 평가가 이루어지고 있기 때문이라는 생각이 들어요.
논문들에서도, 벤치마크를 위한 정답이 있는 경우(수학문제, 물리학 문제 등) 를 많이 사용하죠.
제가 온라인 강의에서 소개드리는 기준들은,
일반 생성형 AI를 이용하는 불특정 다수의 사용자가, 사용시에 "만족"할 때의 특징을 평가하기 위해, 제가 연구한 결과의 기준인데요. 이또한 어떤 특정 도메인에 적용하기는 어려운 것 같습니다. 그렇지만, 제 기준이 혹시나 업무에 도움이 된다고 한다면, 기준 정도는 말씀드릴 수 있습니다.