QnA

프롬프트와 프롬프트 엔지니어링 관련 질문을 위한 공간입니다.
- 패스트 캠퍼스 온/오프라인 프롬프트 엔지니어링 강의
- 책 <프롬프트 엔지니어의 업무일지>
자유롭게 물어봐주시고 의견 나누어 주세요 : )
Publish now
Loading...
J
Jerzy Kukuczka
J
1
👍
얼음 같은 파랑 비
1
👍
M
MS Lee
M
2
👍
M
MS Lee
M
T
2
👍
1
J
Jerzy Kukuczka
J
T
7
👍
1
이계홍
T
2
👍
1
불안한 분홍 태양
👍
1
숨겨진 터쿼이즈 종이
1
👍
이경원
1
👍
숨겨진 터쿼이즈 종이
1
👍
향기로운 라벤더 야생화
1
🍀
1
향기로운 라벤더 야생화
2
🍀
2
가을 청록 목소리
T
2
🍀
1
얼음 같은 파랑 비
👍
2
시원한 진홍 눈
1
👍
1
🍀
2
건조한 하늘색 강
1
🍀
1
어두운 베이지 산들바람
2
☘️
1
어두운 베이지 산들바람
1
☘️
1
이성운
1
🍀
1
섬세한 갈색 바람
3
🍀
1
가을 청록 목소리
2
🍀
1
레리삐
1
☘️
1
어두운 베이지 산들바람
1
☘️
1
건조한 하늘색 강
2
👍
1
김희진
T
2
👍
1
Share
김지민
Category
Empty
Participants
Activity
안녕하세요 대표님, 오늘 좋은 북콘서트를 열어주셔서 감사합니다. 유익하고 많이 배웠습니다!

<프롬프트 구성 순서 관련>
1. 동일한 내용(시스템 프롬프트, 검색된 문서, 질문)이라도 순서에 따라 결과가 달라지더라구요.
혹시 프롬프트의 구성 순서가 프롬프트를 설계할때 중요한 요소일까요?

<RAG 시스템 - 프롬프트 평가>
2. rag의 프롬프트 결과를 만족도로 평가하기에는 한계(시간, 인력)가 있다고 생각합니다. 개발자는 도메인(법, 금융, 의학) 지식이 부족하니, 프롬프트 설계는 물론 평가할때 (할루시네이션 유무, intent를 잘 파악, context 활용)기준을 다 체크하기엔 힘듭니다.대표님께서는 어떤 기준과 방법으로 프롬프트 성능을 평가하시나요?

<테스트 케이스 생성>
3. 저는 문서내용 기반으로
사용자 의도를 예측한 질문, 정답 답변(GT), 모델 답변 이렇게 하고 나온 결과를 평가합니다.
프롬프트를 평가할 도메인 (법, 의학)
질문(테스트케이스)을 만드는 것도 일이더라구요.. 저는 llm의 도움을 받지만,, 대표님께서는 테스트 케이스를 직접 만들어서 평가하시나요? 어떻게 하시나요?
위의 질문들은 제가 직접 사내 rag 시스템의 프롬프트를 테스트 하고 평가하면서 겪고 고민하고 있었던 부분입니다 감사합니다.

2
👍🏻
1
Sujin_Kang
안녕하세요, 지민님
북콘서트에 와주셔서 감사합니다.
다음의 답변이 도움이 됐으면 좋겠는데요, 저도 고민을 하고 있는 부분인지라, 경험한 것만 말씀드려요.
<프롬프트 구성 순서 관련>
동일한 내용(시스템 프롬프트, 검색된 문서, 질문)이라도 순서에 따라 결과가 달라지더라구요.
순서가 프롬프트를 설계할때 중요한 요소일까요?
네~ 순서 중요하고 절대적으로 영향을 미칩니다. 어떤 요소를 어떤 순서에 따라 놓느냐에 따라 결과가 달라져요. 예를들어, 번역 같은 경우는 "명령문" -"문서" 의 순서가 정확한 번역의 결과를 얻으니까요. 하려는 과제에 따라, 순서가 참 중요합니다. 그래서, 프롬프트를 어느 정도 제작했다면 요소별 구조테스트를 진행합니다.
<RAG 시스템 - 프롬프트 평가>
2. rag의 프롬프트 결과를 만족도로 평가하기에는 한계(시간, 인력)가 있다고 생각합니다. 개발자는 도메인(법, 금융, 의학) 지식이 부족하니, 프롬프트 설계는 물론 평가할때 (할루시네이션 유무, intent를 잘 파악, context 활용)기준을 다 체크하기엔 힘듭니다.대표님께서는 어떤 기준과 방법으로 프롬프트 성능을 평가하시나요?
말씀하신대로, 일일이 . 다 체크하기는 참 어렵습니다. 이 것도 어떤 task냐에 따라서 평가 기준과 테스트 기준이 다를텐데요. 할루시네이션 유무는, 정답지를 어느정도 만들어두고 생성한 결과와 대조하고 → 도메인을 잘 알고 있는 사람의 검증을 두번 거쳐요. intent-checking 은 llm에 의해 하고 있고, 메트릭스를 그때그때 만들어서 평가하고 있어요. 우선, rag한정하여 말씀드리면 데이터를 처리하는 과정에서 최대한 제가 만든 기준에 맞도록 처리했더니 평가가 조금 수월해지더라구요.
<테스트 케이스 생성>
3. 저는 문서내용 기반으로 사용자 의도를 예측한 질문, 정답 답변(GT), 모델 답변 이렇게 하고 나온 결과를 평가합니다.
프롬프트를 평가할 도메인 (법, 의학) 질문(테스트케이스)을 만드는 것도 일이더라구요.. 저는 llm의 도움을 받지만,, 대표님께서는 테스트 케이스를 직접 만들어서 평가하시나요? 어떻게 하시나요?
위의 질문들은 제가 직접 사내 rag 시스템의 프롬프트를 테스트 하고 평가하면서 겪고 고민하고 있었던 부분입니다 감사합니다.
테스트케이스는 정성적으로 수집한 것을 사용하고 있습니다. 좀 고생이기는 하지만, 그래도 테스트 결과를 보는데 작위적인 것을 쓸 수는 없겠더라구요. 여러 케이스별로 수집해두었습니다.
김지민
박사님 답변 감사합니다.
<순서>
역시 순서가 중요하군요
요소별 구조테스트를 해봐야겠네요. 감사합니다~
<평가>
intent-checking 할때 메트릭스를 그때그때 만들어서 한다고 하셨는데, 어떤 메트릭스를 말씀하는 건지 예를 들어주실 수 있나요?
<테스트케이스>
테스트케이스를 정성적으로 수집하시군요
역시 계속 하면서 느끼는건데 아직까지는 사람의 터치가 많이 필요한것같아요
박사님 덕분에 가려운 곳이 조금 해소되었네요. 물어볼 곳이 없어 막막했거든요.. 감사합니다!
<추가질문>
아 추가적으로 프롬프트 엔지니어링 할때 이런 경험? 팁?을 공유하는 커뮤니티나 유튜브는 없을까요? 북콘서트에서 박사님은 프롬프트 아이디어를 얻는 곳이 논문이라고만 대답 하셨는데, 따로 더 추천해주실 곳은 없을까요? :)
See latest comments