[기록] 배움

매일 수시
흔적 기록하기
All
개발환경
Prompt
LLM
LLM 별 성능 비교 사이트
10.29(화) 서빙된 Models LMSYS https://lmarena.ai/
  1. LLM
  • 권준혁
Prompt Study 일기
<Prompt Research 시작 일기> LLM의 hyper-parameter 중 temperature에 대한 기록. api나 playground를 통해 llm(특히, GPT or Claude)을 사용하다보면 hyper-parameter인 temperature, top_p, presense_penalty, frequency_penalty, stop(or stop_sequence)를 볼 수 있다. 하나씩 정리해보고자 한다. Temperature (온도): 물의 온도를 생각해보자. 물이 팔팔 끓으면 수증기로 기화가 되어서 자유분방하게 날라다닌다. -> LLM의 temperature를 높일수록 creative가 높아진다. -> 단, 기화가 될 정도로 높이면 수증기가 날라다니듯, 글자도 깨져서 날라다닌다. 온도를 낮추면 물이 얼어서 얼음이라는 고체가 된다. -> LLM은 상당히 사무적이고 딱딱하면서 고정적인 답변을 되돌려 준다. -> 반복적이고 비교적 정확성을 요구하는 task에 대해서 보통은 온도를 낮춘다고 한다. However, [The Effect of Sampling Temperature on Problem Solving in Large Language Models, M Renze, E Guven(2024)]를 보면, 0.0 ~1.0 사이에서 accuracy에 대한 통계적 유의성은 거의 없다. Task별, 모델별, 상황에 맞게 temperature를 변경해야 한다. temperature는 보통 0.0~2.0 사이로 맞추는데, 1.0을 넘어가면서부터는 창의성과 성능 사이의 trade-off가 발생한다. 필요에 따라 잘 조절할 필요가 있다고 생각한다. temperature가 낮을수록 확률적 변동성이 줄기 때문에 답변의 일관성을 높일 수 있는데, 이런 경향 때문인지 복잡한 업무, 정밀한 업무를 할 때에도 temperature를 0으로 고정해놓고 사용하는 경우를 종종 겪었다. 하지만, 필요에 따라 0.0~1.0으로 변동을 할 필요가 있어보인다. 실례로, gpt 4o 기준 temperature: 0.6 상태에서 아무 문제 없이 수학 문제의 정답을 잘 추론했는데, 0.0으로 낮췄더니 오답률이 80%가 증가하는 케이스도 있었다. (40회 반복 테스트 중) 문제에 따라서, 필요도에 따라서 temperature는 지속적인 튜닝이 필요한 것으로 보인다. 개인적으로 0.25로 맞춰 놓고 고도화를 진행할 때 조금씩 줄여보거나 높이는 방향으로 테스트 해보고 있다.
  1. Prompt
  • 권준혁
Terminal 꾸미기 | iTerm2 in VSCode(Cursor)
1. Terminal Mac 환경에서 cmd + space 후 terminal 타이핑하면 실행시킬 수 있음 CLI 환경으로 git, .py 등 다양한 개발 환경에서 작업할 시 필수적으로 사용하게 되는 툴(window의 powershell) 단점 : 불편한 사용성, 경로 파악의 어려움, 이름이 너무 김 원래 다이어리도 다꾸부터 개발자는 아니지만, 개발자 친구들은 다들 꾸며놓길래... 출처: Hemudi | Hemdi 님의 velog 글을 참조 2. 준비물 다운로드 ✓ iTerm2 : 가상 터미널 어플리케이션 ✓ Homebrew : macOS 용 패키지 관리자 ✓ ZSH : 터미널 shell 환경을 위한 도구 ✓ Oh My ZSH : zsh 설정 관리를 위한 프레임워크 2-1. iTerm2 설치 → iTerm2 공식홈페이지 Download 클릭 Move to Applications Folder 클릭 및 기타 사항 Yes 클릭 2-2. Homebrew 설치
  1. 개발환경
  • 권준혁