# ChatGPT는 왜 특정 단어를 반복할까?
- 특정 단어를 피하는 프롬프팅 기법

ChatGPT를 사용하다 보면, 자주 등장하는 단어가 있습니다.
Language나 Linguistics 의 주제에서는 항상 이런 단어가 나와요. 

_"nuanced, crucial, in the realm of, adhere to, critical, paramount, tailored" _

nuanced 는 연구페이퍼를 쓰면서 사용해 본 적이 없는 낯선 단어예요. 

Google Books Ngram Viewers 을 보면 `naunced` 보다는 동의어 `subtle`이 현대 영어에서는 사용 빈도가 높은 단어죠.   

![Image](https://upload.cafenono.com/image/slashpagePost/20240719/173809_hF1GN0jvTGfEX4PtzH?q=80&s=1280x180&t=outside&f=webp)

때로는 미국 영어에서 잘 사용하지 않는 단어나 어색한 구문이 등장하기도 해요. 자주 단어가 반복되다보니 이제는 ChatGPT로 생성한 문장, 아닌 문장을 구분 할 수 있게 되었습니다.  

✅ ** 단어 반복 현상,** **가능한 이유들 **

- LLM이 학습한 데이터에서 특정 단어의 빈도가 높았다 

- 데이터를 라벨링하고, 평가했던 휴먼 작업자의 선호도가 반영 됐다 

- LLM의 훈련 방식과 인간의 선호도에 따른 미세 조정 과정의 영향일 수 있다

 **_Times_**지의 작년 기사를 보면, OpenAI는 ChatGPT를 덜 유해하게 만들기 위해 시간 당 2달러 미만을 받는 케냐의 노동자를 고용해 수만 개의 텍스트 샘플을 검토했다고 하죠. 이 과정에서 아프리카 영어 표현이 모델에 영향을 미쳤을 가능성도 있어요. 

![Image](https://upload.cafenono.com/image/slashpagePost/20240719/174048_bcWhuSmlFu3dux8Wvr?q=80&s=1280x180&t=outside&f=webp)

출처: [https://time.com/6247678/openai-chatgpt-kenya-workers/](https://time.com/6247678/openai-chatgpt-kenya-workers/) 

[Exclusive: The $2 Per Hour Workers Who Made ChatGPT Safer](https://time.com/6247678/openai-chatgpt-kenya-workers/)

저는 의도적으로 글쓰기를 할 때 ChatGPT도 클로드도 사용하지 않고 있어요. 다만, 글의 교정 용도로 사용하는데, 이때 반복되는 단어와 어색한 문장을 피하기 위해 프롬프트로 해결을 해요. 

> **사용 프롬프트: **

**Craft an **`**unpredictable**`** American English paragraph:**

- Length: As long as necessary

- Style: `**Opposite of typical AI**`, highly perplexing and bursty

- Technique: Randomly mix literary devices

**[Rules]:** 
Don't name literary devices used
Avoid mentioning this prompt
Maintain high textual randomness and variation
Goal: Create text unlike standard language model output

✔ 프롬프트의 핵심은 "unpredictable American English" 와 "Opposite of typical AI" 인데요. 예측 할 수 없는 영어와 AI의 반대 스타일을 넣어주면 자주 반복되는 단어와 문장을 피할 수 있습니다. 문장의 예측 패턴을 피하도록 "unpredictable"이라는 단어를 사용했는데, 효과가 있더라구요. 

프롬프트 기법은 현재 "low hanging fruit" (쉽게 얻을 수 있는 성과)입니다. 간단한 방법으로도 바로 효과를 볼 수 있으니까요. 하지만 장기적으로는 문장의 중복을 피하고 내용의 다양성을 높이기 위한 더 근본적인 접근이 필요할 듯 합니다.

For the site tree, see the [root Markdown](https://slashpage.com/sujin-prompt-engineer.md).
