Sign In
카테고리
Empty
참여자
최근활동
오프라인 3기 2주차 강의 질문입니다. - (3)

LLM이 한국어에 대해 토크나이징 과정을 잘 처리하는지?

이미지를 보면
한국어에서는 음절, 형태소, 단어 등 다양한 기준으로 토크나이징 과정을 거치게 되는데
LLM이 음절, 형태소, 단어 등 다양한 기준으로 토크나이징 과정을 거치게 되면
같은 질문을 여러번 수행했을때 토크나이징 기준이 달라질 확률이 높은데 하나의 기준을 정하는 방법이 있는지 궁금합니다.
2
👍
Sujin_Kang
찬모님, 질문에서 하나의 기준이라는 것은
제가 프롬프트를 제작할 때, 단어를 고르는 기준을 물어보는 걸까요? ^^
장찬모
@Sujin_Kang 안녕하세요. 박사님,

저희가 프롬프트 제작할때 단어를 고르는 기준이 아닌
LLM이 토크나이징 할 때의 기준을 저희가 지정할 수 있냐가 더 적합한 질문인것 같습니다.
혼란을 드려 죄송합니다.

See latest comments