Share
Sign In
🧮

논증

언어 모델을 이용한 추론 작업은 현재 인공지능 분야에서 중요하면서도 도전적인 영역 중 하나입니다. 추론 작업은 정보를 분석하고, 그로부터 논리적인 결론을 도출하는 과정을 포함합니다. 이는 단순한 정보 검색이나 텍스트 생성을 넘어서는 더 복잡한 수준의 작업입니다.
Prompt : 57*32의 답은 무엇입니까?
🤖
57과 32를 곱한 결과는 1824입니다.
이런 간단한 문제는 이제 곧잘 풉니다. 조금 어려운 문제를 가져와 보겠습니다.
Prompt : 242,343,232,12,1,423,3,2,433,42,21,51,26중 홀수인 숫자들을 더해보시오.
🤖
주어진 숫자 중에서 홀수인 숫자들을 더해보겠습니다:
홀수 숫자: 343, 1, 423, 3, 433, 21, 51
더하면: 343 + 1 + 423 + 3 + 433 + 21 + 51 = 1675
따라서, 주어진 숫자 중 홀수인 숫자들을 더하면 1675가 됩니다.
정답인가요? 아닙니다. 틀렸습니다. "1275"가 정답입니다. 이런 일은 왜 일어나는 것일까요?
언어 모델, 특히 대규모 언어 모델(Large Language Model, LLM)은 다양한 종류의 데이터를 처리하고, 복잡한 문맥에서 의미를 추출하는 능력을 갖추고 있습니다. 하지만 이러한 모델들이 추론 작업을 수행하는 데에는 여전히 한계가 존재할 수 밖에 없습니다.
텍스트 기반 학습: 언어 모델은 주로 문장, 문단, 대화 등의 텍스트 데이터로 훈련됩니다. 이 데이터는 주로 언어의 의미, 문맥, 구문 등을 반영하며, 숫자 계산이나 정확한 수학적 처리보다는 언어적 의미에 중점을 둡니다.
통계적 추론: 언어 모델은 통계적인 방법을 사용하여 가장 가능성이 높은 단어나 문장을 예측합니다. 이 과정은 언어의 패턴을 인식하고 모방하는 데 효과적이지만, 복잡한 수학적 계산이나 논리적 추론을 수행하는 데는 제한적입니다.
데이터의 다양성과 한계: 학습 데이터에 숫자 계산이나 수학적 문제 해결과 관련된 예시가 충분히 포함되어 있지 않다면, 모델은 이러한 유형의 문제를 처리하는 데 어려움을 겪을 수 있습니다.
언어 중심의 설계: 언어 모델은 주로 언어 이해와 생성에 초점을 맞춰 설계되었으며, 수학적 능력은 이러한 모델의 주요 목적이나 기능이 아닙니다.
물론, 그렇다고 이대로 두는 건 인공지능 연구하는 분들이 아니죠. GPT-4 등에선 기존의 추론/계산에 전문화 된 라이브러리 등을 써서 코딩을 통해 이 문제를 해결하고 있습니다. 실제로 GPT-4에서 이를 실행해 보면 다음과 같이 문제를 해결합니다.
# 정의된 숫자들의 리스트 numbers = [242, 343, 232, 12, 1, 423, 3, 2, 433, 42, 21, 51, 26] # 홀수인 숫자들만 필터링 odd_numbers = [num for num in numbers if num % 2 != 0] # 홀수인 숫자들의 합계 계산 sum_of_odd_numbers = sum(odd_numbers) sum_of_odd_numbers --- output: 1275
이러한 한계를 극복하기 위해서는 더욱 발전된 프롬프트 엔지니어링 기술이 필요합니다. 프롬프트 엔지니어링은 모델에게 더 명확하고 구체적인 지시를 제공하여, 원하는 정보나 답변을 더 정확하게 도출할 수 있도록 하는 기술입니다. 예를 들어, 복잡한 문제 해결이나 의사결정 과정에서 필요한 다양한 변수와 조건들을 모델이 이해할 수 있도록 명확하게 제시하는 것이 포함됩니다. 위의 예시에선 이렇게 활용이 가능합니다.
변경 전
Prompt : 242,343,232,12,1,423,3,2,433,42,21,51,26중 홀수인 숫자들을 더해보시오.
변경 후
Prompt : 242,343,232,12,1,423,3,2,433,42,21,51,26 를 홀수와 짝수로 구별한 다음 홀수 인 숫자를 모두 더하시오. 이를 순서대로 진행해 주세요.
💡
주어진 숫자를 홀수와 짝수로 구별하고, 홀수 숫자를 순서대로 더해보겠습니다:
홀수: 343, 1, 423, 3, 433, 21, 51
홀수 덧셈: 343 + 1 + 423 + 3 + 433 + 21 + 51 = 1275
따라서, 주어진 숫자 중 홀수인 숫자들을 모두 더하면 1275가 됩니다.
프롬프트만 변경했을 뿐인데 맞는 답을 도출해 낸 것을 알 수 있습니다. 사람에게 무언가를 가르칠 때도 순차적으로 하나씩 단계별로 수행하게 하면 이해도 빠르고 작업의 품질이 높아지는 것과 같습니다.
아직 언어 모델을 이용한 추론 작업은 아직 발전 중인 영역이며, 이를 효과적으로 수행하기 위해서는 어떻게 명령을 내리는 역량이 필요합니다. 이러한 방법은 모델의 추론 능력을 최대한 활용하고, 복잡한 문제 해결에 도움을 줄 수 있습니다.
ⓒ 2023. Haebom, all rights reserved.
출처 표시를 하고, 저작권자 허락 하에 영리적 목적으로 쓰일 수 있습니다.
👍