Sign In

Watson: A Cognitive Observability Framework for the Reasoning of LLM-Powered Agents

Created by
  • Haebom
Category
Empty

저자

Benjamin Rombaut, Sogol Masoumzadeh, Kirill Vasilevski, Dayi Lin, Ahmed E. Hassan

개요

본 논문에서는 빠른 속도의 대규모 언어 모델(LLM) 기반 에이전트의 불투명한 암묵적 추론 과정을 관찰하고 디버깅할 수 있는 새로운 프레임워크인 Watson을 제시합니다. Watson은 LLM 기반 에이전트의 암묵적 추론 과정을 추적하여 예상치 못한 동작이나 오류를 식별하고 수정 방향을 제시합니다. Massive Multitask Language Understanding (MMLU) 벤치마크와 SWE-bench-lite를 사용한 실험을 통해 Watson의 정확성과 유용성을 검증하였으며, 모델이나 에이전트의 인지 구조를 업데이트하지 않고도 MMLU와 SWE-bench-lite에서 Pass@1을 각각 7.58 (13.45% 상대적 개선), 7.76 (12.31% 상대적 개선) 퍼센트 포인트 향상시켰습니다.

시사점, 한계점

시사점:
LLM 기반 에이전트의 암묵적 추론 과정을 관찰하고 디버깅할 수 있는 새로운 방법을 제시합니다.
모델이나 에이전트의 구조 변경 없이 성능을 향상시킬 수 있습니다.
MMLU 및 SWE-bench-lite와 같은 다양한 작업에서 성능 향상을 보여줍니다.
한계점:
Watson의 정확성은 사용된 LLM 및 에이전트의 설계에 의존적일 수 있습니다.
복잡한 추론 과정을 가진 에이전트에 대한 적용 가능성 및 효율성에 대한 추가적인 연구가 필요합니다.
특정 벤치마크에 대한 결과이므로 일반화 가능성에 대한 추가 검증이 필요합니다.
👍