Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Understand User Opinions of Large Language Models via LLM-Powered In-the-Moment User Experience Interviews

Created by
  • Haebom

저자

Mengqiao Liu, Tevin Wang, Cassandra A. Cohen, Sarah Li, Chenyan Xiong

개요

본 논문은 사용자의 대규모 언어 모델(LLM) 사용 경험에 대한 즉각적인 피드백을 수집하기 위해 LLM 기반 인터뷰 시스템인 CLUE를 제시합니다. CLUE는 사용자가 LLM과 상호 작용한 직후 인터뷰를 진행하고, 방대한 인터뷰 로그에서 사용자 의견을 자동으로 수집합니다. 수천 명의 사용자를 대상으로 주요 LLM에 대한 사용자 의견을 조사한 결과, DeepSeek-R1의 이분법적인 추론 과정에 대한 의견이나 정보의 신선도 및 다양한 모달리티에 대한 요구 등 흥미로운 사용자 의견을 포착했습니다. 코드와 데이터는 공개적으로 제공됩니다.

시사점, 한계점

시사점:
LLM 사용자 경험에 대한 심층적인 이해를 제공하는 새로운 방법론 제시.
LLM의 강점과 약점에 대한 사용자 관점의 직접적인 피드백 확보.
LLM 개발 및 개선 방향 설정에 중요한 데이터 제공.
대규모 사용자 데이터 분석을 통한 객관적인 평가 가능성 제시.
한계점:
CLUE의 인터뷰 방식과 질문 설계에 따른 편향 가능성 존재.
사용자 표본의 대표성 및 일반화 가능성에 대한 추가 검증 필요.
LLM의 특정 기능에 대한 편향된 평가 가능성.
자동 분석 시스템의 정확도 및 신뢰도에 대한 추가적인 평가 필요.
👍