# Large Language Models for Cancer Communication: Evaluating Linguistic Quality, Safety, and Accessibility in Generative AI

### 저자

Agnik Saha, Victoria Churchill, Anny D. Rodriguez, Ugur Kursuncu, Muhammed Y. Idris

### 개요

본 연구는 유방암 및 자궁경부암에 대한 효과적인 의사소통의 어려움과 이로 인한 진단 및 치료 지연 문제를 해결하기 위해 대규모 언어 모델(LLM)의 활용 가능성 및 한계를 평가했습니다. 5개의 범용 LLM과 3개의 의료 LLM을 대상으로 언어적 품질, 안전성 및 신뢰성, 의사소통 접근성 및 효과성을 혼합 방법론적 평가틀을 이용하여 평가했습니다. 정량적 지표, 정성적 전문가 평가, Welch's ANOVA, Games-Howell, Hedges' g를 사용한 통계 분석을 통해 범용 LLM은 더 높은 언어적 품질과 효과성을 보였으나, 의료 LLM은 더 높은 접근성을 보였습니다.  반면 의료 LLM은 잠재적 위해, 독성 및 편향이 더 높아 안전성 및 신뢰성 측면에서 성능이 떨어졌습니다.  결과적으로 건강 정보 전달에서 도메인 특화 지식과 안전성 간의 이중성이 드러났으며,  모델 설계 시 위해 및 편향 완화, 안전성 및 효과성 개선을 위한 노력이 필요함을 시사합니다.

### 시사점, 한계점

- **시사점:**

    - 범용 LLM과 의료 LLM의 강점과 약점을 명확히 제시하여 LLM 기반 의료 정보 제공 시스템 개발에 중요한 시사점을 제공합니다.

    - LLM을 활용한 건강 정보 전달의 효과성과 안전성 향상을 위한 구체적인 방향을 제시합니다.

    - AI 기반 디지털 건강 도구 개발에 대한 중요한 통찰력을 제공합니다.

- **한계점:**

    - 평가에 사용된 LLM의 종류와 수가 제한적일 수 있습니다.

    - 평가 틀의 객관성 및 일반화 가능성에 대한 추가적인 검토가 필요할 수 있습니다.

    - LLM의 안전성 및 편향 문제에 대한 더욱 심층적인 연구가 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2505.10472)

![https://i.imgur.com/4RtPupk.jpeg](https://i.imgur.com/4RtPupk.jpeg)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).