본 논문은 2023년과 2024년 Text Retrieval Conferences에서 개최된 Plain Language Adaptation of Biomedical Abstracts (PLABA) 트랙에 대한 결과를 보고한다. PLABA 트랙은 전문적인 의학 문헌을 일반인이 이해하기 쉬운 평이한 언어로 변환하는 최신 언어 모델의 성능을 평가하기 위해 기획되었다. 두 가지 과제(Task 1: 초록 전체의 재작성, Task 2: 어려운 용어 식별 및 대체)를 통해 다양한 모델(다층 퍼셉트론부터 대규모 사전 훈련된 트랜스포머까지)의 성능을 자동 및 수동 평가하였다. 결과적으로, 상위 모델들은 Task 1에서 사실 정확성과 완전성 면에서 인간 수준에 근접했으나, 간결성과 간략성에서는 부족함을 보였다. Task 2에서는 어려운 용어 식별 및 대체 방법 분류에 어려움을 겪었으나, LLM 기반 시스템은 대체어 생성 측면에서 정확성, 완전성, 간결성 면에서 좋은 성능을 보였다. 자동 평가 지표는 수동 평가와 상관관계가 낮았다.