# 인공지능은 영상의학의 꿈을 꾸는가?

'Do Androids dream of electric sheep?'를 오마주 한 제목이긴 한데 GPT-4V가 소개 되면서 재밌는 사례들이 나오기 시작했습니다. 다만, 이미지 입력과 처리에 사용되는 토큰 수가 어마어마하기 때문에 비용적 이유로 고부가 가치의 서비스에 사용될 수 밖에 없는데 자연스럽게 떠오른게 영상의학이라 부르는 분야 입니다.

쉽게 말하면 CT, MRI, X-Ray 등의 신체의 일부 혹은 전체를 다양한 매체로 조영하고 촬영하여 진단을 내리는 분야인데 건강검진 혹은 정형외과, 산부인과 등 닿을 수 없는 곳에 보통 자주 사용되는 분야 입니다.

[Greg Brockman](https://x.com/gdb/status/1729483568827744673?s=20)

[The power of prompting](https://www.microsoft.com/en-us/research/blog/the-power-of-prompting/)

이번 EMNLP 2023에 발표한 <[Exploring the Boundaries of GPT-4 in Radiology](https://www.microsoft.com/en-us/research/publication/exploring-the-boundaries-of-gpt-4-in-radiology/)>라는 논문에서 무척 재밌는 내용이 나왔습니다. 

GPT-4에서 생성된 영상의학 보고서 요약이 어떤 경우에는 숙련된 영상의학 전문의가 작성한 보고서 요약보다 선호되었다는 것 입니다.

**예시**

---

🧑‍⚕ : 심비대 및 경미한 간질성 폐부종.

🤖 : 흉터 또는 부종을 나타낼 수 있는 두드러진 주변 불투명도가 있는 안정된 심비대.

추가적으로 Microsoft에서 공개한 [<Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine>](https://www.microsoft.com/en-us/research/publication/can-generalist-foundation-models-outcompete-special-purpose-tuning-case-study-in-medicine/)라는 연구에 따르면, 일반적인 AI 모델인 GPT-4가 의료 분야에서 전문가 수준의 성능을 발휘하는 것으로 나타났습니다. 특히 의료 애플리케이션에 특화된 모델을 능가하는 놀라운 결과를 보여주었습니다. 이 연구는 GPT-4가 다양한 의료 문제 해결 벤치마크에서 뛰어난 성능을 나타내며, 특히 의료 지식을 요구하는 문제에서 기존 모델보다 월등한 결과를 보여주었다고 합니다.

GPT-4는 특별한 fine-tuning 없이도 'Medprompt'라는 방법을 통해 최고의 성능을 달성할 수 있었다고 발표했는데 이게 상당합니다. 이는 GPT-4가 MedQA 데이터셋에서 처음으로 90% 이상의 정확도를 달성하고, 구글이 공개한 Med-PaLM2보다 오진율을 27% 줄였습니다.

![Image](https://upload.cafenono.com/image/slashpagePost/20231129/185530_ykZkuuSJUZLcBwE5qo?q=75&s=1280x180&t=outside&f=webp)

AI 분야의 많은 전문가들은 일반적인 기초 모델을 특정 분야에서 잘 수행하도록 하려면 분야 중심의 fine-tuning이 필요하다고 생각합니다. 하지만 fine-tuning은 비용이 많이 들 수 있으며, 전문가 또는 전문적으로 라벨링된 데이터셋이 필요하고 모델 파라미터 업데이트를 위한 계산도 필요합니다. 이 과정은 많은 자원을 소모하고 비용이 많이 들어, 특히 중소 규모의 조직에게는 어려운 도전이 될 수 있습니다.

이 연구는 일반 모델을 전문가 수준의 모델로 변형하는 데 있어서 prompting 가능성을 더 깊이 탐구하는 것의 가치를 보여줍니다. 더욱 흥미로운 것은, 제시된 prompting 방법들이 전문성을 업데이트할 필요 없이 다양한 전문 분야의 직무 능력 시험에서도 가치가 있음을 보여주었다는 점입니다.

> **쉽게 말하면 fine-tuning 자체에도 비용이 많이 드는데 Prompt 세팅만 가지고도 준수한 성능을 낼 수 있다는 것을 의미 합니다. 즉, fine-tuning이 없기 훌륭한 기본 모델이라면 프롬프트만 잘 세팅해도 특정 도메인의 전문가 수준의 성능을 낼 수 있다는 뜻 입니다.**

이번 발표된 논문과 공개된 연구 결과는 GPT-4와 같은 일반 AI 모델이 특정 분야의 전문가로서의 역할을 할 수 있음을 보여줍니다. 이는 중소기업이나 리소스가 부족한 조직도 고급 AI 기능을 활용할 수 있는 새로운 가능성을 열어줍니다. AI 기술의 발전은 계속될 것이며, 이는 다양한 산업 분야에 혁신적인 변화를 가져올 것으로 기대됩니다.

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).