기획 TLDR... 시간은 많지 않고 읽어야 될 논문들은 많다. PDF를 요약하고 임상적으로 활용할 지식들을 추려내는 과정은 생각보다 많은 시간이 필요하다. 어떤 논문들은 원문을 모두 읽지 않고 초록만으로도 임상적으로 활용할 내용들을 획득할 수도 있다. 또한 오픈 소스가 아닌 연구의 경우는 구매가 아니면 원문 열람이 어려운 경우들도 많다. 소동물 임상에서 논문을 공부하는 의도는 과별로 다르다. 경우에 따라 의도를 명확히 한다면 초록에서도 충분히 임상적으로 활용할 인사이트를 얻어낼 수 있기도 하다. 예를 들어 영상의학에서 특정 질환을 판단하는 특정 index의 cut-off value 라던지, A와 B 질환을 구분하는 영상의학적 특징, 특정 질환 검출에 활용하는 novel method 같은 것들은 초록으로도 충분히 획득 가능하다. 현재까지는 GPTs를 활용해 doi URL의 텍스트를 긁어다 놓으면 메타데이터와 내 의도에 부합한 내용 위주로 구조화해서 옵시디언용으로 출력하는 챗봇을 사용하고 있다. 기존 논문 공부 시간을 많이 줄여주기는 했지만, 이 과정도 각 연구들의 URL을 열고 일일이 드래그 & Ctrl+C, 챗봇에 Ctrl+V 하는 과정이 여간 수고스러운 일이 아닐수 없다. URL만 던져주면 크롤링을 하는 방법도 있기는 하나, 크롤링을 제한하는 곳들도 있어서 그냥 연구 제목부터 초록까지 긁어다가 GPTs에 던져주는게 속 편하긴 하다. 초록만으로 충분한 답을 얻을 수 있는가? 물론 아닌 경우도 있다. 속도를 가져가는 만큼 어느정도의 정보 소실은 감수해야 한다. 허나, 추후 RAG 활용을 위한 DB 구축과, 나 자신도 양질의 도메인이 되기 위해서는 정해진 지식을 습득하는 효율과 시간도 중요하다. 💡기획 아이디어는 여기서 시작됐다. 저널의 issue 웹페이지의 텍스트들을 드래그해서 붙여넣으면 논문 제목, 초록, 메타데이터까지 받아와 raw data를 만드는 절차를 자동화 하면 어떨가? 이후 GPTs에 던져주기만 하면 옵시디언으로 변환하는 것은 쉽다. 이는 주요 저널들의 연도별 논문들을 빠르게 DB화 시킬 수 있을 것이다. 목표 Issue 페이지의 텍스트를 긁어다가 붙여넣으면 논문 제목들을 추출하고, 각 논문에 대한 초록과 메타데이터를 받아오는 코드를 작성. 상세 단순 텍스트 덩어리들에서 연구 제목들을 추출하려면 LLM 활용이 필요. 제미나이 무료 api로도 충분히 해낼 수 있는 작업이니 제미나이를 활용. 추출된 논문 제목들로 쿼리를 만들어 crossref api에서 각 논문의 초록과 메타데이터를 가져와 데이터프레임을 만들고 csv로 저장.(serpapi, semantic scholar는 저널명, doi 응답이 생략되거나 부정확한 경우가 있었음) 코드 ver 1.01 ver 1.01 문제점 제미나이 프롬프트를 바꿔보았지만 개 혹은 고양이가 아닌 다른 동물을 대상으로 한 논문을 걸러내는 수준이 떨어짐. interation 에 따라 추출하는 논문이 누락되는 경우가 간혹 있음.