[Google Colab] 웹페이지 긁어서 다수의 논문 제목&초록 가져오기

한국어 프롬프트 작성 전략

[공손함 | 적절한 길이 | 난이도]의 골디락스 존을 찾아야 됨 적절한 공손함, 길이, 난이도의 수준을 찾는 것이 중요. 중간 값이 아닌 상황에 맞는 최적의 값을 찾아야 함. 1. 공손성 한국어의 특성 한국어는 영어와 달리 어순이 유연하고, 맥락에 따라 의미가 달라지는 경우가 많은 고맥락 언어. 즉, 문맥과 상황에 따라 의미가 크게 달라짐. 따라서, 단순히 명령어만 입력하는 것보다, 상황에 맞는 컨텍스트를 충분히 제공해야 LLM이 의도를 정확하게 이해하고 원하는 결과를 생성할 수 있음. 공손한 표현의 중요성 한국어는 공손성이 매우 발달한 언어로 이러한 언어적 특징을 고려한 프롬프트 작성이 LLM의 응답 품질 향상에 기여할 수 있음. 답변 요청 시점에 미리 감사를 표현하기보다는, 프롬프트의 섹션/토픽 전환 시 감사 표현을 넣는 것이 더 효과적일 수 있음. 공격적인 말투의 부정적 영향 "너 이것밖에 못해?", "너 진짜 멍청하다" 와 같이 공격적이고 비공손한 말투를 사용하면 AI의 응답에 부정적 편향이나 거친 표현을 유발할 수 있음. 요약 작업과 공손 표현 요약 작업(특히 RAG에서)에서 공손한 표현 사용이 성능 향상에 도움이 될 수 있음. 요약 품질에는 공손성이 중요하지만, 요약 길이는 큰 영향을 미치지 않음. 품질 vs. 길이: 요약의 퀄리티와 길이는 별개의 요소임. 공손한 표현은 요약 품질 향상에 기여함.

프롬프트 엔지니어링

영민

Dec 26, 2024 11:58 PM

프롬프트 엔지니어링의 마인드셋

프롬프트 엔지니어링은 프롬프트 툴 사용자와 다르다 프롬프트 엔지니어링은 다음의 3단계를 모두 포함하는 전반적인 과정임을 이해해야 한다. 프롬프트 작성: 단순히 명령어 입력과 컨텍스트 추가만으로는 부족. 프롬프트 파이프라이닝: 여러 단계의 프롬프트를 연결하여 사용. 아웃풋 조정: 결과물을 조정하고 엔지니어링 단계에서 발생하는 문제들을 해결하는 단계. 단순히 문장을 잘 쓰는 것 이상의 기술적 이해와 엔지니어링 능력이 필요. 프롬프트 엔지니어링 세대별 트렌드 1세대: 생성형 AI를 가르치는 단계. Think out loud] GOT 같은 기법들이 개발 단계에서 주로 사용. 2세대: 생성형 AI의 API를 활용하여 유저에게 어떤 효용을 제공할지 연구하는 단계. User interection(feedback, voting)에 대한 연구가 활발. 3세대: 결과물 고도화와 LLM의 한계(할루시네이션 등) 극복에 집중하는 단계. 더욱 고도화된 추론 기법들이 주목. Moving Target Syndrome 프롬프트 엔지니어링 분야에서, 빠르게 변화하는 정보와 기술 환경으로 인해 최적의 방법론을 찾기 어려운 현상을 말함. 하루가 다르게 새로운 정보가 쏟아져 나오고, 이전에 효과적이었던 방법이 금방 구식이 될 수 있음. 최적의 프롬프트 작성법에 대한 확신을 갖기 어렵게 만들고, 지속적인 학습과 적응이 필요. 지속적인 학습과 최신 연구 동향 파악, 다양한 모델과 방법론에 대한 실험과 비교 분석, 객관적인 평가 기준 마련 등이 필요함.

프롬프트 엔지니어링

영민

Dec 25, 2024 1:16 AM

[Claude] 소동물 임상 조언을 구하는 제로샷 프롬프트

기획 소견서를 쓰거나 주치의와 논의를 하다보면 사실 여부 확인이나 잘 기억이 나지 않는 부분들을 빠르게 확인하고 싶을 때가 있다. 물론 GPTs를 사용하는 방법도 있지만, 용어의 한글화가 과한 경우가 있기도 해서 한글 번역이 되려 무슨 말인지 모르거나 용어를 놓쳐서 내용 파악이 수월하지 않은 부분도 있다는게 문제다. GPT와 클로드를 사용해보면 클로드가 한국어를 좀 더 잘 이해하고 매끄럽게 표현하다보니 복잡한 작업을 요청하는게 아니라면 클로드가 편할 때도 있다. GPTs 만드는 것 만큼의 수고를 들이지 않고 모델의 학습 내용에서 할루시네이션만 최소화 할 수 있는 간단한 프롬프트를 만들어 보고자 한다. 목적 클로드에서 간단하게 쓸만한 제로샷 프롬프트를 작성. 상세 코드 블럭에 넣어 놓고 필요할 때 꺼내써서 하고 질문만 입력하는 용도. 사실 관계의 구분과 사실들을 종합한 내용을 간단하게 확인하는 용도. 모델이 학습한 지식 수준으로도 커버가 될만한 굳이 최신 내용이 아니어도 되는 내용 확인. 프롬프트 ver 1.01 문제점 할루시네이션이 완전히 잡히진 않음. GPT보다는 덜해도 과한 한글화가 나타나는 경우가 있음. 고찰 프로젝트에 써도 됨. 한글화 정도 0.7 같이 가상의 수치를 입력하니 과한 한글화가 조정됨. GPT에도 먹히네?!

프롬프트

Claude

영민

Nov 28, 2024 3:27 AM

[Google Colab] 웹페이지 긁어서 다수의 논문 제목&초록 가져오기

기획 TLDR... 시간은 많지 않고 읽어야 될 논문들은 많다. PDF를 요약하고 임상적으로 활용할 지식들을 추려내는 과정은 생각보다 많은 시간이 필요하다. 어떤 논문들은 원문을 모두 읽지 않고 초록만으로도 임상적으로 활용할 내용들을 획득할 수도 있다. 또한 오픈 소스가 아닌 연구의 경우는 구매가 아니면 원문 열람이 어려운 경우들도 많다. 소동물 임상에서 논문을 공부하는 의도는 과별로 다르다. 경우에 따라 의도를 명확히 한다면 초록에서도 충분히 임상적으로 활용할 인사이트를 얻어낼 수 있기도 하다. 예를 들어 영상의학에서 특정 질환을 판단하는 특정 index의 cut-off value 라던지, A와 B 질환을 구분하는 영상의학적 특징, 특정 질환 검출에 활용하는 novel method 같은 것들은 초록으로도 충분히 획득 가능하다. 현재까지는 GPTs를 활용해 doi URL의 텍스트를 긁어다 놓으면 메타데이터와 내 의도에 부합한 내용 위주로 구조화해서 옵시디언용으로 출력하는 챗봇을 사용하고 있다. 기존 논문 공부 시간을 많이 줄여주기는 했지만, 이 과정도 각 연구들의 URL을 열고 일일이 드래그 & Ctrl+C, 챗봇에 Ctrl+V 하는 과정이 여간 수고스러운 일이 아닐수 없다. URL만 던져주면 크롤링을 하는 방법도 있기는 하나, 크롤링을 제한하는 곳들도 있어서 그냥 연구 제목부터 초록까지 긁어다가 GPTs에 던져주는게 속 편하긴 하다. 초록만으로 충분한 답을 얻을 수 있는가? 물론 아닌 경우도 있다. 속도를 가져가는 만큼 어느정도의 정보 소실은 감수해야 한다. 허나, 추후 RAG 활용을 위한 DB 구축과, 나 자신도 양질의 도메인이 되기 위해서는 정해진 지식을 습득하는 효율과 시간도 중요하다. 💡기획 아이디어는 여기서 시작됐다. 저널의 issue 웹페이지의 텍스트들을 드래그해서 붙여넣으면 논문 제목, 초록, 메타데이터까지 받아와 raw data를 만드는 절차를 자동화 하면 어떨가? 이후 GPTs에 던져주기만 하면 옵시디언으로 변환하는 것은 쉽다. 이는 주요 저널들의 연도별 논문들을 빠르게 DB화 시킬 수 있을 것이다. 목표 Issue 페이지의 텍스트를 긁어다가 붙여넣으면 논문 제목들을 추출하고, 각 논문에 대한 초록과 메타데이터를 받아오는 코드를 작성. 상세 단순 텍스트 덩어리들에서 연구 제목들을 추출하려면 LLM 활용이 필요. 제미나이 무료 api로도 충분히 해낼 수 있는 작업이니 제미나이를 활용. 추출된 논문 제목들로 쿼리를 만들어 crossref api에서 각 논문의 초록과 메타데이터를 가져와 데이터프레임을 만들고 csv로 저장.(serpapi, semantic scholar는 저널명, doi 응답이 생략되거나 부정확한 경우가 있었음) 코드 ver 1.01 ver 1.01 문제점 제미나이 프롬프트를 바꿔보았지만 개 혹은 고양이가 아닌 다른 동물을 대상으로 한 논문을 걸러내는 수준이 떨어짐. interation 에 따라 추출하는 논문이 누락되는 경우가 간혹 있음.

구글코랩

Gemini

영민

Nov 26, 2024 2:13 AM

[GPTs] 논문 요약 프롬프트

목적 PDF를 업로드 하거나 제목을 입력했을 때 내용 요약 및 임상적 활용을 제공. 옵시디언에 바로 붙여넣을 수 있는 코드 블럭으로 출력. Properties 반영 버전 관리 Ver 1.01 프롬프트 Actions gpts.webpilot.ai api.scholarai.io 문제점 및 보완 오픈 소스가 아닌 연구의 경우 내용 구조화 및 임상적 활용에 대한 구체적인 답변을 기대하기 어려움. PDF 직접 업로드로 변경 Iteration 마다 용어의 재현성이 다름. 무리한 한글화가 내용 파악을 저해시킴. 출력 형식에 순서를 변경. 가끔 영어로 나오면 새 채팅 시작이 나은듯 논문 제목을 노트 파일명으로 하는 부분의 문제: 파일명 길어짐, 못 쓰는 기호(:) 키워드 위주로 노트명을 작성하고 properties에 title을 넣음 프롬프트가 너무 늘어짐. 일부 파라미터는 txt로 보완.

프롬프트

GPTs

영민

Nov 17, 2024 6:32 PM

🚀 생산성

기획

목표

상세

코드

사용 설명