All
VLN
Survey
Dataset
EmbodiedAI
LLM
Useful
Book
NLP
Lecture
CS224N: Natural Language Processing with Deep Learning
Assignment 1 Assignment 2
  1. NLP
  2. Lecture
In Progress
  • T
    TikaToka
Stanford CS25: V4 I Overview of Transformers
CS25 강의는 트랜스포머 이의 적용 새로운 연구방향 신기술 Futureworks 를 얻어가는 것을 목표로 한다. 전반적으로 트랜스포머는 Embodied AI로 가기 위한 좋은 발판이라고 생각하기 때문에, (특히 멀티모달LLM이) 이러한 부분들에 대해 좀 더 자세히 알고 싶어 이 강의를 듣기 시작했다.
  1. LLM
  2. Lecture
In Progress
  • T
    TikaToka
Positional Encoding
처음 Transformer가 나왔을 때는 Cos, Sin을 이용하여 위치를 나타내었다. 최근에는 좀 더 다양한 방법론이 존재한다. Rotary Position Embedding (RoPE) RoPE는 회전 행렬을 사용하여 절대적 위치를 인코딩하고, 셀프 어텐션 공식에 상대적 위치 종속성을 통합하는 방법입니다. 이 방법은 시퀀스 길이 유연성을 가지고 있으며, 상대적 거리가 증가함에 따라 토큰 간 종속성이 감소합니다. RoFormer와 같은 모델에서 RoPE를 사용하여 다양한 장문 텍스트 분류 벤치마크에서 더 나은 성능을 보여주었습니다. Contextual Position Encoding (CoPE) CoPE는 위치를 문맥에 따라 조건부로 설정하는 새로운 방법입니다. 이 방법은 특정 토큰에서만 위치를 증가시켜 문맥에 따라 위치를 조절할 수 있으며, 이는 언어 모델링과 코딩 작업의 복잡성을 개선할 수 있습니다. CoPE는 일반적인 위치 인코딩 방법보다 더 높은 수준의 위치 추상화를 나타낼 수 있습니다. Conditional Positional Encoding (CPE) CPE는 비전 트랜스포머(Vision Transformers)에서 사용되는 새로운 접근 방식입니다. 이 방법은 트레이닝과 인퍼런스에서 해상도 크기가 달라도 동적으로 적응할 수 있으며, 상대적 위치 인코딩의 이론을 가져가면서도 절대적 위치의 능력을 유지합니다. 이는 이미지 해상도 변경에 따른 동적 변화를 처리할 수 있습니다. Relative Position Encoding Relative Position Encoding은 상대적 위치 정보를 학습 가능한 임베딩 층을 통해 처리하는 방법입니다. 이 방법은 각 위치 정보를 학습하여 lookup table 형식으로 신경망에 전달하며, 상대적 위치를 알게 된 정보를 이용하여 임베딩 테이블을 만들어줍니다.
  1. LLM
Done
  • T
    TikaToka
밑바닥 부터 시작하는 딥러닝
1권 파이썬 입문 (생략)
  1. Book
In Progress
  • T
    TikaToka
How to Read a Paper
Author: S. Keshav Conference / Journal: N/A PDF: https://web.stanford.edu/class/ee384m/Handouts/HowtoReadPaper.pdf tl;dr No need to write for this article Introduction 논문을 어떻게 읽어햐 하는지 배우는 경우는 드물기에 많은 학생들이 어려움을 겪는다. 따라서 이번 article이 도움이 되었으면 좋겠다. Method 논문을 읽을 때는 3단계로 읽게 된다. First pass Title, Abstract, Intro 를 읽기 Section, subsection 이름 읽기 Conclusion읽기 Reference 훑어보고 읽어본게 있나 확인 → 이를 통해 5가지 기준에 대해 평가 Category: 이 논문은 어떤 타입인가? 측정에 관한 건가? 기존 시스템 분석에 관한건가? 연구 프로토타입인가? Context: 이 연구와 관련된 다른 연구는 뭘까? 어떤 이론적 배경이 문제 해결에 쓰였나? Correctness: 논문의 가정이 유효한가?
  1. Useful
In Progress
  • T
    TikaToka
CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction
이 논문은 최근에 참석한 WoRV 팀의 채용설명회를 갔다가 관심이 생겨 한번 읽어보게 되었습니다.
  1. EmbodiedAI
Not Started
  • T
    TikaToka
A Survey of Large Language Models
백수 or 취뽀하면 잔잔하게 쭉 읽으며 정리해 볼 예정입니다...
  1. LLM
  2. Survey
Not Started
  • T
    TikaToka
Navigating the Nuances: A Fine-grained Evaluation of Vision-Language Navigation
Author: Zehao Wang1, Minye Wu1, Yixin Cao4, Yubo Ma3, Meiqi Chen2, Tinne Tuytelaars1 Conference / Journal: EMNLP 2024 Findings PDF: https://arxiv.org/pdf/2409.17313 Code: https://github.com/zehao-wang/navnuances tl;dr VLN 모델의 다양한 지시 유형을 세밀하게 평가할 수 있는 프레임워크를 제시함. 이를 통해 수치 이해, 특정 방향 인식에서 모델의 성능 부족이 드러남. 발견된 문제점을 바탕으로 VLN 모델의 성능 향상을 위한 구체적 방향성을 제공함. Motivation 기존 VLN 모델의 한계: VLN 모델이 복잡한 내비게이션 지시를 제대로 이해하고 실행하는 능력이 과대평가되었을 가능성이 있다. 세밀한 평가 필요성: VLN Task를 더 작은 단위로 쪼개어 다양한 지시 유형에 대해 세밀한 성능 평가가 필요함. → LLM 기반 평가 프레임워크 필요성: LLM기반으로 VLN Instruction을 구성하고 세밀한 평가가 가능한 새로운 프레임워크를 제안하고자 함. Method Context-Free Grammar(CFG) VLN Instruction의 구조를 체계적으로 정의하기 위해 CFG를 사용하여 다양한 지시 유형을 표현. (LLM을 통해 구축) N: 비종결기호 (방향, 객체, 행동) T: 종결기호 (방향지시어, object 이름) P: 생성 규칙 (N들이 어떻게 T나 다른 N으로 변환될 수 있는지 규칙) 3~7 N → T N → N S: 시작 기호
  1. VLN
  2. Dataset
  3. EmbodiedAI
Done
  • T
    TikaToka