본 논문은 다중 뷰 컴퓨터 비전에서 3D 인식을 위해 카메라 기하학 정보를 활용하는 Transformer 기반 방법들을 비교 분석합니다. 특히, 토큰 단위 광선 지도 인코딩, 어텐션 단위 상대적 자세 인코딩, 그리고 새로운 상대적 인코딩 기법인 PRoPE(Projective Positional Encoding)을 제안합니다. PRoPE는 카메라의 내부 및 외부 매개변수를 모두 포함하는 완전한 카메라 프러스텀을 상대적 위치 인코딩으로 표현합니다. 실험 결과, 상대적 카메라 조건화가 피드포워드 방식의 새로운 뷰 합성 성능을 향상시키며, 특히 PRoPE를 사용했을 때 더 큰 성능 향상을 보임을 보여줍니다. 이러한 성능 향상은 공유 및 다양한 내부 매개변수를 가진 장면, 토큰 및 어텐션 수준 조건화 결합, 그리고 분포 외 시퀀스 길이 및 카메라 내부 매개변수에 대한 일반화 등 다양한 설정에서 확인되었습니다. 또한, 스테레오 깊이 추정 및 공간적 인식과 같은 다른 작업 및 더 큰 모델 크기에 대해서도 이러한 이점이 유지됨을 확인했습니다.