본 논문은 3D 형태 인식에서 최고 성능을 달성하는 데 매우 효과적인 다중 뷰 투영 기법의 한계점을 극복하기 위해, 고정된 카메라 뷰포인트 대신 학습 가능한 뷰포인트를 사용하는 다중 뷰 변환 네트워크(MVTN)를 제안합니다. MVTN은 미분 가능한 렌더링을 사용하여 3D 형태 인식에 최적의 뷰포인트를 결정하며, 3D 형태 분류를 위한 어떠한 다중 뷰 네트워크와도 end-to-end로 학습될 수 있습니다. 메쉬와 포인트 클라우드 모두에 적용 가능한 새로운 적응형 다중 뷰 파이프라인에 MVTN을 통합하여 ModelNet40, ScanObjectNN, ShapeNet Core55 벤치마크에서 최첨단 성능을 달성했습니다. 또한, 기존 방법보다 향상된 폐색에 대한 강건성을 보이며, 2D 사전 학습 및 분할 작업에 대한 추가적인 분석과 PyTorch 기반 3D 이해 및 생성 라이브러리 MVTorch를 공개합니다.