Hulk는 2D 및 3D 비전, 골격 기반, 비전-언어 작업을 포함한 다양한 인간 중심 지각 작업을 처리할 수 있는 최초의 다중 모드 인간 중심 일반화 모델입니다. 기존의 인간 중심 기반 모델들은 3D 및 비전-언어 작업을 다루지 못하고 작업별 미세 조정이 필요하다는 한계가 있었습니다. Hulk는 이러한 문제를 해결하기 위해, 이산 표현(예: 언어)을 위한 헤드와 연속 표현(예: 좌표)을 위한 헤드라는 두 개의 일반적인 헤드로 다양한 작업별 헤드를 통합합니다. 이러한 통일된 표현을 통해 Hulk는 다양한 인간 중심 작업을 모달리티 변환으로 처리하고 광범위한 작업에 걸쳐 지식을 통합합니다. 8가지 인간 중심 작업을 다루는 12개의 벤치마크에 대한 포괄적인 평가는 제안된 방법의 우수성을 보여주며, 11개의 벤치마크에서 최첨단 성능을 달성합니다. 코드는 https://github.com/OpenGVLab/Hulk 에서 제공됩니다.