본 논문은 객체 추적과 음향 빔 형성을 통합하는 임베디드 시스템을 제시한다. 딥러닝 기반의 추적 기술과 빔 형성을 결합하여 동적 환경에서 정확한 음원 위치 파악과 방향성 오디오 캡처를 가능하게 한다. 단일 카메라 깊이 추정과 스테레오 비전을 통해 움직이는 객체의 3D 위치를 정확하게 파악하고, MEMS 마이크로폰으로 구성된 평면 동심원형 마이크로폰 배열을 사용하여 2D 빔 조향을 지원한다. 실시간 추적 결과는 배열의 초점을 지속적으로 조정하여 음향 반응을 대상의 위치와 동기화한다. 학습된 공간 인식을 동적 조향과 결합하여, 다중 또는 이동하는 음원 환경에서도 견고한 성능을 유지한다. 실험 결과는 신호 대 간섭비(signal-to-interference ratio)에서 유의미한 향상을 보여, 화상 회의, 스마트 홈 기기, 보조 기술 등에 적합함을 입증한다.