초록 비디오에서 인간의 행동을 이해하려면 단순한 원시 픽셀 분석을 넘어서야 하며, 이는 고수준 의미론적 추론과 다중 모달 특징의 효과적인 통합에 의존합니다. 우리는 RGB 비디오 프레임에서 행동 개념과 보조 특징을 공동 예측하여 인식 정확도를 향상시키는 딥 트랜슬레이셔널 행동 인식 프레임워크를 제안합니다. 테스트 시에는 환각 스트림이 결측 신호를 추론하여 계산 부하를 증가시키지 않으면서 특징 표현을 풍부하게 합니다. 원시 픽셀을 넘는 행동 관련 영역에 집중하기 위해 두 가지 새로운 도메인 특화 설명자를 도입합니다. 객체 검출 특징(Object Detection Features, ODF)은 여러 객체 검출기의 출력을 집계하여 문맥적 단서를 포착하며, 중요도 검출 특징(Saliency Detection Features, SDF)은 행동 인식에 중요한 공간 및 강도 패턴을 강조합니다. 우리 프레임워크는 광류(optical flow), 개선된 밀집 궤적(Improved Dense Trajectories), 골격 데이터, 오디오 신호와 같은 보조 형태와 이 설명자들을 원활하게 통합합니다. 또한 I3D, AssembleNet, Video Transformer Network, FASTER 및 최근 모델인 VideoMAE V2와 InternVideo2를 포함한 최첨단 아키텍처와 호환됩니다. 보조 특징의 불확실성을 처리하기 위해 환각 단계에서 알레아토릭 불확실성 모델링을 도입하고, 특징 잡음을 완화하는 강인한 손실 함수를 제안합니다. 우리의 다중 모달 자기지도 행동 인식 프레임워크는 Kinetics-400, Kinetics-600, Something-Something V2 등 여러 벤치마크에서 최첨단 성능을 달성하여 미세한 행동 역학 포착에 효과적임을 입증합니다.
Wang 외(Thu,)가 이 질문에 대해 연구했습니다.