What type of study is this?

September 10, 2025Open Access

자기지도 행동 인식을 위한 특징 환각

Key Points

이 프레임워크는 Kinetics-400 및 Kinetics-600 벤치마크에서 최첨단 행동 인식 성능을 달성합니다.
객체 검출 및 중요도 검출 특징 도입으로 인식 정확도가 향상되면서도 효율성을 유지합니다.
알레아토릭 불확실성 모델링을 도입하여 보조 특징의 잡음을 효과적으로 처리할 수 있습니다.
본 접근법은 Video Transformer Network 및 VideoMAE V2 같은 첨단 아키텍처와도 호환되어 광범위한 적용 가능성을 시사합니다.

Abstract

초록 비디오에서 인간의 행동을 이해하려면 단순한 원시 픽셀 분석을 넘어서야 하며, 이는 고수준 의미론적 추론과 다중 모달 특징의 효과적인 통합에 의존합니다. 우리는 RGB 비디오 프레임에서 행동 개념과 보조 특징을 공동 예측하여 인식 정확도를 향상시키는 딥 트랜슬레이셔널 행동 인식 프레임워크를 제안합니다. 테스트 시에는 환각 스트림이 결측 신호를 추론하여 계산 부하를 증가시키지 않으면서 특징 표현을 풍부하게 합니다. 원시 픽셀을 넘는 행동 관련 영역에 집중하기 위해 두 가지 새로운 도메인 특화 설명자를 도입합니다. 객체 검출 특징(Object Detection Features, ODF)은 여러 객체 검출기의 출력을 집계하여 문맥적 단서를 포착하며, 중요도 검출 특징(Saliency Detection Features, SDF)은 행동 인식에 중요한 공간 및 강도 패턴을 강조합니다. 우리 프레임워크는 광류(optical flow), 개선된 밀집 궤적(Improved Dense Trajectories), 골격 데이터, 오디오 신호와 같은 보조 형태와 이 설명자들을 원활하게 통합합니다. 또한 I3D, AssembleNet, Video Transformer Network, FASTER 및 최근 모델인 VideoMAE V2와 InternVideo2를 포함한 최첨단 아키텍처와 호환됩니다. 보조 특징의 불확실성을 처리하기 위해 환각 단계에서 알레아토릭 불확실성 모델링을 도입하고, 특징 잡음을 완화하는 강인한 손실 함수를 제안합니다. 우리의 다중 모달 자기지도 행동 인식 프레임워크는 Kinetics-400, Kinetics-600, Something-Something V2 등 여러 벤치마크에서 최첨단 성능을 달성하여 미세한 행동 역학 포착에 효과적임을 입증합니다.

자기지도 행동 인식을 위한 특징 환각

Key Points

Abstract

Cite This Study