Key points are not available for this paper at this time.
딥러닝 알고리즘을 활용한 학습 과제 해결에 큰 진전이 있었으나, 도메인의 구조를 학습하기 위해 예시를 활용하는 비지도 학습 문제는 여전히 해결되지 않은 도전 과제로 남아 있습니다. 본 연구에서는 시퀀스 내 미래 프레임 예측을 시각 세계 구조를 학습하기 위한 비지도 학습 규칙으로 탐구합니다. 신경과학 문헌의 "예측 코딩" 개념에 영감을 받은 예측 신경망("PredNet") 아키텍처를 제안합니다. 이 네트워크는 비디오 시퀀스의 미래 프레임을 예측하도록 학습하며, 네트워크의 각 층은 지역적 예측만 수행하고 그 예측에서 벗어난 편차만 이후 층에 전달합니다. 본 연구에서 이 네트워크는 합성(렌더링) 객체의 변화를 견고하게 예측할 수 있음을 보여 주며, 이를 통해 네트워크 내부 표현은 잠재 객체 정보(예: 자세) 디코딩에 유용하여 적은 학습으로 객체 인식을 지원합니다. 또한 이러한 네트워크가 복잡한 자연 이미지(차량 탑재 카메라 영상)에 적용되어, 시점 중심 및 시각 장면 내 객체 움직임의 주요 측면을 포착하고, 이 설정에서 학습된 표현이 조향 각도 추정에 유용함을 나타냅니다. 종합하면, 본 결과들은 예측이 비지도 학습에서 강력한 규칙임을 시사하며, 객체 및 장면 구조의 암묵적 학습을 가능하게 합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
William Lotter
Gabriel Kreiman
David Cox
Building similarity graph...
Analyzing shared references across papers
Loading...
Lotter 등(수요일,)이 이 문제를 연구하였습니다.
www.synapsesocial.com/papers/6a008026b124fe581985ecd0 — DOI: https://doi.org/10.48550/arxiv.1605.08104