2025. 2. 4. 19:32ㆍPaper/Human-centric Ubiquitous Intelligence
🌑 오늘의 논문
GONG, Xinyu, et al. Mmg-ego4d: Multimodal generalization in egocentric action recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023. p. 6481-6491.
* 오류가 있는 정보 또는 논문의 저작권과 관련된 문제가 있다면, 조치를 취할 수 있도록 댓글로 남겨주시기를 바랍니다.
🌒 Modality & Multimodal의 의미
24년 초에 온라인으로 'AI 엔지니어 기초 다지기 : 네이버 부스트캠프 AI Tech 준비 과정' 30시간 교육을 들으면서, 멘토 선생님과의 채팅에서 언급되었던 용어이다. 당시에 컴퓨터 비전과 자연어 처리 분야에 대한 질문을 했더니, '멀티 모달'에 대한 이야기를 해주셨다. AI가 여러 가지 수단을 종합하는 방향으로 나아가고 있구나 생각했던 것 같다.
잠시 논문을 읽기에 앞서, 인터넷에 검색한 내용이다. Modality는 어떤 형태로 나타나는 현상이나 그것을 받아들이는 방식이다. Multimodal AI는 다양한 채널의 모달리티를 동시에 받아들여서 사고하는 AI이다 (1).
🌓 MMG 란? (with MMG-Ego4D)
Multimodal Generalization(MMG)는 특정 모달리티의 데이터가 제한되거나 완전히 사라졌을 때, 시스템이 일반화하는 방법이다. 연구에서 표준 지도 행동 인식과 새로운 행동 카테고리를 배우는 데 도전적인 Few-shot 설정과 관련하여 MMG를 조사했다.
실생활 애플리케이션의 MMG에서 일어날 수 있는 시나리오가 있다. 첫 번째는 모달리티가 누락된 경우 일반화, 두 번째는 추론 시간과 훈련 시간에 존재하는 모달리티 종류가 다른 교차 모델에서의 Zero-shot 일반화이다.
기존에 Ego4D라는 데이터셋이 있었다. 이것을 전문가들과 가공 및 어노테이션하여, MMG 문제 연구에 용이하도록 재구성했다. 이것이 바로 MMG-Ego4D이며, 다양한 모델의 평가와 일반화 성능 향상을 측정하는 용도로 활용되었다.
🌔 누구의 관점에서 보느냐
전형적인 행동 인지 시스템은 제3자가 포착한 데이터로 학습된다. 그러나, 로보틱스 또는 증강 현실 분야에서 에이전트는 어떻게 하는가? 자기중심적 관점(1인칭)에서 눈으로 데이터를 포착하며, 이는 응용 프로그램에서 매우 중요한 역할을 한다.
자기중심적 행동 인식은 여러 가지 도전 과제를 안고 있다. 헤드 모션으로 인한 큰 모션 블러와 같이, 저수준의 왜곡이 일어날 수 있다. 또한, 자기중심적 인식을 하려면 카메라 착용자의 물리적 주변 환경을 이해하고, 착용자의 관점에서 객체와 상호작용을 해석해야 한다.
🌕 실생활 속 모달리티 데이터가 제한되는 이유
입력 데이터로 3가지 모달리티 데이터를 준다. 비디오, 이미지, IMU가 있는데, 각 데이터를 따로 사용했을 때보다 멀티 모달 데이터로 활용했을 때, 상황을 정확히 인식했다. (* Inertial Motion Sensors = IMU)
그런데 보안과 효율성으로 인하여, 실생활에서는 활용할 수 있는 모달리티 데이터가 제한될 수 있다. 이러한 이유로 멀티 모달 일반화 방법에 대한 연구가 필요한 것이다.
예를 들어 사용자가 민감한 환경에 있다면 보안이 우려되어 카메라를 끌 수 있다. 혹은 자신의 목소리가 들리지 않게 하기 위해 마이크 기능을 끌 수도 있다. 이런 상황에서 모달리티가 누락되는 것이다.
다음으로 훈련과 추론에 사용되는 모달리티 종류 선택은 중요한 문제이다. 사람들은 디바이스 내에서 데이터가 활용되길 바라겠지만, 비디오의 경우 디바이스에서 훈련을 진행하기에 너무 많은 자원이 필요하다. 따라서 훈련에는 컴퓨팅 자원 소모가 적은 오디오를 사용하고, 비디오와 같은 유용한 모드에서 추론을 수행할 수 있다. 이러한 교차 모델에서는 모달리티 간의 일반화가 강건해야 한다.
🌖 Sol 1. Transformer 기반 멀티모달 네트워크
트랜스포머 기반 멀티모달 네트워크의 주요 구성 요소 2가지가 있다.
Unimodal Backbone과 트랜스포머 기반 융합 모듈이다.
Unimodal Backbone은 각 모달리티의 피처를 추출하는 3개의 독립적인 네트워크로 구성된다.
트랜스포머 기반 융합 모듈은 각 Unimodal Backbone에서 추출한 피처들을 모아서, 하나의 피처로 종합한다. 조금 더 구체적으로 어텐션 모듈을 활용하여 입력 토큰 수를 쉽게 조정할 수 있고, 다양한 입력 모달리티 수를 다룰 수 있다.
🌗 Sol 2. 교차 모달 정렬과 프로토타입 손실 활용
Zero-shot 교차 모달 환경에서는 학습과 추론 시 서로 다른 모달리티를 사용해야 한다. 모든 모달리티를 대표하는 단일 피처 공간이 필요하다. 따라서, 동일한 데이터 포인트에 있는데 다른 모달리티에 속하는 피처들이 가까이 위치하도록 정렬한다. Noise Contrastive Estimation (NCE) 방식으로 비디오-오디오, 비디오-IMU 쌍을 정렬한다.
프로토타입 손실은 Support 집합의 피처 공간에서 중심을 계산한 후, Query 집합의 데이터들이 가장 가까운 중심에 속하도록 하는 방법이다. 프로토타입 손실을 확장하여 모달리티 간 피처 정렬을 고려한 손실 함수를 제안하였다. Support와 Query 데이터가 통합된 피처 공간에 존재할 수 있고, 일반화 성능을 향상시킬 수 있다.
🌘 시스템 일반화 성능은 어떻게 되었을까?
아래의 방법을 통해 일반화 성능이 향상되었다.
트랜스포머 기반 융합 모듈의 성능을 MLP 기반 융합 모듈과의 비교를 통해 검증하였다. 트랜스포머 기반 융합 모듈은 Few-shot 학습과 지도 학습 시나리오 모두에서 MLP 기반 융합 모듈보다 우수한 성능을 보였다. 교차 모달 정렬 손실을 포함했을 때, Few-shot 학습과 지도 학습 설정에서 교차 모달 Zero-shot 일반화 성능 향상을 보였다. 교차 모달 프로토타입 손실을 적용하여 결측 모달리티와 Zero-shot 시나리오에서 성능이 향상되었다.
마지막으로 정리하겠다. 연구에서 제안한 모달리티 드롭아웃 학습을 활용한 '어텐션 기반 융합 메커니즘'과 융합 과정에서의 '단일 모달 표현의 정렬' 방식이 MMG-Ego4D의 지도 학습 및 Few-shot 학습 성능을 높이는 것으로 나타났다. 교차 모달의 프로토타입 손실은 MMG-Ego4D의 Few-shot 학습 성능을 높였다.
* 추가 참고 자료
(1) 인간처럼 사고하는 멀티모달(Multi Modal) AI란? (삼성 SDS):