“
Thank you for reading this post, don't forget to subscribe!대규모 비전 인코더의 진화: Meta AI의 Perception Encoder의 혁신 전략
AI 기술이 멀티모달 지능의 시대로 접어들면서, 이미지와 영상을 동시에 다루는 비전 시스템의 중요성 또한 부각되고 있습니다. 이에 따라 다양한 비전 관련 작업을 하나의 모델로 수행하고자 하는 수요가 증가하고 있지만, 이는 학습 전략의 복잡성과 모델의 효율성 문제라는 도전을 동반합니다.
이러한 기술적 한계에 도전장을 내민 것이 바로 Meta AI의 신작 모델인 Perception Encoder(PE)입니다. Meta가 공개한 이 새로운 비전 인코더는 이미지와 영상 등 다양한 시각 데이터를 단일 모델로 처리함으로써, 멀티모달 처리의 일관성과 확장 가능성을 동시에 확보한 혁신적인 시도입니다.
비전 인코더 모델의 복잡성 문제
기존의 비전 인코더 시스템은 다양한 목적에 따라 맞춤형 학습 목표(objective)를 가지고 설계되어 왔습니다. 예를 들어:
- 대조 학습(Contrastive Learning) – 이미지 검색 성능 향상에 적합
- 캡셔닝(Captioning) – 언어 생성 능력 강화
- 자기 지도 학습(Self-supervised Learning) – 장면 구조 이해와 공간 추론에 유리
하지만 이러한 방식은 데이터와 아키텍처 설계가 매우 복잡해지며, 동시에 다양한 작업을 수행하기 위한 범용성과 확장성에 제한이 생기는 문제가 있습니다. 결국 하나의 모델이 다양한 작업을 견고하게 처리하지 못하고, 특화된 모델 다수로 나뉘게 되는 한계에 부딪히게 됩니다.
Meta의 통합 전략: Perception Encoder의 탄생
Meta AI는 이 같은 문제를 근본적으로 해결하고자, 단일 학습 목표인 대조 비전-언어 학습 방식 하나만을 채택해 Perception Encoder를 설계했습니다. 이를 통해 작업 간 간섭 없이 일반화 가능한 시각 표현을 학습할 수 있다는 사실을 입증하고자 하였죠.
또한 다양한 시나리오에서 강력하게 작동할 수 있도록 세 가지 모델 스케일로 구성되어 있습니다:
- PEcoreB: 기본형 (Base)
- PEcoreL: 대형 (Large)
- PEcoreG: 거대형 (Giant, 매개변수 20억 개 이상)
이러한 스케일별 구분은 실제 안정성과 성능을 조합하여 다양한 기준에 맞춰 효율적인 선택이 가능하도록 설계된 것입니다.
PE의 훈련 방식: 2단계 사전 학습 전략
PE는 다음과 같은 2단계 학습 프로세스를 활용합니다.
1단계: 고품질 이미지-텍스트 대응 데이터 기반의 대조 학습
- 데이터 수: 총 54억쌍 이미지-텍스트 페어
- 사용 기술: LAMB 옵티마이저, 2D RoPE, 점진적 해상도 증가, 대규모 배치(최대 13만개)
- 기법: 마스킹 정규화, 변형 증강
2단계: 영상 데이터를 위한 정밀 조정
이미지 인코더를 그대로 이용하되, 영상에 적합하도록 다음 요소를 통합합니다:
- 합성 비디오 캡션: PLM(Perception Language Model)을 사용
- 레이블 구성: LLAMA 3.3을 활용해 효율적 텍스트 생성 후 학습
- 기술: 프레임 평균 풀링(Frame Averaging) 기반의 간단한 영상 요약
이러한 방식은 고도의 영상 처리 기술이 아닌 단순한 구조를 통해도 높은 성능을 낼 수 있음을 보여줍니다.
정렬 전략: 다목적 활용성을 위한 최종 개선
PE 모델은 단일 모델이 다양한 작업을 처리하기 위해 내부적으로 두 가지 정렬 기법(Alignment Techniques)을 구현합니다.
- 언어 정렬(Language Alignment): 시각 질문 응답(VQA), 자동 캡션 생성 등에 활용
- 공간 정렬(Spatial Alignment): 객체 감지(Object Detection), 추적(Tracking), 깊이 추정과 같은 공간 정보를 요구하는 작업에 최적화
이를 위해 SAM2 기반의 자기 증류(Self-distillation) 및 공간 대응 증류(Spatial Correspondence Distillation) 등을 활용하여 학습된 중간 표현을 최대한 활용할 수 있도록 합니다.
벤치마크 성능: 이미지 및 영상 모두에서 TOP 클래스
PE 모델은 다양한 벤치마크 테스트에서 뛰어난 성능을 입증하고 있습니다. 특히 주목할 점은 제로샷(Zero-shot) 환경에서도 경쟁 상용 모델을 넘어서는 성능을 보인다는 점입니다.
이미지 관련 성능:
- ImageNet-val: 86.6%
- ImageNet-Adversarial: 92.6%
- ObjectNet: 88.2%
- 세부 이미지: iNaturalist, Food101, Oxford Flowers 등에서 강력한 성능
영상 관련 성능:
영상 학습 데이터는 약 2,200만쌍의 합성 영상-텍스트 페어로 구성되었지만, 그 성능은 대형 모델보다 뛰어납니다.
- InternVideo2, SigLIP2-g-opt 모델 대비 성능 우위
- 영상 검색 및 분류 작업에서 각각 +11.1%, +3.9% 개선 효과
이러한 결과는 통합 학습 설계의 우수성과, 잘 설계된 합성 데이터셋이 실제 성능에도 영향을 줄 수 있음을 보여줍니다.
시사점: 범용 비전 모델의 실현 가능성 제시
Perception Encoder는 다목적 시각 정보 처리에 있어 길을 제시하는 훌륭한 사례입니다. 기존에는 각각 학습 전략을 달리했던 여러 과업을 단 하나의 대조 학습 기법으로 통합했으며, 이러한 단일 목표(Monolithic Objective) 전략이 오히려 학습 효율성과 일반화 성능을 상승시킬 수 있음을 증명했습니다.
오픈소스 공개 및 활용 가능성
Meta는 PE의 성능 뿐 아니라, 해당 모델의 오픈소스 공개를 통해 AI 생태계의 공유와 협력을 이끌어내고 있습니다. 현재 다음 링크를 통해 실험 및 연구 목적으로 자유롭게 접근할 수 있습니다.
결론: 멀티모달 AI의 새로운 기준
Perception Encoder는 상용 수준의 비전 시스템이 갖춰야 할 요소, 즉 범용성, 성능, 확장성이라는 세 가지 핵심 요구 사항을 단일 구조에서 통합하여 구현한 모델입니다. 단순화된 구조에도 불구하고 고성능을 유지하는 것은 향후 AI 모델이 더 효율적이고 실용적인 방식으로 진화할 수 있다는 가능성을 시사합니다.
향후 이 같은 구조가 다양한 산업군—의료 영상, 자율주행, 로봇 비전 등—에 응용될 수 있으며, 이는 멀티모달 AI의 진정한 통합 지능 시대를 여는 포문이 될 것입니다.
“
HANSORI.AI_Blog Labs에서 더 알아보기
구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.