MTL을 활용한 PVT v2 프레임워크 성능 개선
- admin
- 6월 3일
- 1분 분량
팀명
Multi-Vision
팀원 명단
김수영, 송재현
지도교수
이종률 교수님
작품 배경 및 목적
AI의 발전이 급속도로 이루어지며 이를 임베디드 시스템에도 활용하기 위한 연구가 시도되고 있다. 현재 존재하는 고성능 모형들은 특정한 작업에 한하며 모형 역시 고중량인 상태이다. 이를 해결하기 위한 방법론이 Multi-Task Learning(이하 MTL)로 여러 작업을 하나의 모형으로 처리한다는 학습 패러다임이다. 초창기 MTL연구는 기존 STL 모형을 MTL 모형으로 확장하는 과정을 통해 연구가 진행되었으며 현재는 MTL에 최적화된 구조와 기존 모형을 확장하는 두 가지 방법이 공존하고 있다. 이에 본 연구에서는 고성능의 단일 모델인 PVT v2를 기반으로, MTL을 적용하여 대표적인 비전 태스크들을 통합 처리할 수 있는 프레임워크를 설계하고, 정량적 평가를 통해 MTL의 성능을 입증하고자 한다.
작품 내용
Vision Transformer 기반인 PVT v2 프레임워크에 MTL을 접목한 모형을 만들어 성능을 검증하고, 기존 PVT v2 STL 모델, Swin MTL같은 모형들과 비교하여 성능, 경량화 정도를 비교해본다. 이후 어떠한 작업이 실제 다중 작업 학습에 도움이 되는지 실험결과를 해석해본다. 학습에 이용할 NYUv2 실내 데이터를 통해 최종적으로 실내 로봇 비전 및 AR/VR 환경에 해당 모형을 활용할 수 있는지에 대해서도 다뤄본다.

댓글