CARLA 기반 자율주행 강화 학습에서 동적 종료 기준 적용을 통한 학습 효율 개선
- admin
- 6월 3일
- 1분 분량
팀명
9해조
팀원 명단
김영준, 허연주
지도교수
박지훈 교수님
작품 배경 및 목적
자율주행 기술 개발에 있어 강화 학습은 핵심적인 역할을 수행합니다. 하지만 기존의 고정된 에피소드 길이 설정은 에이전트가 불필요한 상태(예: 정지 상태, 저속 주행)에서 학습 시간을 낭비하게 만들어 전체적인 학습 효율을 떨어뜨리는 한계가 있습니다.
본 연구는 이러한 문제를 해결하고자 CARLA 기반 자율주행 강화 학습 환경에서 에피소드 종료 시점을 동적으로 조절하는 방법을 제안합니다. 차량의 속도 및 보상 변화를 실시간으로 모니터링하여 비효율적인 학습 구간에서는 에피소드를 조기에 종료하고, 효율적인 학습이 진행되는 구간에서는 에피소드 길이를 충분히 확보함으로써, 동일 학습 시간 내 에이전트의 성능을 극대화하고 학습 효율을 개선하는 것을 목적으로 합니다.
작품 내용
본 연구에서 제안하는 동적 에피소드 종료 알고리즘은 실시간 상태 모니터링을 통해 에피소드 진행 여부를 결정합니다. 첫째, 차량 속도 모니터링을 통해 정지 상태가 일정 시간 이상 지속될 경우 에피소드를 조기에 종료하는 속도 기반 조기 종료 기능을 구현하였습니다. 둘째, 일정 스텝 윈도우 내의 평균 보상을 계산하여 보상 수준이 낮을 경우 에피소드를 종료하는 보상 기반 조기 종료 기능을 구현하였습니다. 이러한 복합적인 종료 기준을 통해 학습에 불필요한 데이터를 효과적으로 제거하고자 했습니다.
제안된 방식의 효과를 검증하기 위해 CARLA 시뮬레이션 환경에서 고정 종료 방식과 동적 종료 방식을 비교하는 실험을 수행하였습니다. 동일한 학습 시간 및 환경에서 실험을 진행했으며, 특히 동적 종료 방식에 대해서는 세 가지 파라미터 구성을 달리하여 조기 종료 민감도에 따른 성능 변화를 체계적으로 분석했습니다.
실험 결과, 제안된 동적 종료 방식은 고정 방식 대비 에피소드 길이가 길어질수록 누적 보상 평균이 지속적으로 증가하는 경향을 보이며 학습 효율이 개선됨을 확인했습니다. 또한, 다양한 파라미터 구성 비교 결과, 조기 종료 민감도가 높은 특정 구성에서 단위 step 당 보상 평균 및 평균 누적 보상이 가장 높은 수치를 기록하며 전반적으로 우수한 성능을 나타냈습니다. 이는 불필요한 에피소드는 조기에 종료하고 유의미한 학습 시간을 효율적으로 활용함으로써 얻어진 결과입니다.
_______________________________

댓글