InstructCMP

admin
2024년 6월 4일
1분 분량

최종 수정일: 2024년 6월 4일

팀명

InstructCMP

팀원 명단

황재성, 도주선

지도교수

권진근 교수님

작품 배경 및 목적

전통적인 문장 압축 접근법은 각 토큰에 대해 순차적으로 레이블을 예측하는 방 식으로, 원하는 길이같은 추가 제약 조건을 포함하는 데 한계가 있다. 이러한 한 계를 극복하기 위해 LLM을 활용한 InstructCMP를 제안한다. InstructCMP는 길 이 제약 조건을 instructions에 직접 포함하여 모델이 입력의 일부로 처리하고 학습할 수 있도록 한다. 이는 모델 수정 없이도 효율적이고 유연한 문장 요약을 가능하게 한다. 이 방식을 이용하기위해 우리는 길이 정보를 instruction에 통합 하는 “length priming”이라는 접근 방식을 제안한다.

작품 내용

InstructCMP의 성능은 Llama2-13B-chat 모델을 사용한 제로샷 설정과 QLoRA 지시 기반 튜닝 설정에서 비교되었다. Length priming을 적용한 경우 ROUGE 및 ∆CR에서 일관되게 성능이 향상되었다. 특히 Google과 DUC 데이터셋에서는 length control이 더 어려웠으며, 이는 데이터셋의 특성 때문일 수 있다고 본다. length priming chain-of-thought(COT) 및 tree-of-thought(TOT) 보다 length control 및 ROUGE 지표에서 더 우수한 성능을 보였다. QLoRA 지시 기 반 파인 튜닝을 통해 성능이 더욱 향상되었으며, DUC 데이터셋에서는 추상적인 요약 특성 때문에 성능 저하가 발생했다. length priming은 최신의 LLM에서도 길이 제약을 처리하는 데 필수적임이 확인되었다.

InstructCMP

최근 게시물

Comments