top of page

딥러닝 음성합성을 활용한 PPT 동영상 제작 프로그램

최종 수정일: 2021년 11월 15일



팀명

  새벽

팀원 명단

  맹지연, 권세영, 백예슬

지도교수

  김영국교수님

작품 배경 및 목적

최근 코로나 19로 인한 동영상 제작을 통한 비대면 수업 및 발표가 증가하고 있다. 이러한 영상을 제작하기 위해 PPT와 음성을 결합해 동영상을 만드는 방법을 사용하는 사람들이 나타났다. 하지만 이 방법은 녹음이 잘못될 경우 PPT 프로그램에서 페이지를 새로 녹음하거나 녹음만 따로 하여 넣어야하는 문제가 발생한다.

이와 같은 문제에 발생하는 시간적 비용을 줄이기 위하여 최근에 각광을 받고 있는 딥러닝 기반 음성합성기술을 활용하여 이를 자동화하는 방법을 구상하게 되었다.

따라서 우리는 음성합성 기술을 활용하여 개인 TTS 모델을 만들어 텍스트를 이용하여 음성을 생성하고 PPT에 적용해 동영상을 만들어주는 프로그램을 제작하게 되었다

작품 내용

  사용자 목소리 모델을 PPT 각 슬라이드에 넣어 동영상을 만드는 프로그램을 제작하고자 한다. 따라서 TTS 개인화를 위해 자기회귀의 대표모델인 Tacotron2와 비자기회귀의 대표모델인 FastSpeech2를 비교하여 개인화에 맞는 모델을 선택하였다. 주요 기능은 TTS 개인화를 위해 녹음을 통해 모델을 생성하는 기능, 개인화된 음성모델을 적용한 후 PPT를 녹화하여 동영상으로 만드는 기능이다.

 



조회수 198회댓글 0개

최근 게시물

전체 보기

Comments


bottom of page