유전정보 분석 프로세스 개선 프로그램 (Binning 프로세스 개선)

2021년 11월 12일
1분 분량

https://www.youtube.com/watch?v=qN1R-C5mO9M

팀명

　　PEPSI

팀원 명단

　　유정민, 박인완, 이치현

지도교수

　　김경섭교수님

작품 배경 및 목적

　　기존 유전정보 프로세스에서 binning툴을 사용하는 경우 binning툴 당 한가지의 clustering 알고리즘을 지원하였기 때문에 최적의 결과를 얻어내기 위해서는 모든 Binning 툴을 사용해 결과를 확인해야 했고

tetranucleotide k-mer 분석을 주로 사용하기 때문에 매 클러스터링 당 136개의 벡터를 활용하여 클러스터링을 진행해야만 했다.

이를 개선하기 위해서 기존에 사용하던 k-means, gmm같은 클러스터링 알고리즘을 사용자가 선택할 수 있게하여 사용자가 여러 binning툴을 사용하지 않아도 되는 환경을 조성하고 기존 Binning을 위해 사용하는 유전정보 벡터의 차원을 줄임으로써 binning 과정에서의 클러스터링 알고리즘을 적용하는 시간을 감축하여 다양한 clustering 알고리즘을 적용했을 때 보다 빠른 결과를 얻어낼 수 있게끔 하는 것을 목적으로 한다

작품 내용

　　기존에 존재하던 여러가지 Binning 툴들에서는 tetranucleotide k-mer 분석을 기준으로 redundancy를제거한 136개의 벡터를 활용하여 클러스터링 알고리즘을 적용하여 분석하는 방법을 사용했지만,

본 프로그램에서는 어셈블리된 유전정보를 일정 이상 신뢰도를 갖는 길이(1천 이상)를 바탕으로 만들어진 슬라이딩 윈도우와 k-mer분석을 사용하여 이미지화시키고 만들어진 이미지를 바탕으로 CNN autoencoder 구조를 활용해 유전정보의 특징을 추출해낸 후 주성분분석(PCA)를 활용하여 차원을 축소시킴으로서 136개보다 더 적은 벡터만을 활용하여 k-means,gmm등의 알고리즘을 통하여 binning을 시도하였고 유의미한 결과를 이끌어냈다.

유전정보 분석 프로세스 개선 프로그램 (Binning 프로세스 개선)

최근 게시물

댓글