전체메뉴

검색
팝업창 닫기
이메일보내기

끝없이 영상 생성하는 AI 알고리즘 개발…메모리 한계 극복[이달의 과학기술인상]

[한보형 서울대 교수]

사전에 학습된 모델 그대로 사용

프레임 순차 처리 알고리즘 도입

메모리 사용량은 일정하게 유지

장시간 영상서도 높은 화질 구현

실시간 가상환경에도 활용 기대

‘이달의 과학기술인상’ 10월 수상자로 한보형 서울대 전기·정보공학부 교수가 선정됐다. 한 교수는 무한 길이의 실용형 비디오 생성 기술인 ‘피포 디퓨전’을 개발한 공로를 높이 평가받았다. 사진제공=과학기술정보통신부




“피포 디퓨전(FIFO-Diffusion)은 콘텐츠 제작 비용과 시간을 획기적으로 줄일 수 있는 기술입니다. 생성형 인공지능(AI)으로 긴 영상을 손쉽게 만들 수 있어 산업 현장의 효율성을 크게 높이고 이를 기반으로 새로운 비즈니스 모델과 시장도 열릴 것입니다.”

과학기술정보통신부가 주최하고 한국연구재단과 서울경제신문이 공동 주관하는 ‘이달의 과학기술인상’ 10월 수상자로 선정된 한보형 서울대 전기·정보공학부 교수는 1일 자신의 최신 성과인 피포 디퓨전의 의미를 이렇게 설명했다. 그는 “향후 물리법칙을 반영해 더욱 정밀하고 자연스러운 실용형 비디오 생성 기술로 발전시키겠다”는 포부도 덧붙였다.

과기정통부와 한국연구재단은 ‘2025 인공지능 주간(9월 30일~10월 2일)’을 맞아 컴퓨터 비전 분야에서 세계적 위상을 높인 공로로 한 교수를 수상자로 선정했다. 특히 추가 학습 없이 사실상 무한 길이 영상을 생성하는 새로운 추론 알고리즘을 제시한 점이 높게 평가됐다.

생성형 AI 기술은 이제 텍스트·이미지·오디오를 넘어 영상 생성으로 확장 활용되고 있다. 하지만 영상 제작은 여전히 적용 난도가 높다. 지금 널리 쓰이는 방식은 확산(diffusion) 모델로, 처음 영상을 무작위 점(노이즈)으로 흐리게 만들었다가 이를 거꾸로 지워 원하는 장면을 복원하는 방식이다. 이 방식은 최근 텍스트 설명과 결합해 조건에 맞는 이미지·영상을 생성하는 데 활용되고 있지만 영상이 길어질수록 필요한 메모리가 기하급수적으로 늘어나 긴 영상을 만들기 어렵다는 한계가 있었다.

한 교수가 제안한 피포 디퓨전은 이 같은 기존 비디오 생성 모델의 구조적 한계를 대규모 학습 없이 새로운 추론 알고리즘만으로 극복했다. 사전 학습된 모델을 그대로 사용하면서 프레임을 컨베이어 벨트처럼 순차적으로 처리하는 ‘대각선 디노이징(diagonal denoising)’ 알고리즘을 도입해 메모리 사용량을 일정하게 유지한 것이다. 여기에 긴 시퀀스를 작은 구간으로 쪼개 안정성을 높이는 ‘잠재 구간 분할’, 상대적으로 깨끗한 프레임을 활용해 품질을 개선하는 ‘미래 참조 디노이징’ 기법을 더했다. 이 덕분에 장시간 영상에서도 높은 화질을 구현할 수 있다.



‘이달의 과학기술인상’ 10월 수상자로 한보형 서울대 전기·정보공학부 교수가 선정됐다. 한 교수는 무한 길이의 실용형 비디오 생성 기술인 ‘피포 디퓨전’을 개발한 공로를 높이 평가 받았다. 사진제공=과학기술정보통신부


‘이달의 과학기술인상’ 10월 수상자로 한보형 서울대 전기·정보공학부 교수가 선정됐다. 한 교수는 무한 길이의 실용형 비디오 생성 기술인 ‘피포 디퓨전’을 개발한 공로를 높이 평가 받았다. 사진제공=과학기술정보통신부


해당 연구는 2024년 신경정보처리시스템학회(NeurIPS·뉴립스)에서 발표돼 국제적으로 주목받았다. 같은 해 삼성 휴먼테크 논문대상에서 금상을 수상하기도 했다. 또한 한 교수 연구팀이 공개한 소스코드는 현재 깃허브에서 450개가 넘는 ‘별(star)’을 받으며 전 세계 연구자와 개발자들에게 활용되고 있다. 학문적으로는 비디오 생성 분야에서 효율적 확산 모델 연구의 기반을 마련했고, 산업적으로는 영화·애니메이션·게임·광고·메타버스 등 다양한 콘텐츠 제작 현장에서의 잠재력을 입증했다.

한 교수는 “비디오 생성 모델의 고정 길이 한계와 메모리 병목을 추론 알고리즘 혁신만으로 극복했다는 사실은 효율적인 생성형 모델 연구의 새로운 방향성을 제시한다”며 “무한 길이 영상 생성이라는 개념은 장기적 맥락을 가진 데이터 생성·분석 연구에 새로운 가능성을 열었다”고 강조했다. 이어 “장시간 영상을 자동 생성하거나 반복 장면을 쉽게 만들어낼 수 있어 제작 효율을 크게 높이고 메타버스 같은 실시간 가상 환경 구현에도 활용될 수 있으며 새로운 비즈니스 모델 창출도 가능하다”고 덧붙였다.

물론 과제도 남아 있다. 긴 시퀀스에서의 품질 유지, 학습·추론 간 불일치, 실시간 응용을 위한 샘플링 경량화 등이다. 한 교수는 “대각선 디노이징을 학습 단계에도 도입해 불일치를 줄이고 샘플링을 효율화해 실시간에 가까운 활용이 가능하도록 만들겠다”며 “조건부 생성·편집 기능을 강화하고 물리법칙을 반영해 더욱 자연스러운 영상 생성 기술로 발전시키겠다”고 말했다.

그의 시선은 기술 자체를 넘어 사회적 유용성으로 향한다. 한 교수는 “과학기술은 그동안 우리의 생활을 편리하게 하고 신체적 자유를 확장하는 데 큰 역할을 했지만 앞으로는 인간의 정신세계와 삶의 질을 향상하는 데 기여하는 기술이 더 중요하다고 생각한다”며 “정신 건강, 노인 문제, 사회적 문제 등의 분야에서 과학기술이 실질적인 도움을 줄 수 있다면 매우 의미 있을 것”이라고 말했다. 그는 “AI 분야에서도 이런 역할을 할 수 있는 기술이 분명 존재하며 이러한 방향의 연구를 수행하고 싶다”고 덧붙였다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >
주소 : 서울특별시 종로구 율곡로 6 트윈트리타워 B동 14~16층 대표전화 : 02) 724-8600
상호 : 서울경제신문사업자번호 : 208-81-10310대표자 : 손동영등록번호 : 서울 가 00224등록일자 : 1988.05.13
인터넷신문 등록번호 : 서울 아04065 등록일자 : 2016.04.26발행일자 : 2016.04.01발행 ·편집인 : 손동영청소년보호책임자 : 신한수
서울경제의 모든 콘텐트는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
Copyright ⓒ Sedaily, All right reserved

서울경제를 팔로우하세요!

서울경제신문

텔레그램 뉴스채널