텍스트-비디오 모델
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
번역: 세련된 여성이 따스하게 빛나는 네온사인과 생동감 넘치는 도시 간판으로 가득한 도쿄 거리를 걷고 있다. 검은색 가죽 재킷, 긴 빨간 원피스, 검은색 부츠를 신고 검은색 핸드백을 든 그녀는 선글라스와 빨간 립스틱을 바른 채 자신감 넘치고 편안한 걸음걸이를 보인다. 거리는 습기가 많고 반사되어 마치 거울처럼 화려한 조명이 반사되는 듯한 효과를 낸다. 많은 보행자들이 거리를 활보한다.
텍스트-비디오 모델(text-to-video model)은 자연어 설명을 입력으로 사용하고 입력에서 비디오 또는 여러 비디오를 생성하는 기계 학습 모델이다.[1]
안정적인 배경에서 객체를 사실적으로 만들기 위한 비디오 예측은 커넥터 합성곱 신경망이 있는 시퀀스-시퀀스(Sequence to Sequence) 모델에 대해 순환 신경망을 사용하여 각 프레임을 픽셀 단위로[2] 인코딩 및 디코딩하고 딥 러닝을 사용하여 비디오를 생성함으로써 수행된다.[3] 텍스트의 기존 정보에 대한 조건부 생성 모델의 자료 집합 테스트는 변분 오토인코더 및 생성적 적대 신경망(GAN)을 통해 수행할 수 있다.
같이 보기
[편집]각주
[편집]- ↑ Artificial Intelligence Index Report 2023 (PDF) (보고서). Stanford Institute for Human-Centered Artificial Intelligence. 98쪽.
Multiple high quality text-to-video models, AI systems that can generate video clips from prompted text, were released in 2022.
- ↑ “Leading India” (PDF).
- ↑ Narain, Rohit (2021년 12월 29일). “Smart Video Generation from Text Using Deep Neural Networks” (미국 영어). 2022년 10월 12일에 확인함.