不到一周,AI画师又进阶了,而且还是一大步——一句话直接生成视频的那种。
输入一个下午在沙滩上跑步的女人,马上会弹出一个4秒32帧的短片:
或者输入一颗燃烧的心,你可以看到一颗包裹在火焰中的心:
这个最新的文本—视频一代人工智能是清华amp致远研究所出品的模型CogVideo。
Demo一放到网上就火了,已经有网友急论文了:
CogVideo与文本图像生成模型CogView2一脉相承。这个系列的AI机型只支持中文输入,外国朋友还得用谷歌翻译才能玩:
看完视频,网友大呼这进步太快了你应该知道,文本图像生成模型DALL—E2和Imagen刚刚问世
有网友设想:如果继续以这个速度发展下去,一句话就能立刻看到VR头显中AI生成的3D视频效果:
那么,这个名为CogVideo的AI模型的由来是什么呢。
在插入帧之前生成低帧视频。
根据该团队的说法,CogVideo应该是最大的和第一个用于文本生成的开源视频模型。
在设计模型上,该模型共有90亿个参数,基于预先训练的文本图像模型CogView2构建,分为两个模块。
第一部分,基于CogView2,由文本生成几帧图像,此时复合视频的帧率还很低,
在第二部分中,基于双向注意模型,对几个生成的图像进行插值,以生成具有更高帧率的完整视频。
CogVideo在训练中总共使用了540万个文本—视频对。
这里不仅仅是把文字和视频直接匹配起来插进AI,而是先把视频拆分成几帧,给每帧图像增加一个额外的帧标记。
这样可以防止AI看到一个字,直接给你生成几个一模一样的视频帧。
其中,每个训练视频原本都是160×160分辨率,被CogView2上采样到480×480分辨率,所以最终视频也是480×480分辨率。
至于AI的插帧部分,设计了双向通道注意力模块,让AI理解前后帧的语义。
最后生成的视频丝滑,4秒视频帧数输出约32。
在人体测评中获得最高分。
本文采用数据测试和人工评分的方法对模型进行评估。
首先,研究人员在UCF—101和Kinetics—600人体动作视频数据集上测试了CogVideo。
FVD用于评估视频生成的整体质量,该值越低越好Is主要从清晰度和多样性两个方面来评价生成图像的质量,数值越高越好
总体来说,CogVideo生成的视频质量处于中等水平。
但从人的偏好来看,CogVideo生成的视频效果远高于其他模型,甚至在目前最好的生成模型中,也取得了最高分:
具体来说,研究人员会给志愿者一个评分表,让他们根据视频生成的效果随机评价几个模型生成的视频,最后判断综合得分:
CogVideo的常用作品洪和丁明,两部作品,三部作品均出自清华大学计算机系。
论文指导老师唐杰是清华大学计算机系教授,致远研究院学术副院长他的主要研究方向是人工智能,数据挖掘,机器学习和知识图谱
对于CogVideo,有网友表示还有一些值得探索的地方。比如DALL—E2和Imagen有一些不同寻常的提示来证明它们是从0生成的,但是CogVideo的效果更像是从数据集拼凑出来的:
比如狮子直接用手喝水的视频,就不太符合我们的常规认知:
但也有网友指出,这篇论文为语言模型提供了一些新的思路:
用视频训练可能会进一步释放语言模型的潜力因为它不仅数据量大,还隐含着一些难以用文字体现的常识和逻辑
目前CogVideo的代码还在建设中,感兴趣的朋友可以先蹲一会儿~
项目amp论文地址: