科技改变生活 · 科技引领未来

  • 首页
  • 资讯
  • 技术
  • 百科
  • 问答
  • 学习
  • 看看
  • 站长
  • 生活
  • 快讯

首页 > 问答 > 媒体运营

制作一个vr视频多少钱(这个)

时间:2022-10-11 14:45 作者:刘阳远

萧箫发自凹非寺量子位|公众号QbitAI一周不到,AI画师又“进阶”了,还是一个大跨步——直接1句话生成视频的那种。输入“一个下午在海滩上奔跑的女人”,立刻就蹦出一个4秒32帧的小片段:又或是输入“一颗燃烧的心”,就能看见一只被火焰包裹的心

萧箫 发自 凹非寺量子位 | 公众号 QbitAI

一周不到,AI画师又“进阶”了,还是一个大跨步——

直接1句话生成视频的那种。

输入“一个下午在海滩上奔跑的女人”,立刻就蹦出一个4秒32帧的小片段:

制作一个vr视频多少钱(这个)

又或是输入“一颗燃烧的心”,就能看见一只被火焰包裹的心:

这个最新的文本-视频生成AI,是清华&智源研究院出品的模型CogVideo。

Demo刚放到网上就火了起来,有网友已经急着要论文了:

CogVideo“一脉相承”于文本-图像生成模型CogView2,这个系列的AI模型只支持中文输入,外国朋友们想玩还得借助谷歌翻译:

看完视频的网友直呼“这进展也太快了,要知道文本-图像生成模型DALL-E2和Imagen才刚出”

还有网友想象:照这个速度发展下去,马上就能看到AI一句话生成VR头显里的3D视频效果了:

所以,这只名叫CogVideo的AI模型究竟是什么来头?

生成低帧视频后再插帧

团队表示,CogVideo应该是当前最大的、也是首个开源的文本生成视频模型。

在设计模型上,模型一共有90亿参数,基于预训练文本-图像模型CogView2打造,一共分为两个模块。

第一部分先基于CogView2,通过文本生成几帧图像,这时候合成视频的帧率还很低;

第二部分则会基于双向注意力模型对生成的几帧图像进行插帧,来生成帧率更高的完整视频。

在训练上,CogVideo一共用了540万个文本-视频对。

这里不仅仅是直接将文本和视频匹配起来“塞”给AI,而是需要先将视频拆分成几个帧,并额外给每帧图像添加一个帧标记。

这样就避免了AI看见一句话,直接给你生成几张一模一样的视频帧。

其中,每个训练的视频原本是160×160分辨率,被CogView2上采样(放大图像)至480×480分辨率,因此最后生成的也是480×480分辨率的视频。

至于AI插帧的部分,设计的双向通道注意力模块则是为了让AI理解前后帧的语义。

最后,生成的视频就是比较丝滑的效果了,输出的4秒视频帧数在32张左右。

在人类评估中得分最高

这篇论文同时用数据测试和人类打分两种方法,对模型进行了评估。

研究人员首先将CogVideo在UCF-101和Kinetics-600两个人类动作视频数据集上进行了测试。

其中,FVD(Fréchet视频距离)用于评估视频整体生成的质量,数值越低越好;IS(Inception score)主要从清晰度和生成多样性两方面来评估生成图像质量,数值越高越好。

整体来看,CogVideo生成的视频质量处于中等水平。

但从人类偏好度来看,CogVideo生成的视频效果就比其他模型要高出不少,甚至在当前最好的几个生成模型之中,取得了最高的分数:

具体来说,研究人员会给志愿者一份打分表,让他们根据视频生成的效果,对几个模型生成的视频进行随机评估,最后判断综合得分:

CogVideo的共同一作洪文逸和丁铭,以及二作郑问迪,三作Xinghan Liu都来自清华大学计算机系。

此前,洪文逸、丁铭和郑问迪也是CogView的作者。

论文的指导老师唐杰,清华大学计算机系教授,智源研究院学术副院长,主要研究方向是AI、数据挖掘、机器学习和知识图谱等。

对于CogVideo,有网友表示仍然有些地方值得探究,例如DALL-E2和Imagen都有一些不同寻常的提示词来证明它们是从0生成的,但CogVideo的效果更像是从数据集中“拼凑”起来的:

例如,狮子直接“用手”喝水的视频,就不太符合我们的常规认知(虽然很搞笑):

(是不是有点像给鸟加上两只手的魔性表情包)

但也有网友指出,这篇论文给语言模型提供了一些新思路:

用视频训练可能会进一步释放语言模型的潜力。因为它不仅有大量的数据,还隐含了一些用文本比较难体现的常识和逻辑。

目前CogVideo的代码还在施工中,感兴趣的小伙伴可以去蹲一波了~

项目&论文地址:https://github.com/THUDM/CogVideo

参考链接:[1]https://twitter.com/ak92501/status/1531017163284393987[2]https://news.ycombinator.com/item?id=31561845[3]https://www.youtube.com/watch?v=P7JRvwfHFwo[4]https://agc.platform.baai.ac.cn/CogView/index.html[5]https://www.reddit.com/r/MediaSynthesis/comments/v0kqu8/cogvideo_largescale_pretraining_for_texttovideo/

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

相关话题

  • 过敏性鼻炎脱敏针一针多少钱(猫猫狗狗常见疾病自查)
  • 生长抑素多少钱一只(既然胰腺癌这么可怕)
  • 苹果xR现在多少钱(疯狂)
  • 做痔疮手术一般要多少钱(治疗痔疮需要多少钱)
  • 学健身教练需要多少钱(健身教练证考取需要多少钱呢)
  • 电动车上牌照需要什么手续多少钱(才知道)
  • 做皮秒多少钱一次(美女网红自曝医美史)
  • 100纯蜂蜜多少钱一斤(蜂蜜的成本价到底是多少)
  • 纯阿胶块多少钱一斤(14年提价近20次)
  • 铟多少钱一公斤(铟相关概念股四连板)
  • 一只边牧幼犬多少钱(2200元买的边境牧羊犬)
  • 46号抗磨液压油多少钱一桶(长城)
  • 400毫升血浆多少钱(许三观卖血记)
  • 捷途x70多少钱一辆(捷途X70)
  • 叶仙多少钱一棵(10大富贵花)
  • 真正的蚕丝被多少钱一床(蚕丝原料上涨)
  • 浴霸换一个换气扇的多少钱(过来人建议)
  • 220v稳压器多少钱一台(用电网电压220V做个低压直流稳压器的设计分析)
  • 蜂蜜多少钱1斤市场价(50元1斤没人要)
  • 学健身教练需要多少钱(健身教练培训学费一般多少钱)

热门推荐

  • 淘工厂上线“百城百味·百万爆款”计划,扩充生鲜食品供给力!
  • 京东发动“内容”之战,视频、直播或成突破口!
  • 饿了么发布即时零售行业首个商家AI经营工具!
  • 侯毅卸任引热议,业内人士:新零售不会退场!
  • 多平台媒体账号如何高效引流?
  • 新手短视频运营的技巧汇总!
  • 微信公众号自运营和代运营该选哪个?
  • 电商运营都该做哪些工作?
  • 淘宝成立直播电商公司,提供“保姆式”全托管运营服务!
  • 新零售渠道有哪些?
  • 小红书常用的推广引流方法有哪些?
  • 微信私域流量3招搞定!
  • 电商运营主要工作是什么?
  • 运营搜索怎么做?
  • 新零售的风刮起来了!它都有哪些模式?
  • 做新媒体人需必备的4个运营技能,助力打造爆款!
  • 公众号日常如何做好内容维护和运营推广?
  • 如何选择私域运营的工具呢?
  • 超市的新型经营模式有哪些?
  • 美团买菜更名“小象超市”背后,走上即时零售的新赛道!

刘阳远

关注
免责声明:本文章由会员“刘阳远”发布,如果文章侵权,请联系我们处理,本站仅提供信息存储空间服务 如因作品内容、版权和其他问题请于本站联系

关注排行榜

  1. 1淘工厂上线“百城百味·百万爆款”计划,扩充生鲜食品供给力!
  2. 2京东发动“内容”之战,视频、直播或成突破口!
  3. 3饿了么发布即时零售行业首个商家AI经营工具!
  4. 4侯毅卸任引热议,业内人士:新零售不会退场!
  5. 5多平台媒体账号如何高效引流?
  6. 6新手短视频运营的技巧汇总!
  7. 7微信公众号自运营和代运营该选哪个?
  8. 8电商运营都该做哪些工作?
  9. 9淘宝成立直播电商公司,提供“保姆式”全托管运营服务!
  10. 10新零售渠道有哪些?

编辑精选

Copyright ©2009-2022 KeJiTian.Com, All Rights Reserved

版权所有 未经许可不得转载

增值电信业务经营许可证备案号:辽ICP备14006349号

网站介绍 商务合作 免责声明 - html - txt - xml