科技改变生活 · 科技引领未来

  • 首页
  • 资讯
  • 技术
  • 百科
  • 问答
  • 学习
  • 看看
  • 站长
  • 生活
  • 快讯

首页 > 问答 > 媒体运营

制作一个vr视频多少钱(这个)

时间:2022-10-11 14:45 作者:刘阳远

萧箫发自凹非寺量子位|公众号QbitAI一周不到,AI画师又“进阶”了,还是一个大跨步——直接1句话生成视频的那种。输入“一个下午在海滩上奔跑的女人”,立刻就蹦出一个4秒32帧的小片段:又或是输入“一颗燃烧的心”,就能看见一只被火焰包裹的心

萧箫 发自 凹非寺量子位 | 公众号 QbitAI

一周不到,AI画师又“进阶”了,还是一个大跨步——

直接1句话生成视频的那种。

输入“一个下午在海滩上奔跑的女人”,立刻就蹦出一个4秒32帧的小片段:

制作一个vr视频多少钱(这个)

又或是输入“一颗燃烧的心”,就能看见一只被火焰包裹的心:

这个最新的文本-视频生成AI,是清华&智源研究院出品的模型CogVideo。

Demo刚放到网上就火了起来,有网友已经急着要论文了:

CogVideo“一脉相承”于文本-图像生成模型CogView2,这个系列的AI模型只支持中文输入,外国朋友们想玩还得借助谷歌翻译:

看完视频的网友直呼“这进展也太快了,要知道文本-图像生成模型DALL-E2和Imagen才刚出”

还有网友想象:照这个速度发展下去,马上就能看到AI一句话生成VR头显里的3D视频效果了:

所以,这只名叫CogVideo的AI模型究竟是什么来头?

生成低帧视频后再插帧

团队表示,CogVideo应该是当前最大的、也是首个开源的文本生成视频模型。

在设计模型上,模型一共有90亿参数,基于预训练文本-图像模型CogView2打造,一共分为两个模块。

第一部分先基于CogView2,通过文本生成几帧图像,这时候合成视频的帧率还很低;

第二部分则会基于双向注意力模型对生成的几帧图像进行插帧,来生成帧率更高的完整视频。

在训练上,CogVideo一共用了540万个文本-视频对。

这里不仅仅是直接将文本和视频匹配起来“塞”给AI,而是需要先将视频拆分成几个帧,并额外给每帧图像添加一个帧标记。

这样就避免了AI看见一句话,直接给你生成几张一模一样的视频帧。

其中,每个训练的视频原本是160×160分辨率,被CogView2上采样(放大图像)至480×480分辨率,因此最后生成的也是480×480分辨率的视频。

至于AI插帧的部分,设计的双向通道注意力模块则是为了让AI理解前后帧的语义。

最后,生成的视频就是比较丝滑的效果了,输出的4秒视频帧数在32张左右。

在人类评估中得分最高

这篇论文同时用数据测试和人类打分两种方法,对模型进行了评估。

研究人员首先将CogVideo在UCF-101和Kinetics-600两个人类动作视频数据集上进行了测试。

其中,FVD(Fréchet视频距离)用于评估视频整体生成的质量,数值越低越好;IS(Inception score)主要从清晰度和生成多样性两方面来评估生成图像质量,数值越高越好。

整体来看,CogVideo生成的视频质量处于中等水平。

但从人类偏好度来看,CogVideo生成的视频效果就比其他模型要高出不少,甚至在当前最好的几个生成模型之中,取得了最高的分数:

具体来说,研究人员会给志愿者一份打分表,让他们根据视频生成的效果,对几个模型生成的视频进行随机评估,最后判断综合得分:

CogVideo的共同一作洪文逸和丁铭,以及二作郑问迪,三作Xinghan Liu都来自清华大学计算机系。

此前,洪文逸、丁铭和郑问迪也是CogView的作者。

论文的指导老师唐杰,清华大学计算机系教授,智源研究院学术副院长,主要研究方向是AI、数据挖掘、机器学习和知识图谱等。

对于CogVideo,有网友表示仍然有些地方值得探究,例如DALL-E2和Imagen都有一些不同寻常的提示词来证明它们是从0生成的,但CogVideo的效果更像是从数据集中“拼凑”起来的:

例如,狮子直接“用手”喝水的视频,就不太符合我们的常规认知(虽然很搞笑):

(是不是有点像给鸟加上两只手的魔性表情包)

但也有网友指出,这篇论文给语言模型提供了一些新思路:

用视频训练可能会进一步释放语言模型的潜力。因为它不仅有大量的数据,还隐含了一些用文本比较难体现的常识和逻辑。

目前CogVideo的代码还在施工中,感兴趣的小伙伴可以去蹲一波了~

项目&论文地址:https://github.com/THUDM/CogVideo

参考链接:[1]https://twitter.com/ak92501/status/1531017163284393987[2]https://news.ycombinator.com/item?id=31561845[3]https://www.youtube.com/watch?v=P7JRvwfHFwo[4]https://agc.platform.baai.ac.cn/CogView/index.html[5]https://www.reddit.com/r/MediaSynthesis/comments/v0kqu8/cogvideo_largescale_pretraining_for_texttovideo/

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

相关话题

  • xo人头马酒多少钱一瓶(人头马XO)
  • 女性做结扎手术需要多少钱(女性结扎对还是错)
  • 幼犬拉布拉多多少钱一只(拉布拉多月生活费清单)
  • 前列腺液细菌培养要多少钱(因为前列腺炎他被骗子医院坑了)
  • 60电瓶多少钱一块(6月24日废纸)
  • 魔胴防弹咖啡多少钱(巨星传奇IPO)
  • 防草布一亩地多少钱(果农咨询)
  • 铺设地暖每平米大概多少钱(新房住宅装修)
  • 投资一个洗车店大概需要多少钱(大学刚毕业小伙子开洗车场)
  • 矫正牙齿多少钱价格表(价格三千与价格一万的牙齿矫正的差别在哪里)
  • 防草布一亩地多少钱(果业全产业链的出路)
  • 8头鲍鱼多少钱一个(17)
  • 包茎整形手术多少钱(割包皮DIY)
  • 去医院测血糖要多少钱(用血糖仪和在医院测出的血糖会差多少)
  • 电视广告需要多少钱(电视开机广告日赚170万)
  • 120出车费多少钱(为什么警车)
  • nbb修复膏多少钱一盒(68批次化妆品不合格)
  • 木马卷多少钱(陶虹48岁真让人意外)
  • 药物基因检测多少钱(基因检测和药物应用)
  • 乳房彩超多少钱做一次(良性)

热门推荐

  • 淘工厂上线“百城百味·百万爆款”计划,扩充生鲜食品供给力!
  • 京东发动“内容”之战,视频、直播或成突破口!
  • 饿了么发布即时零售行业首个商家AI经营工具!
  • 侯毅卸任引热议,业内人士:新零售不会退场!
  • 多平台媒体账号如何高效引流?
  • 新手短视频运营的技巧汇总!
  • 微信公众号自运营和代运营该选哪个?
  • 电商运营都该做哪些工作?
  • 淘宝成立直播电商公司,提供“保姆式”全托管运营服务!
  • 新零售渠道有哪些?
  • 小红书常用的推广引流方法有哪些?
  • 微信私域流量3招搞定!
  • 电商运营主要工作是什么?
  • 运营搜索怎么做?
  • 新零售的风刮起来了!它都有哪些模式?
  • 做新媒体人需必备的4个运营技能,助力打造爆款!
  • 公众号日常如何做好内容维护和运营推广?
  • 如何选择私域运营的工具呢?
  • 超市的新型经营模式有哪些?
  • 美团买菜更名“小象超市”背后,走上即时零售的新赛道!

刘阳远

关注
免责声明:本文章由会员“刘阳远”发布,如果文章侵权,请联系我们处理,本站仅提供信息存储空间服务 如因作品内容、版权和其他问题请于本站联系

关注排行榜

  1. 1淘工厂上线“百城百味·百万爆款”计划,扩充生鲜食品供给力!
  2. 2京东发动“内容”之战,视频、直播或成突破口!
  3. 3饿了么发布即时零售行业首个商家AI经营工具!
  4. 4侯毅卸任引热议,业内人士:新零售不会退场!
  5. 5多平台媒体账号如何高效引流?
  6. 6新手短视频运营的技巧汇总!
  7. 7微信公众号自运营和代运营该选哪个?
  8. 8电商运营都该做哪些工作?
  9. 9淘宝成立直播电商公司,提供“保姆式”全托管运营服务!
  10. 10新零售渠道有哪些?

编辑精选

Copyright ©2009-2022 KeJiTian.Com, All Rights Reserved

版权所有 未经许可不得转载

增值电信业务经营许可证备案号:辽ICP备14006349号

网站介绍 商务合作 免责声明 - html - txt - xml