一起游 手游攻略 软件教程 国产AI视频神器大更新,支持4K、60帧,视频生成有声时代来了…-国产ai视频神器大更新,支持4k,60帧,视频生成有声时代来了…

国产AI视频神器大更新,支持4K、60帧,视频生成有声时代来了…-国产ai视频神器大更新,支持4k,60帧,视频生成有声时代来了…

时间: 来源:互联网 浏览:0

国产全AI游戏来了?!大模型直出开放世界游戏,有声可交互

距离普通人凭想法就能做出游戏的时代,又近了一步。

AI游戏生成天花板今年以来不断突破,就在昨天,国产游戏AI团队也加入卷出了新高度。

巨人网络发布了“千影 QianYing”有声游戏生成大模型,其中包括游戏视频生成大模型YingGame、视频配音大模型YingSound。

用一段文字、一张图,就能生成模拟开放世界游戏的视频,并且有声、可交互,可操控角色的多种动作

概括来说,YingGame 是一个面向开放世界游戏的视频生成大模型,研究团队来自巨人网络AI Lab、清华大学SATLab,首次实现角色多样动作的交互控制、自定义游戏角色,同时具备更好的游戏物理仿真特性。

从生成的视频中看,无论是汽车碰撞、火焰燃烧这类大场面,还是水中慢走、障碍物自动绕行这种人物行进,都表现出了出色的遵循物理规律能力。

交互对游戏至关重要,YingGame能够理解用户的输入交互,包括文本、图像或鼠标、键盘按键等操作信号,从而让用户能够操控游戏角色的多样动作。

视频中展示了角色在开枪、变身、施法、使用道具、攀爬、匍匐、跑跳等肢体动作的交互,相比同类模型更加丰富、丝滑。

YingGame还支持输入一张角色图片,实现角色自定义生成,同时对角色主体实现精细化控制,从过去的AI捏脸跨越到现在的AI捏人。

此外,还看到模型生成的第一人称视角的游戏画面,不得不说,这个视角有很足的游戏沉浸感。

从技术上看,YingGame 通过融合跨模态特征、细粒度角色表征、运动增强与多阶段训练策略,以及所构建的高效、高质量游戏视频训练数据生产管线,使得生成内容具备可交互能力的多样动作控制、角色自定义与精细主体控制、复杂运动与动作连续性等特性。

在交互性实现上,YingGame 结合了多个Interactive Network模块:理解用户输入的多模态交互方式,实现多样动作控制的多模态交互网络 — MMIN (Multi-Modal Interactive Network);实现复杂与连续角色动作生成的动作网络 — IMN (Interactive Motion Network);自定义角色生成与提高角色生成质量的角络 — ICN (Interactive Character Network)。

此外,为实现高质量训练数据构建,巨人AI团队设计了一条高效的游戏视频数据处理管线:

  • 基于场景与高光产出高质量视频片段,其中对高光视频片段进行音频信息提取,作为V2A训练集;
  • 基于运动得分、美学评分等进行视频过滤;
  • vLLM-based video caption流程,并对结果进行clip score文本视频对齐评分过滤;
  • 多任务数据处理,如分割、主体检测、姿势估计、深度估计、相机运动估计等。

除了YingGame之外,巨人还发布了针对视频配音场景的多模态音效生成大模型 YingSound。

这是在此之前AI游戏生成领域没有实现的,而“声音”是游戏的基本要素。

YingSound 由巨人网络AI Lab、西工大ASLP Lab和浙江大学等联合研发,它最重要的技能是:给无声视频配音效,实现音画同步。

YingSound有超强的时间对齐和视频语义理解能力,支持多种类型的高精细度音效生成,并且具备多样化应用场景泛化能力,包括游戏视频、动漫视频、真实世界视频、AI生成视频等。

来一段游戏的配音示例,通过演示视频可以清晰看到,这个模型能够精确地生成与场景高度匹配的音效,包括开镜、炮轰、射击等声音,完美还原坦克进攻与士兵防守射击的声音,创造了沉浸式的游戏体验。

在动漫场景中,模型展示了对复杂剧情的理解能力。例如,在一段鸟儿互相扔蛋的动画中,模型生成了从惊讶到扔蛋、蛋飞行轨迹、接住蛋等一系列卡点且高度符合视频内容的音效。

再来看看以下小球快速移动的画面,模型生成的声音能够精准匹配画面的动态变化,并针对小球不同状态生成相应的场景音效,充分展现了其对动画内容的深度理解。

在真实世界场景中,通过一段激烈的乒乓球对战视频,模型能够精准地生成每次击球所产生的音效,甚至还生成了球员跑动时鞋底与地面摩擦的声音,这充分展现 YingSound 对视频整体语义的深刻理解和出色的音效生成能力。

研究团队公开了 YingSound 的两个核心模块:基于 DiT 的 Flow-Matching 构建的音效生成模块,以及多模态思维链(Multi-modal CoT)控制模块,为音效生成提供精准支持。

在音效生成模块中,团队基于 DiT 的 Flow-Matching 框架,提出了创新的音频-视觉融合结构(Audio-Vision Aggregator, AVA)。该模块通过动态融合高分辨率视觉与音频特征,确保跨模态对齐效果。通过多阶段训练策略,逐步从 T2A 过渡到 V2A,并采用不同数据配比训练,使模型具备从文本、视频或二者结合生成高质量音效的能力。

同时,团队设计了多模态视频-音频链式思维结构(Multi-modal CoT),结合强化学习实现对少样本情况下音效生成的精细控制,可广泛适用于短视频、动漫及游戏等配音场景。

国产AI视频神器大更新,支持4K、60帧,视频生成有声时代来了…-国产ai视频神器大更新,支持4k,60帧,视频生成有声时代来了…

团队精心构建了符合行业标准的V2A(video-to-audio)数据集,覆盖了电影、游戏、广告等多场景、多时长的音视频内容。为确保数据质量,研究团队还设计了一套完善的数据处理流程,涵盖数据收集、标注、过滤和剪辑。针对不同视频类型的复杂性与差异性,团队基于多模态大语言模型(MLLMs)及人工标注,完成时间戳和声音事件的高质量标注。同时,通过严格筛选,过滤掉背景音乐干扰及音视频不同步的内容,最终生成符合行业标准要求的训练数据,为后续研究与开发提供了坚实基础。

通过客观指标测评可以看出,YingSound 大模型在整体效果、时间对齐和视频语义理解等客观测评上均达到业界领先水平

长期来看,视频生成技术因其展现出的取代游戏引擎的潜力,势必会对游戏行业带来颠覆式创新。

通过文字描述就能创作一个游戏,不再是异想天开。这个领域的发展速度之快超乎想象,AI将带来游戏创作平权,未来游戏创作的唯一限制可能只是创作者们的想象力。

今年年初,史玉柱谈到巨人网络在探索打造一个AI游戏孵化平台,降低做游戏的门槛,让普通人也能做游戏。这不,年底就交了第一份“作业”,期待他们在AI游戏赛道的下一步规划。

智谱AI公布清影新升级:视频生成步入“有声”时代

新京报贝壳财经讯(记者罗亦丹)今年以来,Sora带火的AI生成视频吸引了许多人的关注,年内各式各样的AI视频大模型层出不穷,但有一点是一致的:所有AI生成的视频都是一段无声的“默片”。不过这一点即将迎来改变。

11月8日,“新AI六小龙”之一的北京AI大模型公司智谱宣布,其视频生成工具清影进行了重要升级,新清影在以下5个方面实现了提升:模型能力上,在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强;支持生成 10s、4K、60 帧超高清视频;支持任意比例的图像生成视频,包括超宽画幅;新增同一指令/图片可以一次性生成4个视频的多通道生成能力;以及最重要的——新清影可以生成与画面匹配的音效,其音效功能将在本月上线公测。

根据智谱AI展示的视频,新清影生成的视频有着各式各样的音效,如出现赛车视频时的引擎轰鸣声,主角飞到空中时风刮过衣领猎猎作响的声音,以及拉小提琴时可以贴合手部动作的琴声等。

智谱AI演示视频截图,图中拉小提琴的视频为AI生成,且有声音。

智谱披露的技术博客文档显示,为视频增添声音的是其开发的多模态模型家族音效模型 CogSound,基于GLM-4V的视频理解能力,CogSound 能够准确识别并理解视频背后的语义和情感,并为无声视频添加与之相匹配的音频内容,甚至可以生成更加复杂的音效,如爆炸、水流、乐器、动物叫声、交通工具声等。

具体来看,CogSound 的音效生成能力主要得益于采用潜空间扩散模型(Latent Diffusion Model),将音频生成过程从高维的原始空间转移到低维潜空间,降低了计算复杂度,同时保持了生成音频的高质量和高效率;引入分块时序对齐交叉注意力(Block-wise Temporal Alignment Cross-attention)机制,优化了视频长序列与音频特征之间的特征匹配;整合了旋转位置编码技术,通过为序列中的每个位置提供唯一标识并捕捉位置间的相对关系,让每个视频帧的位置都拥有独特的“坐标”,在音频生成中有效提升了时序一致性,确保音频序列的连贯性和过渡自然性。

“当前,AI生成视频用于影视创作仍需要多种不同的创作工具串联使用,但基于我们多模态的最新成果,实现这种一站式原生多模态工作流,这样的前景无疑是激动人心的。”智谱方面表示。

校对 吴兴发

AI视频生成迈入“有声时代”,智谱AI概念股再现涨停潮

21世纪经济报道记者孔海丽 北京报道

11月11日,多支智谱AI概念股拉升,其中,思美传媒、中科金财、东华软件涨停,因赛集团、每日互动、海天瑞声、首都在线收盘涨幅均超7%。

市场消息方面,上周五,智谱AI宣布旗下AI视频生成产品“清影”进行全面升级,从纯视觉生成迈入“有声视频”阶段。

据了解,智谱清影为用户提供了10秒时长、4K分辨率、60帧率的视频生成能力,同时增加了音效生成功能。

3个月前,作为国内首个面向公众开放的视频生成产品,清影上线清言App,只需一段指令或图片,30秒就能生成AI视频。

智谱方面表示,此次升级的模型在视频质量、动作合理性、面部表情表现等方面都有改善,同时支持任意比例的视频生成,适应多种场景需求。此外,清影具备多通道生成功能,可根据同一指令同时生成四段不同视频,为用户提供更多选择空间。

新增的音效生成功能是一大看点。新推出的音效模型CogSound,可以根据视频内容自动生成相应的音效,包括环境音、物体碰撞以及交通工具声等。音效功能预计将在本月上线公测。

据透露,CogSound依托于GLM-4V模型的强大视频理解能力,能够精准识别视频中的情感和语义,并生成与之匹配的音频内容。这项功能不仅简化了后期音效制作的流程,还能提升整体视频内容的表现力。

实际上,智谱AI于10月25日公布的一系列GLM-OS工具,可以代替人类操作手机与电脑,引发了热烈讨论,曾带动豆神教育、电广传媒等智谱AI概念股连拉七个涨停板。

市场对AI工具的应用落地,持续赋予厚望。

更多内容请下载21财经APP

用户评论

算了吧

哇,这个更新好厉害!4K和60帧终于支持了,我的视频从此画面清晰细腻再也没问题。还有有声的,想想就很方便,不用再去剪辑音效了,直接就能制作出高质量视频!

    有9位网友表示赞同!

拥菢过后只剰凄凉

国产AI视频神器越来越好用啦!之前只用它生成图片还好,现在可以生成视频,而且是4K和60帧,太牛了!有声更是一大利器,做宣传片什么的简直不要更合适了。

    有20位网友表示赞同!

秘密

终于到我这个小白的时代啦!以前看别人用AI生成视频都觉得很费劲,现在有了它可以一键生成4K视频,这也太方便了吧!不用学习什么技术也能做出高级效果的工具太棒了。

    有16位网友表示赞同!

失心疯i

说实话,我对国产的AI技术还是有信心,但是这个更新有些过于吹牛了。“视频生成有声时代来了”有点夸张吧?毕竟现在市面上很多软件都能实现这种功能,只是做成4K和60帧的还不多点而已。

    有19位网友表示赞同!

暖栀

看着简介描述很期待,但我实际用下来发现这款AI视频神器跟宣传里说的差距有点大。虽然支持4K和60帧,但生成的视频画面有时会有明显的卡顿,而且声音效果并没有想象中那么好。

    有20位网友表示赞同!

断秋风

这个更新确实不错,支持4K、60帧是个不错的进步,可生成有声的视频确实为创作更便捷!不过,我希望能看到更多样化的模板和场景选择,比如一些电影特效类的模板等等,这样效果才能更加丰富。

    有8位网友表示赞同!

像从了良

这个国产AI视频神器大更新真是一场让人惊喜的福利啊!支持4K、60帧是给生产高质量视频的大力助攻!希望未来能够加入更多功能,让它越来越强大!

    有17位网友表示赞同!

娇眉恨

对一个普通用户来说,支持4K和60帧对我来说意义不大,毕竟我的硬件配置不太能支持这个级别的高质量视频。我还是希望能看到一些基础的剪辑功能加强,比如更丰富的字幕选择、音乐库等等。

    有10位网友表示赞同!

南初

虽然国产AI视频神器大更新很棒,但价格还是有点高昂,对于学生党和个人小工作室来说可能负担有些重,希望以后可以出一些实惠版的软件。

    有11位网友表示赞同!

夏日倾情

"视频生成有声时代来了"?说实话,我觉得这更像是个噱头营销罢了。现在有很多其他AI视频软件都支持这种功能,国产AI视频神器大更新最大的亮点还是在于4K和60帧的支持吧。(

    有15位网友表示赞同!

绳情

这个国产AI视频神器大更新确实给我带来了一些惊喜,4K和60帧的支持提高了视频质量,还有声音生成的功能让我更方便的创作内容。期待未来能添加更多功能!

    有12位网友表示赞同!

病房

终于可以制作出高质量的4K视频了!以前只能用低分辨率制作,现在有了这款国产AI视频神器大更新就完全不再是问题了,非常方便! 而且视频有声的效果真的太好了,省去了很多剪辑的时间和精力。

    有16位网友表示赞同!

有一种中毒叫上瘾成咆哮i

这次更新让我对国产AI技术充满了信心!4K、60帧和视频生成都有声都实现啦,这可是个巨大的进步啊!我相信在未来这款神器会越来越强大,帮助更多人轻松制作出高质量视频。

    有9位网友表示赞同!

微信名字

对于一个对软件要求比较高的用户来说,这款国产AI视频神器大更新还是有一定的不足!1080P分辨率的视频生成的帧率有些卡顿,需要进一步优化才能达到4K、60帧的表现水平。

    有18位网友表示赞同!

烟花巷陌

这个更新太棒了!支持4K和60帧,简直开挂了! 之前用别的软件做视频经常卡顿,现在终于可以流畅制作高品质的视频了。有声的功能我也很喜欢,省时省力啊!

    有11位网友表示赞同!

在哪跌倒こ就在哪躺下

这款国产AI视频神器大更新真是让我眼前一亮,4K、60帧和生成声音的功能简直太棒了!以前做视频还需要借助很多软件才能完成,现在可以用它一键搞定,效率提升了很多!

    有8位网友表示赞同!

标题:国产AI视频神器大更新,支持4K、60帧,视频生成有声时代来了…-国产ai视频神器大更新,支持4k,60帧,视频生成有声时代来了…
链接:https://yqqlyw.com/news/rj/65536.html
版权:文章转载自网络,如有侵权,请联系删除!
资讯推荐
更多
做超声检查时,医生为什么要在患者肚子上涂粘粘的东西

做B超为什么要涂凝胶?在支付宝蚂蚁庄园每日一题中,2021年4月9日的问题是问做超声检查时,医生为什么要在患者肚

2026-01-19
小米mix fold有前置摄像头吗

小米mix fold有前置摄像头吗?作为小米的第一款折叠屏手机,这款手机可以说实话非常的强大,但是很多网友还是想要

2026-01-19
蚂蚁庄园4月10日答案最新

蚂蚁庄园4月10日答案最新是什么?在支付宝蚂蚁庄园每日一题中,你知道蚂蚁庄园2021年4月10日答案是什么吗?该怎么

2026-01-19
蚂蚁庄园4月13日答案最新

支付宝蚂蚁庄园今日答题答案是什么?在支付宝蚂蚁庄园每日一题中,每天都会刷新出现多个题目等待大家来回答,回答

2026-01-19