首页>科技>资讯
可灵2.0大师版正式发布,视频及图像可控生成与编辑能力再升级
4月15日,快手可灵AI在北京中关村国际创新中心举行“灵感成真”2.0模型发布会,宣布基座模型再次升级,面向全球正式发布可灵2.0视频生成模型及可图2.0图像生成模型。
数据显示,自去年6月发布以来,可灵AI已累计完成超20次迭代,截至目前,全球用户规模突破2200万,累计生成1.68亿个视频及3.44亿张图片素材。来自世界各地的超1.5万开发者和企业客户,将可灵的API应用于不同的行业场景中。
快手高级副总裁、社区科学线负责人盖坤表示,可灵希望让每个人都能用AI讲出好故事,实现更加精准的复杂创意表达。
可灵AI全系模型进入2.0时代
3月27日,全球知名AI基准测试机构Artificial Analysis发布了最新的全球视频生成大模型榜单,快手可灵1.6pro(高品质模式)以1000分的Arena ELO基准测试评分登陆图生视频(Image to Video)赛道榜首。
盖坤认为,AI在辅助创意表达上拥有巨大潜力,但当前的行业发展现状还远远无法满足用户需求,在AI生成内容的稳定性,以及用户复杂创意的精确传达上仍有“很多挑战”。也因此,要真正实现“用AI讲好每一个故事”的愿景,必须对基模型能力进行全方位提升,定义人和AI交互的“全新语言”。
在本次2.0模型的迭代中,可灵AI正式发布AI视频生成的全新交互理念Multi-modal Visual Language(MVL),让用户能够结合图像参考、视频片段等多模态信息,将脑海中包含身份、外观、风格、场景、动作、表情、运镜在内的多维度复杂创意,直接高效地传达给AI。
“大家应该很自然地会感受到文字在表达影像信息时,是不完备的。我们需要有新的方式,能让人真正精准地表达出心中所想。”盖坤表示,MVL由TXT(Pure Text,语义骨架)和MMW(Multi-modal-document as a Word,多模态描述子)组成,能从视频生成设定的基础方向以及精细控制这两个层面,精准实现AI创作者们的创意表达。
基于MVL理念,可灵AI正式推出多模态编辑功能。“从今天起,大家可以在可灵AI的平台上体验我们的多模态编辑能力。用户可以非常直接地把自己的想法用图像等方式作为输入,生成符合自己想法的创意视频。”盖坤介绍,MMW(多模态描述子)将不只局限于图片和视频,也可以引入其他模态的信息,例如声音、运动轨迹等,让用户实现更加丰富的表达。
“灵感成真”可灵AI2.0发布会现场
可灵2.0大师版正式发布,全新上线多模态视频编辑功能
基于MVL这一全新交互方式,发布会现场,快手副总裁、可灵AI负责人张迪发布了全新的可灵2.0大师版,在语义响应、动态质量、画面美学等方面显著提升生成效果。“可灵2.0大师版不仅仅是一次简单的技术升级,更是一次全方位的体验跃升。”张迪介绍,可灵2.0大师版实现了技术、体验、美学的三重突破。
值得一提的是,可灵2.0大师版全面升级视频及图像创作可控生成与编辑能力,上线全新的多模态视频编辑功能,能灵活理解用户意图。支持在一段视频的基础之上,通过输入图片或文字,对生成的视频内容实现元素的增加、删减、替换,帮助创作者们实现更加灵活的二次编辑和处理。
可灵2.0大师版操作界面
张迪披露,当前,图生视频约占到可灵AI视频创作量的85%,图片质量也对视频的生成效果产生重要作用。此次可图2.0文生图能力迎来全面升级,包括大幅提升指令遵循能力、显著增强电影美学表现力以及更多元的艺术风格。在风格化响应上,可图2.0可支持60多种风格化的效果转绘,模型出图创意和想象力实现大幅跃升。
同时,可图2.0也上线了实用的图像可控编辑功能——局部重绘和扩图,支持图片的增加、修改和修复。在图像的多模态可控生成中,可图2.0还上线了全新的风格转绘功能,只需要上传一张图片加上风格描述,就能一键切换图片的艺术风格,同时精准保留原图的语义内容。
AIGC技术迅猛发展,为全行业发展注入全新活力
除了C端订阅用户,可灵AI也面向B端商家提供API接入等服务。目前,可灵AI已与包括小米、亚马逊云科技、阿里云、Freepik、蓝色光标等在内的数千家国内外企业客户建立了合作关系。
盖坤披露,来自世界各地的超1.5万开发者,已将可灵的API应用于不同的行业场景中,累计生成的图像数量约1200万个,生成的视频素材超过4000万个。
如今,可灵正在成为AI时代视频创作的新基础设施。AIGC技术的迅猛发展,也正在重构包括广告营销、专业创作、影视、娱乐创意等在内的多个行业。
以二次元AI创作社区产品狸谱为例,其产品负责人一休介绍,可灵AI为狸谱带来了创新突破。其1.6版本在人物运动流畅度、镜头移动等方面展现出卓越性能,助力狸谱成功接入“动态LIVE”和“新春萌偶摇”两大功能。前者实现“图 - 影 - 音”快速创作,后者在春节期间引发60万用户转播。未来,双方将基于狸谱的优质内容数据与可灵的算法能力,打造动画模型,推动AI成为内容引擎,并共同孵化优质创作者,构建更活跃的创作生态,携手开启二次元内容产业的新篇章。
张迪在发布会现场还发起了“可灵AI NextGen 新影像创投计划”。该计划将加大对于AIGC创作者的扶持力度,通过千万资金投入、全球宣发、IP打造和保障,以全资出品、联合出品和技术支持等灵活多样的合作方式,让AI好故事走向世界。同时,可灵AI面向全球创作者发出征集邀约,邀请用户共同打造全球首支用户共创AI创意短片,让创作者的灵感和创意登陆上海、香港、东京、巴黎、多伦多等世界多地广告大屏。
编辑:马嘉悦