界面新闻记者 | 陈振芳界面新闻编辑 | 文姝琪8月31日,MiniMax低调发布首款视频生成大模型,同时发布一条由MiniMax大模型生成的2分钟视频《魔法硬币》。值得注意的是,目前MiniMax并未公布模型的具体参数和技术要点。当天,MiniMax创始人闫俊杰在接受界面新闻等媒体群访时表示,“我们确实在视频模型生成方面取得很大的进展,根据内部评测以及跑分,我们比Runway的(生成视频)效果更好。”据其透露,目前的视频生成模型只是第一版,很快会有新版本,后续还会在数据、算法本身、使用细节等方面继续迭代,现在只提供文生视频。未来图生视频、文+图生成视频都会陆续出来。“我们的策略先再等一两周,等新东西到达满意状态后,可能会考虑商业化。”闫俊杰进一步表示。目前,MiniMax的商业化由两部分组成,开放平台有两千多家客户。其次,该公司的产品中也有广告机制。“现阶段,最重要的东西不是商业化,而是技术能够到达广泛可用的程度。”闫俊杰说。然而,相较于快手可灵,MiniMax推出视频生成模型在时间上晚了一两个月。闫俊杰解释,这期间,团队一直在解决更难的技术问题——如何训练算力较高的内容。难度在训练视频生成能力,需要先把视频变成token,这些token非常长,越长复杂度越高。最终,MiniMax团队通过算法不断降低复杂度,压缩率变得更高,因此发布时间晚了一两个月。不管是视频、文本、声音,MiniMax团队的核心研发思路不在于找一个算法提升5%、10%的路径,“如果能提升几倍就一定要做出来,只提升5%就不太值得做。”谈及为何一定要做文生视频,闫俊杰认为,本质在于人类每天消费的大部分内容是图文和视频,文字占比不高。为了有更高的用户覆盖度和使用度,唯一的办法是输出多模态内容,而不是单纯输出文字内容,一定要做多模态,这个路线是一以贯之的。视频的工作复杂度比做文本更难,视频的上下文
界面新闻记者 |








