制作自创短视频教程 AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源

用户投稿 12 0

AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源

编辑:编辑部

【新智元导读】今天,全新多模态大语言模型Kwai Keye-VL震撼上线,展现了无与伦比的视频理解力!它能将视频内容转化为高能方案,还会智能选择思考模式,效率与创意兼得。目前,模型已正式开源。

如果有人突然问你:「这张图片中有几颗草莓」? 你会如何快速回复?

面对五彩缤纷的果盘,我们往往需要反复端详,放大图片再逐一清点,耗费不少时间才能得到答案。

然而,AI大模型正让这种复杂视觉识别变得简单——在快手最新发布的Kwai Keye-VL-8B的试用体验中,它自动解析图像细节,执行图像区域裁剪,放大相关的计算代码以增强感知效果,在短短几秒内给出精准答案,一共20颗。

制作自创短视频教程 AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源

Kwai Keye-VL是快手自主研发的多模态大语言模型。

该模型能深度融合和处理文本、图像、视频等多模态信息,凭借创新的自适应交互机制与动态推理能力,致力于为用户打造更智能、更全面的多模态交互新范式。

其中,依托快手在短视频的深厚技术积累,Keye-VL在视频理解方面具备得天独厚的优势。

实践出真知!现在就把一个介绍简易移动房子的视频丢给Keye-VL,考考它能不能利用强大的视频理解和推理能力,当场做出一份销售方案来。

问题: 请你为视频中的商品写一份推销方案。

「看」完11秒的视频后,Kwai Keye-VL很快便生成了一份推销方案,覆盖了方方面面,足以堪称商品推销的「优秀模板」。

制作自创短视频教程 AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源

上下滑动查看

除在复杂视觉感知、视频理解 上的优异表现外,Kwai Keye-VL在逻辑推理 上也同样令人惊喜,在最新的2025高考全国数学卷中,Kwai Keye-VL狂砍140分。

目前,Kwai Keye-VL已正式开源!

制作自创短视频教程 AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源

Homepage: https://kwai-keye.github.io/

Github Repo: https://github.com/Kwai-Keye/Keye

Model Weight: https://huggingface.co/Kwai-Keye/Keye-VL-8B-Preview

KC-MMBench: https://huggingface.co/datasets/Kwai-Keye/KC-MMbench

接下来,让我们一起探索支撑其强大多模态能力的关键技术突破。

制作自创短视频教程 AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源

核心技术架构公开

Kwai Keye-VL基于Qwen3-8B 语言模型,并整合了SigLIP初始化的视觉编码器。

它支持动态分辨率输入,按原始比例将图像切分为14x14分块,由一个MLP层整合这些视觉特征。

模型采用3D RoPE(旋转位置编码) 统一处理文本、图像和视频,并通过位置编码与时间戳对齐,精准捕捉视频时序变化。

制作自创短视频教程 AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源 制作自创短视频教程 AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源

Pre-Train:构建多模态基座能力

Kwai Keye-VL的预训练阶段核心目标是,构建强大的图文和视频理解能力(即视觉-语言对齐)。

为支撑这一目标,模型使用了总量高达600B的大规模多模态预训练数据集,包含图文、视频及纯文本数据。

此外,Kwai Keye-VL通过自建高质量中文OCR系统和精细化描述数据,有效突破了开源数据的局限,专门服务于模型图文/视频理解能力的训练。

训练流程采用四阶段渐进式优化策略:

制作自创短视频教程 AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源 视觉预训练: 持续预训练视觉编码器,使其适配内部数据分布并支持动态分辨率输入。跨模态对齐: 冻结主干模型,仅训练轻量级MLP适配器,以极低成本高效建立鲁棒的图文/视频-文本对齐关系。多任务预训练: 解锁全部模型参数,进行多任务联合训练,全面提升模型的综合视觉理解能力。退火训练: 使用精选高质量数据进行精调,进一步提升模型的精细理解和判别能力。

最后,Kwai Keye-VL探索了同构异质融合技术 ,通过参数平均融合不同数据配比的退火训练模型,在保留多维度能力的同时,减小模型偏差,增强了模型的鲁棒性。

制作自创短视频教程 AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源

Post-Train:两阶段精细微调,突破性强化推理能力

Kwai Keye-VL的后训练阶段经过精心设计,旨在全面提升模型的性能,尤其是其在复杂任务中的推理能力 ,这一部分是模型实现高级认知功能的关键突破。

Stage I. 非推理训练(No-Reasoning Training):夯实基础性能

Kwai Keye-VL首先进行监督微调(SFT),使用500万条高质量多模态VQA数据,数据多样性由自研TaskGalaxy方案建立的任务体系(包含7W种任务)保证,数据质量经AI筛选困难样本及人工标注保障;

随后进行混合偏好优化(MPO),结合开源数据与自建的偏好数据,后者通过收集SFT错误样本作提问素材、Qwen2.5VL 72B与SFT模型生成答案对、人工排序获得。

制作自创短视频教程 AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源

Stage II. 推理训练(Reasoning Training):核心突破,赋能复杂认知

此阶段是Kwai Keye-VL训练流程的最大亮点与贡献 ,通过引入Mix-mode的思维链(CoT)和多思考模式强化学习(RL)机制,显著提升模型的多模态感知、推理和think with image能力,使其能够处理更复杂、需要多步思考的任务。

思维链冷启动阶段(CoT Cold-Start) 通过混合四种推理模式的训练数据,实现对模型思维链能力的零基础激活,使其初步掌握人类分步思考的推理范式。

混合强化学习阶段(CoT-Mix RL) 在冷启动基础上,采用GRPO算法进行混合模式强化学习,通过创新的双轨奖励机制(同步评估结果正确性与过程一致性)深度优化多模态感知、数学推理、短视频理解及智能体协同等综合能力,显著提升模型的推理能力。

多轮迭代对齐阶段(Iterative Alignment) 利用MPO算法对优劣数据对进行多轮迭代,根治内容重复崩溃与逻辑断层问题,最终赋予模型根据问题复杂度智能选择深度推理模式的自适应能力,实现性能与稳定性的双重突破。

Kwai Keye-VL通过分阶段、精细化的预训练与后训练策略,特别是对推理能力的深度强化与创新性突破 ,确保了模型在多种复杂场景下都能提供高质量、逻辑严谨且稳定的输出。

制作自创短视频教程 AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源 制作自创短视频教程 AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源

训练架构优化:高效稳定的百亿参数模型训练

为实现百亿参数模型的高效稳定训练,Kwai Keye-VL通过混合并行策略(整合数据并行/序列并行/ZeRO技术)显著提升训练吞吐量,既利用显存分片降低压力,又通过计算通信重叠隐藏延迟。

不同于纯文本模型训练,多模态输入分辨率差异很大,不同显卡计算负载不均会导致整体利用率降低,Kwai Keye-VL在训练框架中实现了全局负载均衡策略,依据样本FLOPS动态分发样本,尽可能消除硬件闲置,显著提高了多模态训练的MFU。同时构建了样本级自动容错机制,依托联合检查点技术使训练意外中断后可自动精准续训,保证了模型迭代的稳定性。

后训练阶段通过升级vLLM框架加速采样,并部署多奖励模型随机分发策略,大幅压缩强化学习的计算耗时,系统性保障了大规模训练的稳定性与效率。

制作自创短视频教程 AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源

模型评估

· 视觉理解/逻辑推理Benchmark

Kwai Keye-VL在综合感知能力比肩同规模顶尖模型的同时,在复杂推理任务中展现出显著领先优势。

评测数据显示:其基础感知达行业一流水准;而在MMMU、MMStar等通用Benchmark及MathVista、OlympiadBench等推理Benchmark上,该模型性能曲线大幅领跑业界,尤其在需要高阶逻辑推理与数学解题的挑战性任务中,凸显出卓越的复杂问题解决能力。

制作自创短视频教程 AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源

· 视频理解Benchmark

Kwai Keye-VL通过公开与自建评测双验证,在学术标准与真实短视频场景中均展现出全面领先优势。

为突破公开数据集的数据污染、语言覆盖局限及任务单一性等问题,快手构建了内部评测集KC-MMBench。

结果显示,该模型在VideoMME等权威公开Benchmark中以67.4分超越Qwen2.5-VL-7B(62.7)与InternVL-3-8B(65.5);

在内部短视频场景评测中优势进一步扩大,综合得分领先SOTA模型超10%,尤其在热点聚合、内容合集、广告价值等核心场景表现卓越,实证其学术与产业双维竞争力。

制作自创短视频教程 AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源

当大模型的风暴席卷交互的疆界,重塑我们认知与交互的方式,Kwai Keye-VL ——这颗由快手精心锻造的视觉-语言「智能火种」,正在视频理解的沃土上,燃起一场颠覆性的燎原之火!

这亦是Keye注入时代的核心动能,一场始于理解、终于交互的智能觉醒!

此刻,就让我们以一首诗,为这段探索的华章作结,跟随Keye的视角,感受智能之眼所洞见的壮阔未来……

提问:结合如下这张图片,写一首诗

制作自创短视频教程 AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源

参考资料:

https://kwai-keye.github.io/

宁阳县第一人民医院创新科普形式:自制小视频,为患者打造贴心健康指导

为进一步丰富优质护理服务内涵,探索如何从传统的口头宣教到集中、系统的视频宣教,提高宣教效果及工作效率,宁阳县第一人民医院神经内一科结合专科特点,拍摄并制作健康宣教视频入病房。

从“口头说”到“视频播”

在神经内一科病区,患者对于卒中疾病、用药及预防并发症需要注意的事项有很多,因患者及家属的文化、年龄、接受程度的不同,为此神经内一科医护人员为患者制定了多形式的健康宣教,比如口头指导、图文讲解、扫二维码等,尽管如此,宣教效果还是没有达到预期。

制作自创短视频教程 AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源

于是在护士长陈娟娟的带领下,科室医护人员开始自编自导自演,剪辑制作了宣教视频,每个视频控制在5分钟以内,可循环播放,视频画面精美流畅,语言清晰柔和,动作声情并茂,字幕清楚明确,一目了然,让原本枯燥的文字宣教瞬间变得生动活泼,患者及家属可直观地看到每个动作的规范操作及注意事项。

制作自创短视频教程 AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源

科普视频 获患者点赞

制作自创短视频教程 AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源

陈娟娟表示,这种宣教方式更加适合老年患者,可视性的宣教不仅提升了患者对病区环境、各项预防并发症的认识及措施的落实,更也解决了传统口头宣教患者容易遗忘的痛点,深受患者一致好评。

宣教视频入病房,不仅节省了护士重复宣教的时间,降低工作强度,提高工作效率,同时也增进患者视听效果,提高了患者的依从性和检查、治疗配合程度,改善就医体验,提高患者满意度。

制作自创短视频教程 AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源

未来,科室还将根据收治病人情况和实际需要,不断创新科普形式和内容,继续推出更多科普内容,以满足患者的多元化需求,尽最大努力为患者提供更加优质高效的护理服务。

(宁阳县第一人民医院)

(齐鲁晚报·齐鲁壹点客户端欢迎各界投稿,提供线索,包括文字、照片、短视频。泰安新闻素材请联系齐鲁晚报泰安融媒中心,热线电话:0538-6982110。)

相关问答

怎样把好看的视频变成自创的?

将好看的视频变成自创的需要经过以下几个步骤:1.观看和理解视频内容:首先,你需要完整地观看这个视频,了解它的主题、情节、角色和背景。在这个过程中,你可...

发自创视频到秀友,可以通过哪些方式展现呢?

主要可以在秀友app上的视频秀栏目里上传后展现出来哦!主要可以在秀友app上的视频秀栏目里上传后展现出来哦!

为短视频自编的歌词配乐有什么手机APP?

爱剪辑这种手机视频编辑的软件,在手机里下载视频编辑器,就可以使用的这款软件。就可以实现添加字幕和音乐的功能。我的手机里下载的这款软件,你可以在手机...

自己写的故事在头条里可以拍成视频吗?

可以把自己写的故事在头条里拍成视频,属于原创,而且自己原创的话审核通过率高。如果是自己的文章当文案做视频没有一点问题,完全可以不会侵权。如果是别人...

如何自建视频监控平台?-ZOL问答

买个树莓派,装个摄像头,再搞个开源软件比如Motion或者Zoneminder,按照教程一步步来就行,我也还在研究中……你可以试试用Jellyfin或者HomeAssistant集成摄像头...

怎样对宝宝进行早教?_千问健康

我在上海,我爱末末的回答很详细,但后半部分好象不是7个月的婴儿早教法,有点超前了。

自创视频不想别人用怎么关闭?

如果您不想让别人使用您的自创视频,您可以采取一些措施来关闭它。首先,您可以在视频上添加水印或标记,以指示它是您的创作物,并且不得不经过您的许可才能使用...

视频直链分享方法在线播放技巧-ZOL问答

想做一个视频直链分享,支持在线播放。试用了对象存储,但流量太大费用太高,难以承担。听说注册域名可以免费获取流量,请问需要先注册服务器才能获得记录值吗?...

猫影视tv自定义配置接口怎么获得?

猫影视接口配置方法:1、蚂蚁市场(www.mayiapk.com)中输入分享码:28P1下载猫影视。2、进入设置,点击“当前配置接口”输入配置源链接(源文件更新频繁,请到蚂...

自建房装修改造

装修房子一、提醒:装修前考虑到1、实用性:不管豪华、经济型这个问题都不可避免。2、前瞻性:随着生活质量的不断提高,增添电器用品是免不了,得多...

抱歉,评论功能暂时关闭!