所有分享的资源均来源于网络,如侵害到您的权益,请联系删除!
【HunyuanVideo】
● “缩小闭源和开源视频基础模型之间的差距,加速社区探索。”——混元团队
Hunyuan-Video是由腾讯推出的一款高质量的中文通用视频生成模型,它以其卓越的性能和开源的特性,成为了目前开源视频生成基座模型中的佼佼者。该模型支持中文输入提示(Prompt),采用了图像-视频联合训练策略,并通过一系列精细的数据过滤技术,确保了视频的技术质量和审美吸引力。
Hunyuan-Video的开源,为视频内容创作者、研究人员和开发者提供了一个强大的工具,以实现更高效、更高质量的视频生成,推动了AI视频技术的发展。
HunyuanVideo的主要功能
●视频生成:HunyuanVideo能根据文本提示生成视频内容。
●物理模拟:模型能模拟现实世界的物理规律,生成符合物理特性的视频。
●文本语义还原:模型能准确理解并还原文本提示中的语义信息。
●动作一致性:生成的视频动作流畅且一致,保持运动的连贯性。
色彩和对比度:生成的视频具有高色彩分明和对比度,提供电影级的画质体验。
●背景音乐生成:为视频自动生成同步的声音效果和背景音乐。
【快手可灵开源版Pyramid-Flow】● 快手可灵开源版Pyramid-Flow一键懒人包一款超高清视频生成模型,Pyramid Flow视频模型是由 北京大学、北京邮电大学和快手科技共同研发的开源视频模型。是一个基于流匹配的高效自回归视频生成方法,采用了金字塔流匹配算法,优化了视频生成的效率和质量。这一算法将视频生成过程分解为多个阶段,每个阶段对应着不同的分辨率。仅通过训练开源数据集,就能生成高质量的 10 秒 768p 分辨率和 24 帧每秒的视频,并原生的支持提升视频方法。该模型在GPU 内存小于 8GB,也能使用,并且在多 GPU 上有显著加速。
另外,研发团队提到:现有的视频扩散模型在全分辨率下运行,花费大量计算资源在非常嘈杂的潜在变量上。与之相反,Pyramid Flow的方法利用流匹配的灵活性,在不同分辨率和噪声水平的潜在变量之间进行插值,允许同时生成和解压缩视觉内容,具有更好的计算效率。整个框架通过 单一的 DiT 进行端到端优化,生成高质量的 10 秒 768p 分辨率和 24 帧每秒的视频,仅需 20.7k A100 GPU 训练小时。 功能列表
●高效视频生成:生成高质量的 10 秒 768p 分辨率、24 FPS 的视频。
●图像到视频生成:支持从图像生成视频。
●多分辨率支持:提供 768p 和 384p 两种分辨率的模型检查点。
●CPU 卸载:支持两种类型的 CPU 卸载以减少 GPU 内存需求。
●多 GPU 支持:提供多 GPU 推理脚本,支持序列并行以节省每个 GPU 的内存。 【模型下载地址】
所有分享,这里查看
赞(14)