Qwen-Image-Edit-2511是阿里巴巴通义千问团队在2025年12月25日正式开源的最新图像编辑AI模型。它是此前Qwen-Image-Edit-2509版本的增强版, 旨在解决图像编辑后人物或物体发生轻微漂移的问题,...
软件简介 SCAIL-GGUF模型的内核由斯坦福大学法律与语言人工智能中心(SCAIL) 研发并开源。主要核心功能是使用图片转化视频得动作迁移。 主要功能作用 先上传一段需要得动作舞蹈之类...
IndexTTS2是由平台Bilibili(B站)旗下的Index团队自主研发并开源的新一代文本转语音(TTS)模型。 该模型旨在解决语音合成中的情感表达与时长控制难题,自发布后因其卓越的性能和开放...
ACE-Step(中文名音跃)是由人工智能公司阶跃星辰和数字音乐平台ACE Studio在2025年5月7日联合发布的一款开源音乐生成大模型。 它参数量为35亿,是一个旨在降低音乐创作门槛、提供专业...
DMOSpeech是由哥伦比亚大学与NewsBreak公司合作开发的突破性AI语音合成系统。 这项研究旨在解决语音合成中节奏控制不准确的核心难题。 主要功能 结合其技术目标,它的主要功能和潜在...
Wan2.2_remix_SVI2-pro源自阿里巴巴通义万相团队于2025年7月开源发布的Wan2.2模型。 而实现视频无限延长的关键技术SVI Pro,则是由开源社区(如GitHub上的vita-epfl等项目)在Stable Video Diffusion基...
软件介绍 CosyVoice 3.0 是阿里最新升级的AI语音生成模型,它能让文字变成非常逼真、自然的语音。 软件功能亮点 极速音色克隆,只需要你提供一段3秒钟的录音,它就能完美克隆出说话...
软件介绍 Seed Voice Conversion V2(种子音色转换V2)它是个声音克隆和转换的神器。 你给它一小段某个人的声音样本,它就能学会这个声音的特点。然后,你就可以用这个学会的声音,去说...
软件介绍 Vevo是一个很智能的AI语音模仿跟改词工具。简单说,类似一个变声器,而且只需要一段很短的声音样本(这就是零样本的意思) 不需要用海量数据去反复训练,需要8G显存运行...
软件介绍 FishSpeech是一个开源的文本转语音(TTS)工具,它的核心本领是高质量的语音克隆和多语言语音合成(英日韩语中法德语阿拉伯语和西班牙)。 你只需要提供一段10到30秒的真人录...