🎵 用户上传照片或视频即可生成匹配氛围的歌曲,提升作品趣味性。📸 不仅适用于搞笑梗图和自拍视频,甚至随手拍的菜单照片也能生成适配音乐🎶 根据图片色调和文字信息匹配音乐风格,让用户产生特定旋律的感觉。,Zoom计划推出数字分身功能引发了人们对于深度伪造技术的担忧。虽然这项功能能提高视频创作效率,但也可能带来虚假信息传播的风险。,西湖心辰开源中文情感端到端语音大模型Westlake-Omni西湖心辰宣布开源其研发的Westlake-Omni模型,作为全球首个开源的中文情感端到端语音交互大模型。该模型采用离散表示法统一文本和语音模态,注重实时性,提供零延迟体验。具备出色的情感理解与表达能力,生成清晰、自然、富有表现力的中文语音。期望通过开源鼓励更多开发者参与中文情感语音交互技术的发展。,Molmo是一款开源多模态人工智能模型,基于Qwen2-72B和OpenAI的CLIP,以高效性能和创新功能挑战传统商业模型。其突出特点在于小巧高效、引入指向功能、性能优异、开源性质和全面功能。Molmo的成功归功于高质量训练数据和多样性,展现出色的多模态交互能力。
1、豆包推出Ola Friend智能体耳机:售价1199元,火山引擎在近期的视频云技术大会上发布了大模型训练视频预处理方案,这一技术已成功应用于豆包视频生成模型,标志着AI视频生成技术的重大进展。,全新Notion AI发布 一站式 集成搜索、生成内容、分析数据等功能Notion AI以全新面貌强势回归,为用户带来办公体验革命。这款多功能智能助手集搜索、内容生成、数据分析和智能聊天于一体,改变工作方式。
🌟 升级视频AI Sora,生成更长、更高质量视频片段⏱️ 初始版本生成时间过长,存在风格、物理错误问题📈 视频AI市场竞争激烈,Sora需加快步伐以保持竞争力,4、图像修复新魔法!突破性算法PMRF
🌟 升级视频AI Sora,生成更长、更高质量视频片段⏱️ 初始版本生成时间过长,存在风格、物理错误问题📈 视频AI市场竞争激烈,Sora需加快步伐以保持竞争力,📝 NotebookLM可以分析YouTube视频转录,提炼关键信息和主题。🔍 用户可通过点击主题获取详细信息并提出问题,NotebookLM还会给出问题建议。🎧 新增支持音频录音功能,用户可搜索转录内容并创建学习指南。,猛了!Meta震撼发布Llama3.2视觉方面吊打所有闭源模型?Meta在其年度Meta Connect2024大会上发布了Llama3.2,旨在提升边缘AI和视觉任务的能力。新推出的Llama3.2模型包括11亿和90亿参数的中型视觉模型,以及1亿和3亿参数的小型模型,特别优化了在移动设备上的使用。
美图公司宣布其开发的AI短片创作工具MOKI正式对所有用户开放,为用户提供一站式成片能力,结合AI驱动的脚本、分镜、视频生成、配音、配乐能力,使普通用户能轻松上手,快速创作个性化短片。MOKI在中文语意理解准确性和东方视觉风格上表现出色,未来计划提供更多专业功能。,🚀 CogView3及CogView3-Plus-3B开源,标志AI辅助艺术创作新阶段。💡 CogView3性能惊人,比SDXL高出77%,推理速度仅为SDXL的十分之一。💻 CogView3-Plus引入DiT框架和文本-图像联合注意力机制,提升性能、降低成本。
在数字时代,制作引人入胜的多语言音频内容成为热门话题。谷歌的NotebookLM备受好评,而开源Python软件包Podcastfy引起广泛关注。Podcastfy是开源版NotebookLM,采用先进的生成式人工智能技术,让用户实现更多个性化和规模化的播客制作。,微软AI副总裁跳槽OpenAI 将致力于AGI研究,11、Nvidia股价再创历史新高,市值逼近3.4万亿美元