西湖心辰开源中文情感端到端语音大模型Westlake-Omni西湖心辰宣布开源其研发的Westlake-Omni模型,作为全球首个开源的中文情感端到端语音交互大模型。该模型采用离散表示法统一文本和语音模态,注重实时性,提供零延迟体验。具备出色的情感理解与表达能力,生成清晰、自然、富有表现力的中文语音。期望通过开源鼓励更多开发者参与中文情感语音交互技术的发展。,近日,卡内基梅隆大学的研究团队发布了名为“DressRecon”的新技术,通过单目视频实现高质量的人体重建,尤其适用于宽松衣物和手持物体的场景。该技术利用神经隐式模型将身体与衣物变形分开处理,借助图像基础的先验知识捕捉细微几何特征。重建结果生成高保真的三维模型,支持从任意角度渲染,提升了可视化体验。,OpenAI在最新的版权诉讼中达成协议,同意向原告律师披露用于训练生成性AI模型的数据。这一举措旨在满足版权诉讼的需求,但数据查看过程受到严格控制,确保安全性。未来可能面临更多法规要求,推动AI数据透明度的要求。,OpenAI全新多模态内容审核模型上线:基于 GPT-4o,可检测文本和图像数字时代对内容安全问题的重视日益增强,OpenAI推出了名为“omni-moderation-latest”的多模态内容审核模型,基于最新的GPT-4o技术,能准确识别有害文本和图像。这一更新为开发者提供强大工具,构建更强大的审核系统。新模型支持对文本和图像输入进行审核,尤其在处理非英语内容时表现出色,提高了准确性和检测能力,确保用户在更安全的空间中交流。
Hugging Face旗下Gradio5发布,致力于简化AI开发,提供企业级安全性和AI Playground功能,进一步推动AI应用开发体验。,告别视频录制眼神飘忽!Sieve AI黑科技,实时修正眼神问题,Kimi人工智能助手最近推出了备受期待的语音通话功能,为用户带来了丰富的互动体验。新功能集多样化应用和个性化体验于一身,提升交流效率,满足个性化需求。针对特定场景深化了功能应用,如英语陪练和模拟面试,为学习和职场提供创新解决方案。引入声音克隆技术增添趣味性,持续关注用户反馈,优化扩展语音服务应用范围。,10、DressRecon:输入视频就能构建出还原服装细节的3D模型,🔍 新界面设计:新增Canvas功能和移动提示框位置,提升用户体验。🌐 引入SearchGPT功能:按 / 键激活,访问实时网络数据,附有内联引用和链接。💡 使用便捷:直观操作,提问后几秒内提供带有来源的答案,支持追问深入探讨话题。
🚀 Elias Torres从17岁移民美国到创立Agency,展现现实版美国梦的传奇故事。💡 Agency利用AI技术深度学习客户数据,自动化处理客户需求预测、日程安排等任务,填补CRM系统空白。💼 Agency获得1200万美元种子轮融资,得到Sequoia合伙人和HubSpot联合创始人的支持,展望广阔的发展前景。,近日,欧盟委员会公布了《人工智能契约》的首批100多家签署者名单,旨在促使企业就人工智能处理和部署发布自愿承诺,填补《人工智能法》实施前的合规真空。签署者将受邀报告进展情况,可能会鼓励签署者之间开展合规竞争。苹果和Meta尚未加入。
沃尔玛最近推出了名为Wallaby的大型语言模型,专注于零售行业数据,旨在提升客户服务体验。他们采用多模型组合的方法,灵活应对不同应用需求。升级后的客户支持助手能够更精准地理解客户意图,提供个性化服务。,🌟 Mira Murati离职,标志着OpenAI高层人事大变动。📈 Mark Chen晋升为新任高级副总裁,负责研究部门领导。🤔 首席研究官Bob McGrew和研究副总裁Barret Zoph也宣布离职。,✨ 企业签署《人工智能契约》自愿承诺,强调人工智能治理战略和风险评估。🌐 签署者需关注工作人员人工智能意识,设计系统让用户知晓与人工智能互动。🚀 《人工智能契约》促进企业填补合规真空,鼓励签署者间合规竞争。,2、美图AI短片创作工具MOKI全面开放 支持生成配乐、细节修改,💡Blackwell GPU需求爆发,未来12个月内完全售罄。🔍主要客户包括AWS、谷歌等大型科技公司,推动市场增长。📈NVIDIA预计2024年将出货数十亿美元的Blackwell GPU,数据中心收入显著增长。
11、DreamWaltz-G:从文本生成生动的3D 可动画头像,猛了!Meta震撼发布Llama3.2视觉方面吊打所有闭源模型?Meta在其年度Meta Connect2024大会上发布了Llama3.2,旨在提升边缘AI和视觉任务的能力。新推出的Llama3.2模型包括11亿和90亿参数的中型视觉模型,以及1亿和3亿参数的小型模型,特别优化了在移动设备上的使用。,🔍 新界面设计:新增Canvas功能和移动提示框位置,提升用户体验。🌐 引入SearchGPT功能:按 / 键激活,访问实时网络数据,附有内联引用和链接。💡 使用便捷:直观操作,提问后几秒内提供带有来源的答案,支持追问深入探讨话题。
📈 Llama3.2模型支持在移动设备上进行视觉任务,帮助开发者实现创新。🕶️ 首款Orion AR眼镜被称为“最先进的AR眼镜”,将整合其他可穿戴设备。🎤 Ray-Ban智能眼镜推出实时语言翻译功能,提升用户交流体验。,🌟 GPT-4在性别识别测试中达到了100%的完美准确率,超越了DeepFace模型。📊 GPT-4的年龄估算准确率为74.25%,但对年长者的估算可能较宽泛。🔒 研究发现可绕过GPT-4的安全机制,需加强对大型语言模型安全性的研究。,5、谷歌NotebookLM新增功能:快速总结YouTube精华内容