Kimi人工智能助手最近推出了备受期待的语音通话功能,为用户带来了丰富的互动体验。新功能集多样化应用和个性化体验于一身,提升交流效率,满足个性化需求。针对特定场景深化了功能应用,如英语陪练和模拟面试,为学习和职场提供创新解决方案。引入声音克隆技术增添趣味性,持续关注用户反馈,优化扩展语音服务应用范围。,OpenAI正着手升级其视频AI Sora,旨在生成更长、更高质量的视频片段。初始版本存在生成时间过长和风格、物理错误问题。视频AI市场竞争激烈,Sora需加快步伐以保持竞争力。
🌟 马斯克对 OpenAI 的多项诉讼被 OpenAI 称为 “骚扰”,并申请驳回📉 OpenAI 强调马斯克的指控缺乏证据,称其为不切实际的主张。⚖️ 马斯克声称 OpenAI 未遵循创始协议的承诺,但法律上被质疑无权提出此类指控。,Rabbit R1曾备受关注的AI设备,却仅有5000人每天在使用,销售数据令人堪忧。设备匆忙上市导致用户体验不佳,面临智能手机AI功能强大的挑战。即将推出的全能行动模型或许能改变现状,但前景仍不乐观。
🚀 Westlake-Omni是全球首个开源的中文情感端到端语音交互大模型,注重实时性和零延迟体验。💡 模型具备出色的情感理解与表达能力,能生成清晰、自然、富有表现力的中文语音。🌱 西湖心辰期望通过开源Westlake-Omni模型,促进更多开发者参与中文情感语音交互技术的发展,🔍 Orion AR 眼镜采用定制的Micro LED显示技术,将数字信息无缝融入现实世界,配备七个高精度摄像头和神秘的神经腕带,用户可以轻松控制数字世界。🌐 Orion 眼镜内置智能AI系统,感知周围环境并预测用户需求,例如根据冰箱食材推荐食谱,提升用户生活便利性。👓 Orion 眼镜设计轻便舒适,配备超大视场角,让用户在室内娱乐和户外探索中获得出色体验,增强社交互动的自然感。,OpenAI快凉了的Sora将迎来大升级:生成速度更快、内容更长、质量更高,📊 新模型基于GPT-4o技术,支持文本和图像的多模态审核🌍 检测准确率在40种语言中提升42%,尤其在低资源语言上表现优异🔒 新增两类文本审核,提升对违法和暴力内容的识别能力
✨ 沃尔玛推出 Wallaby 大型语言模型,专注于零售行业数据,旨在提升客户服务体验。🤖 沃尔玛采用多模型组合的方法,灵活应对不同应用需求。🛍️ 升级后的客户支持助手能够更精准地理解客户意图,提供个性化服务。,Adobe推出Firefly AI视频模型,Photoshop新增多个AI功能
Molmo是一款开源多模态人工智能模型,基于Qwen2-72B和OpenAI的CLIP,以高效性能和创新功能挑战传统商业模型。其突出特点在于小巧高效、引入指向功能、性能优异、开源性质和全面功能。Molmo的成功归功于高质量训练数据和多样性,展现出色的多模态交互能力。,近日,卡内基梅隆大学的研究团队发布了名为“DressRecon”的新技术,通过单目视频实现高质量的人体重建,尤其适用于宽松衣物和手持物体的场景。该技术利用神经隐式模型将身体与衣物变形分开处理,借助图像基础的先验知识捕捉细微几何特征。重建结果生成高保真的三维模型,支持从任意角度渲染,提升了可视化体验。,🚀 Sana框架高效生成4096×4096分辨率图像,可在笔记本GPU上运行。🔑 Sana-0.6B速度快、规模小,生成1024×1024分辨率图像不到1秒。💡 Sana在4K图像生成方面性能优异,未来将构建高效视频生成流程。,🚀 Mistral AI推出Ministral3B和8B,支持高达128,000个token的上下文长度。💡 适合本地翻译、离线助手、数据分析和自主机器人等应用。💰 定价合理,Ministral8B每百万token费用为0.10美元,Ministral3B为0.04美元。
7、200万用户量!Hugging Face旗下Gradio5发布:用自然语言轻松构建AI应用,🔑 AIGC和多模态技术深刻改变用户体验🔑 火山引擎探索AI大模型与视频技术融合,提供全方位解决方案🔑 火山引擎开发的预处理方案优化算法和工程层面,提高模型训练效率