近日,卡内基梅隆大学的研究团队发布了名为“DressRecon”的新技术,通过单目视频实现高质量的人体重建,尤其适用于宽松衣物和手持物体的场景。该技术利用神经隐式模型将身体与衣物变形分开处理,借助图像基础的先验知识捕捉细微几何特征。重建结果生成高保真的三维模型,支持从任意角度渲染,提升了可视化体验。,西湖心辰开源中文情感端到端语音大模型Westlake-Omni西湖心辰宣布开源其研发的Westlake-Omni模型,作为全球首个开源的中文情感端到端语音交互大模型。该模型采用离散表示法统一文本和语音模态,注重实时性,提供零延迟体验。具备出色的情感理解与表达能力,生成清晰、自然、富有表现力的中文语音。期望通过开源鼓励更多开发者参与中文情感语音交互技术的发展。,3、Magnific推V2图像生成服务 可直出4K图像,Nvidia悄然推出了一款名为Llama-3.1-Nemotron-70B-Instruct的新型人工智能模型,表现出色,已超越了OpenAI的GPT-4和Anthropic的Claude3.5,标志着人工智能领域竞争格局的重大变化。该模型在知名AI平台Hugging Face上发布,引起业界关注。Nvidia展示了强大的AI软件开发能力,支持企业探索AI解决方案。然而,用户需谨慎使用,避免错误或滥用。,2、智谱CogView3-Plus模型开源 文生图技术迎来新纪元
3、小红书下一个爆火玩法?Suno新功能Suno Scenes给你的“梗图”加分!,🤖 企业自律:协议鼓励制定人工智能治理策略、识别高风险系统、提升员工素养。💼 积极参与:超过100家公司签署协议,跨越科技、医疗、银行等行业。⚠️ 苹果和Meta观望:担忧监管环境不确定性、数据泄露风险,Meta停止在欧盟提供Llama模型服务。,🚀 Westlake-Omni是全球首个开源的中文情感端到端语音交互大模型,注重实时性和零延迟体验。💡 模型具备出色的情感理解与表达能力,能生成清晰、自然、富有表现力的中文语音。🌱 西湖心辰期望通过开源Westlake-Omni模型,促进更多开发者参与中文情感语音交互技术的发展,美图公司宣布其开发的AI短片创作工具MOKI正式对所有用户开放,为用户提供一站式成片能力,结合AI驱动的脚本、分镜、视频生成、配音、配乐能力,使普通用户能轻松上手,快速创作个性化短片。MOKI在中文语意理解准确性和东方视觉风格上表现出色,未来计划提供更多专业功能。,🚀 CogView3及CogView3-Plus-3B开源,标志AI辅助艺术创作新阶段。💡 CogView3性能惊人,比SDXL高出77%,推理速度仅为SDXL的十分之一。💻 CogView3-Plus引入DiT框架和文本-图像联合注意力机制,提升性能、降低成本。
1、Kimi推出多功能语音通话模式 支持更换声音语速调节,🚀 Midjourney即将推出新的在线编辑器,用户可以导入图片并利用深度图和图像修复功能进行编辑。💡 团队正在优化用户界面,以区分新功能与现有图片功能,并讨论首次发布时包含哪些功能。🔧 Midjourney正在开发新工具,使用户更容易管理和切换多个个性化配置,引入更精细的风格个性化系统。,5、比FLUX快100倍!英伟达联手MIT、清华推出超快AI图像生成模型Sana,笔记本也能秒速出图!,最近的研究显示,GPT-4具备了面部识别、性别判断和年龄估算能力,准确率超越专业算法,但存在安全隐患。研究揭示了绕过GPT-4安全机制的方法,引发了对大型语言模型安全性的思考。尽管GPT-4在生物识别任务表现出色,研究作者警告不能完全依赖其识别能力。
🌐 ChatGPT在2024年9月的全球访问量突破31亿次,首次超越必应搜索引擎。📈 在美国,ChatGPT的访问量达到4.43亿次,显示持续增长趋势。💡 OpenAI扩大了ChatGPT的免费服务,可能影响其未来盈利能力。,8、美国FTC重拳出击:五家 AI 公司因虚假宣传被起诉!,9、德勤:72% 专业人士将生成式 AI 的数据隐私列为首要担忧!,OpenAI全新多模态内容审核模型上线:基于 GPT-4o,可检测文本和图像数字时代对内容安全问题的重视日益增强,OpenAI推出了名为“omni-moderation-latest”的多模态内容审核模型,基于最新的GPT-4o技术,能准确识别有害文本和图像。这一更新为开发者提供强大工具,构建更强大的审核系统。新模型支持对文本和图像输入进行审核,尤其在处理非英语内容时表现出色,提高了准确性和检测能力,确保用户在更安全的空间中交流。,🚀 Cove完成600万美元种子轮融资,投资方包括Sequoia Capital、Elad Gil、Homebrew。🔑 Cove提供类似Notion的可视化工作空间,用户可自由组织多种内容形式,AI作为协作者直接参与内容创建和优化。💡 Cove配备强大的Chrome扩展,与常用办公工具无缝对接,智能提供帮助,应用场景广泛。
📝 NotebookLM可以分析YouTube视频转录,提炼关键信息和主题。🔍 用户可通过点击主题获取详细信息并提出问题,NotebookLM还会给出问题建议。🎧 新增支持音频录音功能,用户可搜索转录内容并创建学习指南。,5、火山引擎发布大模型训练视频预处理方案,Sieve AI初创公司推出的创新技术旨在改变视频互动方式,通过实现视频中眼神接触的自动修复,提升视频内容的吸引力和互动性。该技术能快速集成到现有应用中,解决视频缺乏眼神接触的问题,特别适用于需要演讲者直视镜头的场景。Sieve的实时视线修正技术精妙运用AI模型和神经网络,实现眼神角度调整,保持视频流畅自然。,西湖心辰开源中文情感端到端语音大模型Westlake-Omni西湖心辰宣布开源其研发的Westlake-Omni模型,作为全球首个开源的中文情感端到端语音交互大模型。该模型采用离散表示法统一文本和语音模态,注重实时性,提供零延迟体验。具备出色的情感理解与表达能力,生成清晰、自然、富有表现力的中文语音。期望通过开源鼓励更多开发者参与中文情感语音交互技术的发展。,研究人员开发的AI模型DIAMOND能够模拟《反恐精英:全球攻势》游戏,运行在Nvidia RTX3090显卡上,每秒10帧的速度。尽管存在一些缺陷,但未来有望通过增加数据和计算能力来改善模型性能。
🚖 特斯拉将于10月10日展示Robotaxi无人驾驶出租车,马斯克表示意义重大。🔋 特斯拉CEO马斯克回应电动公交车供暖问题,暗示传统公交车或被淘汰。🚗 网友拍到特斯拉Robotaxi伪装车,外形独特,可能采用Cybertruck设计。,美国联邦贸易委员会(FTC)针对五家涉嫌虚假宣传和欺诈行为的人工智能公司展开执法行动,强调保护消费者和市场公平。部分公司已达成和解,但仍有公司选择对抗指控。专家对监管措施存在担忧,称可能抑制创新。,✨ 4K图像直接生成:V2版本能直接生成4K质量的图像,提高效率并拓展创作者创作空间。🎨 多样化风格选项:用户只需输入描述性提示,选择分辨率和风格,系统生成优化后的图像,提供丰富的创作可能性。🔧 精细控制与高级功能:提供精细调整工具,如创意细节生成、背景调整、重新照明等,满足专业用户需求。,研究人员开发的AI模型DIAMOND能够模拟《反恐精英:全球攻势》游戏,运行在Nvidia RTX3090显卡上,每秒10帧的速度。尽管存在一些缺陷,但未来有望通过增加数据和计算能力来改善模型性能。