面壁智能推出了最新一代端侧多模态模型 MiniCPM-Llama3-V2.5,这款模型具有超强的综合性能,能够超越 Gemini Pro 和 GPT-4V 等多模态巨无霸。
MiniCPM-Llama3-V2.5在 OCR(光学字符识别)方面取得了 SOTA 的成绩,能够精准识别难图、长图和长文本。该模型支持30多种语言,并且首次实现了端侧系统级多模态加速,使图像编码速度提升150倍。
此外,MiniCPM-Llama3-V2.5在幻觉能力、复杂推理能力等方面也取得了突出表现,能够在多种场景下进行准确的分析和推理。
总体来说,MiniCPM-Llama3-V2.5展现出了强大的多模态综合能力,为端侧 AI 模型的发展带来了新的突破。
科大讯飞宣布,讯飞星火API能力正式免费开放。讯飞星火Lite API将永久免费开放,而Pro/Max API的调用费用更是低至0.21元/万tokens。
值得一提的是,在讯飞星火中,1token相当于1.5个中文汉字,这意味着仅需2.1元,开发者便能调用“讯飞星火3.5Max”生成一部余华《活着》的内容量。这样的价格体系无疑将大大降低开发者的调用成本,驱动产品创新验证,解决真实世界的刚需。
科大讯飞始终坚持能力迭代与生态建设,此次API能力的全面开放,将进一步聚集全球开发者,加速大模型赋能千行百业,推动AI技术的普惠化进程。我们期待在科大讯飞的引领下,AI技术能够在更多领域得到应用,为人类生活带来更多便利与可能。
今日凌晨,Google I/O2024开发者大会在谷歌山景城总部附近的海岸线圆形剧场隆重开幕。在这场科技盛宴中,谷歌率先分享了Gemini大模型的最新突破。
令人瞩目的Gemini1.5Pro,现已强势升级到支持200万tokens的庞大容量,同时,谷歌宣布Gemini1.5Pro将面向全球开放,这意味着更多创新者将能利用这一强大工具,推动人工智能技术的边界不断扩展。
除了Gemini1.5Pro的升级外,谷歌还推出了多种针对不同需求的Gemini模型。
其中,100万上下文的Gemini1.5Flash模型以及需申请的200万上下文的Gemini 1.5 Pro模型,均配备了相应的折扣计划,为开发者提供了更加灵活、经济的选择。此外,谷歌还发布了开源的多模态模型Pali Gemma及其升级版Gemma2(将于6月正式推出),进一步丰富了其AI产品矩阵。
值得一提的是,谷歌还推出了适用于手机的Gemini Nano模型。这款模型无需联网,深度集成在系统层面,不仅能帮助用户接听电话,甚至能应对电信诈骗分子的挑战。其强大的功能和便捷的使用方式,无疑将为用户带来更加智能、安全的手机体验。
与竞品相比,Gemini模型在价格上具有一定优势,同时其强大的功能和灵活的部署方式也使其更具竞争力。
未来,随着Gemini模型的进一步升级和扩展,我们有理由相信谷歌将继续引领AI技术的发展潮流,为开发者提供更加高效、智能的工具和平台。