透视脚本!fishpoker扑克辅助下载,Wepoke挂透明挂高科技(有挂攻略);
疑点3:大模型竞技场,究竟有没有作弊?
不过,这位CEO也承认,尽管全网充斥着对Llama4群嘲的声音,但它的确也展示出了一些坚实的进展。
比如Llama4Maverick的活动参数量大概只有DeepSeek V3的一半,却取得了相当的性能。
那现在的核心问题就在于,Meta究竟有没有在LM Arena上进行作弊,在测试集上进行训练?
目前,LM Arena已经迅速滑跪,公开了2000多组对战数据给公众检阅,并且表示会重新评估排行榜。
目前姑且按照没有算,那就意味着我们拥有一个强大得惊人的基础模型了。
看看这些真实数字,假设没有任何答案进入Llama4的训练数据,这个模型在GPQA Diamond上的性能(谷歌验证的极其严格的STEM基准测试)实际上是比DeepSeek V3更好的
而在这个基础上,Meta就完全可以创建一个SOTA级别的思维模型。
唯一的问题是,Gemini2.5Pro已经存在了,而DeepSeek R2也随时会问世。
疑点4:代码很差
还有一点,当Llama4走出舒适区时,性能就会开始狂降。
以ADA的Polyglot这个编码基准测试为例,它测验了一些系列编程语言的性能。
但与许多基准不同,它不仅仅关注Python,而是一系列编程语言,现在依然是Gemini2.5Pro名列前茅。
但是想要找到Llama4Maverick,可就很难了,得把鼠标滚动很久。
它的得分当然惨不忍睹——只有15.6%。
这就跟小扎的言论出入很大了,显得相当讽刺。
就在不久前,他还信誓旦旦地断定说,Meta的AI模型将很快取代中级程序员。
疑点5:「结果仅代表目前最好的内部运行」
这一点,同样已经在AI社区引发了群嘲。
在下面这个表格中,Meta将Llama4和Gemini2.0Pro、GPT-4.5等模型进行了比较,数字非常漂亮。
但仔细看脚注,却说的是Llama模型的结果代表了目前最好的内部运行情况,所以很大可能是,Meta把Llama4跑了5遍或10遍,取了其中的最好结果。