早上好,我是平凡。
这几天闹的最沸沸扬扬的就是阿里Qwen之前掌舵人林俊旸的突然离职,我这里不讨论这件事。
而是跟大家说下为什么大家会对这件事的反应这么大。
这么说吧,中国是现在为数不多还在涌现开源模型的国家之一,开源模型数量多且质量高。阿里的Qwen系列,DeepSeek,Kimi,智谱的GLM,MiniMax,Stepfun,甚至可以毫无疑问的说中国就是现在开源世界的大半边江山。
大家各有特色,且都在国际上有一票铁杆粉丝。
01
Qwen系列的核心特点:广泛适配的基础模型
Qwen系列最大的特点,就是它是很多模型的基础模型。比如我们在Huggingface上设置两个条件:
模型大小在(0,12]B之间
排序按照Trending(趋势)
前面的几个全都是Qwen系列,当然了,这些都是所谓“小”模型,属于不需要非常大的算力也可以跑的模型,跟动不动需要几十上百块GPU的集群需求模型区别很大。
然后我们再看trending里面的其他模型,比如这个LocoreMind,看名字没见过,大概率属于“名不见经传”的野模型,模型也比较小,才4B。
但你别小看这种小的模型,需要的计算资源虽然不需要特别多,但是数据资源这个一般人搞不来的,这玩意是真的体力活,需要大公司雇人来搞。你再看师承,base model:Qwen3-4B-Instruct-2507,Teacher Model: Qwen3-Coder-Next。一切很清楚了,这个模型是在Qwen3的4B模型的基础上,用了更大的Qwen3-Coder-Next蒸馏出来的模型做的fine-tune。
我非常的怀疑这个fine-tune模型大概率不如原来的模型。因为大公司有更多的资源反复的训练一款模型让它达到最优解,而小的公司甚至实验室基本没多少次试错机会。但是,就这么一搞,一个公司或者一个实验室就有自己的大模型,再说了Qwen也有Qwen3.5-397B-A17B这种千亿参数的大模型。
这种例子在Fine-tune的模型中数不胜数,非常之多。
可以说,从个人到小型团体到乃至于一个中小型国家,都可以在Qwen里面找到合适自己的基础模型。这个非常重要。
02
Qwen对行业的价值
因为你想想,如果没有这些开源模型默默贡献,这个世界上的人就只能用OpenAI,Anthropic,Google他们的模型。
倒也不是他们的模型不好,但是一旦一件事情被垄断以后,第一是创新速度下降(OpenAI不是被DeepSeek逼了一把,他们都不知道自己可以出模型出的这么快),第二个用户地位会降低,因为你没有被选项,那么唯一项就会作威作福。
以上,这就是Qwen乃至整个开源世界的贡献。