一起来讨论!微扑克辅助工具(其实是有挂的)-知乎
cca3000
2024-08-03 03:19:24
0

您好:微扑克这款游戏可以开挂,确实是有挂的,需要了解加客服微信【841106723】很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实是有挂的

1.微扑克这款游戏可以开挂,确实是有挂的,通过添加客服微信【841106723

2.咨询软件加微信【841106723】在"设置DD功能DD微信手麻工具".点击"开启".

3.打开工具.在设置DD新消息提醒".前两个选项"设置""连接软件"均勾选"开启"(好多人就是这一步忘记做了)

4.打开某一个微信组.点击右上角.往下拉."消息免打扰"选项.勾选"关闭"(也就是要把"群消息的提示保持在开启"的状态.这样才能触系统发底层接口)

 【央视客户端新闻】

用通用服务器运行千亿参数大模型,可谓是前无古人,这一领域的积累完全是空白,没有任何经验可借鉴。

LC信息,究竟是怎么做到的?

用4颗CPU,撬动千亿参数大模型

若要在单台服务器中,实现千亿参数大模型的推理,包含了2个主要阶段,均对计算能力提出了硬性需求。

首先,是预填充阶段,也叫做前向传播阶段。

这一阶段涉及到输入数据的处理、模型参数第一次读取。

比如,当你输入「给我写一篇有关AI的文章」提示,预填充阶段便会将问题中所有token、模型参数,一次性输入计算。

有时,这一输入可能是几个字,也可能是几千个字,或者是一本著作。

第一阶段的计算需求有多大,主要取决于我们输入的长度。

而在计算第一个token过程中,由于模型首次加载,会在内存中存放全部的权重参数,以及KV Cache等数据。

这是模型参数本身所占内存空间的2-3倍。

对于千亿参数模型来说,大量的参数和数据输入,需要在强大计算单元中处理。对此,它需要支持向量化指令集、矩阵计算指令集,来实现大量的矩阵乘法和张量运算。

其次,是解码阶段,即在问题全部输入之后,模型开始输出结果的阶段。

在这个阶段,对大模型唯一要求便是,输出尽可能快。同时,挑战不再是算力挑战,转而为「数据搬运」的挑战。

它包含了两部分「数据搬运」:

这些搬运对大模型的计算和推理速度,起到了一个决定性的作用。数据搬运很快,LLM吐字的速度也会快。

LLM输出主要通过KV Catch,逐一生成token,并在每步生成后存储新词块的键值向量。

因此,千亿大模型的实时推理,服务器需要具备较高的计算能力,以及较高的存储单元到计算单元的数据搬运效率。

总而言之,在大模型推理的两阶段中,有着截然不同的计算特征,需要在软硬件方面去做协同优化。

成本传统上,GPU因其具备优越的并行处理能力,一举成为了AI训练和推理的首选

然而,高端GPU服务器在市场中经常出现供不应求,极难获取的现象。

仅有资金雄厚的科技巨头们,诸如微软、谷歌,才能够承担起这笔费用。

另一方面,不仅买不起,更是用不起。

基于GPU的云服务租用,在推理任务中的代价却是高昂的。对于科研人员和应用厂商来说,需要实现更高的成本效益,就得另谋他路。

其实有一个概念需要澄清,或者说很多人不太了解,就是大家现在看到的最好用的这些所谓的开源模型,严格意义上来说并不是开源了,只是开放了权重,权重只是一个可执行文件,完全的开源模型,是指包括数据集,对数据集的各种处理的方法、处理工具,整个训练过程用到的工具、脚本,以及对齐,不管是 RLHF 还是 DPO、PPO,所用到的那个小的 reward 模型,例如做 DPO 端到端的 pair 数据集,如果都能开放出来,那才算完全开源。,确实,Mistral 自己发的 MoE 的论文里面,它明确写了 expert 是没有角色分工的。MoE 最早是 Google 发的论文,主要是对这个架构的一个描述,确实是有分成不同的 expert,但是在训练的时候,所有的 expert 其实都是在一个叫 latent space 的很高维的空间里。你不知道哪个专家在干什么。,像 Allen Institute for AI 发布的 OLMo,以及 LLM360的 K2-65B,这些是符合的,但一是比较少,另一个就是这一类模型一般也都不太能打,因为你想它用的都是开源数据集。大家平常用的就是开放权重的模型。

虽然目前还搞不定模型的大规模训练,但通用服务器在推理任务上,却意外有着不小的优势。

在具体实践的过程中,LC信息的工程师们分别从硬件资源和算法层面入手,攻克了一个个「拦路虎」。

  1. 允许任意两个CPU之间直接进行数据传输,减少了通信延迟

  2. 提供了高传输速率,高达16GT/s(Giga Transfers per second)

此外,LC信息的研发工程师还优化了CPU之间、CPU和内存之间的走线路径和阻抗连续性。

依据三维仿真结果,他们调整了过孔排列方式,将信号串扰降低到-60dB以下,较上一代降低了50%。

并且,通过DOE矩阵式有源仿真,找到了通道所有corner的组合最优解,让算力性能可以得到充分发挥。

对于4路服务器来说,只需给每颗CPU插上8根32GB内存,就能轻松达到1TB。插满之后甚至可以扩展到16TB,最大可支持万亿参数的模型。

搭配DDR5的内存,则可以实现4800MHz ×8bit ×8通道 ×4颗 ÷1024=1200GB/s的理论上带宽。

实测结果显示,读带宽为995GB/s、写带宽为423GB/s,以及读写带宽为437GB/s。

这个数据,对于一些搭载GDDR显存的GPU或加速卡,可以说是毫不逊色。

但仅靠硬件远远不够

仅仅依靠硬件创新,是远远不够的,CPU很难进行大模型算法的大规模并行计算。

正如开篇所述,大模型对通信带宽的要求是非常高的,无论是数据计算、计算单元之间,还是计算单元与内存之间。

如果按照BF16精度计算,想要让千亿大模型的运行时延小于100ms,内存和计算单元之间的通信带宽,就至少要达到2TB/s以上。

不仅如此,对于基于擅长大规模并行计算的加速卡设计的AI大模型,通用服务器的处理器与之并不适配。

原因很明显:后者虽然拥有高通用性和高性能的计算核心,但并没有并行工作的环境。

通常来说,通用服务器会将先将模型的权重传给一个CPU,然后再由它去串联其他CPU,实现权重数据的传输。

然而,由于大模型在运行时需要频繁地在内存和CPU之间搬运算法权重,这样造成的后果就是,CPU与内存之间的带宽利用率不高,通信开销极大。

根据性能分析结果,可以清晰地看到模型中不同部分的计算时间分布——针对以上难题,LC信息提出了「张量并行」(Tensor Parallel)和「NF4量化」两项技术创新,成功实现了千亿大模型Yuan2.0-102B的实时推理。

跟使用多个PCIe的AI加速卡相比,这就形成了鲜明的对比——后者的通信开销可能高达50%,从而导致严重的算力浪费。注意,在整个推理过程中,计算时间占比达到了80%!

相关内容

热门资讯

透视免费!WPK技术软件透明挂... 透视免费!WPK技术软件透明挂技巧(辅助挂)Pokerist辅助透视开挂(有挂脚本)-哔哩哔哩;1、...
玩家攻略!微扑克ai机器人打德... 玩家攻略!微扑克ai机器人打德州,山西扣点点原来是有挂辅助挂,可靠教程(有挂开挂)-哔哩哔哩;最新版...
5分钟了解(小闲昭通棋牌)透视... 您好,小闲昭通棋牌这款游戏可以开挂的,确实是有挂的,需要了解加微【136704302】很多玩家在这款...
两分钟了解(东游麻将暗藏猫腻外... 《东游麻将暗藏猫腻软件透明挂》是一款多人竞技的东游麻将暗藏猫腻辅助透视游戏,你将微扑克对手来到同一个...
透视app!Wepoke大厅透... 透视app!Wepoke大厅透明挂辅助脚本(软件透明挂)WPK苹果辅助代打(有挂机制)-哔哩哔哩;W...
最新技巧(Epoker外挂)确... 最新技巧(Epoker外挂)确实是真的有挂的(透视)外挂透明挂辅助神器解说(有挂德州外挂);超受欢迎...
重大通报!wePokE,中至小... 您好,中至小程序机制这款游戏可以开挂的,确实是有挂的,需要了解加微【841106723】很多玩家在这...
透视脚本(WPK黑科技外挂透明... 透视脚本(WPK黑科技外挂透明挂辅助软件AI,太强了)确实有挂辅助挂(哔哩哔哩);WPK黑科技软件透...
十分钟了解!神算师软件透明挂必... 十分钟了解!神算师软件透明挂必备(辅助挂)wpk一直输辅助透视方法(有挂系统)-哔哩哔哩;1、这是跨...
今日科普!德扑之星专业代打,哈... 今日科普!德扑之星专业代打,哈局十三张私人局原来真的是有挂,曝光教程(有挂检测)-哔哩哔哩是一款可以...