[240730] OpenAI 推出基于规则的奖励机制 (RBR) 提升模型安全性 | 英特尔承认其13、14代 CPU 存在问题_开发测试

创始人

2024-11-11 19:05:22

0次

为了解决传统强化学习中依赖人工反馈的低效问题，OpenAI 开发了基于规则的奖励机制 (RBR)。该机制利用清晰、简单的规则来评估模型输出是否符合安全标准，并将其整合到强化学习过程中，以引导模型在提供帮助的同时避免产生有害内容。

RBR 的工作原理：

定义命题：
针对模型响应的期望或不期望方面，例如“带有评判性”，“包含违规内容”等，定义简单的陈述。
制定规则：
根据命题制定规则，以区分安全和不安全的响应。
模型响应类型：
根据安全策略，将不同的请求映射到不同的模型响应类型，例如“强硬拒绝”、“温和拒绝”和“遵从”。
评分和奖励：
使用固定语言模型根据规则对模型响应进行评分，并将评分用于训练线性模型，以学习不同命题的权重。最终将 RBR 奖励与其他奖励信号结合，用于强化学习算法中。

RBR 的优势：

RBR 的局限性：

来源：

https://openai.com/index/improving-model-safety-behavior-with-rule-based-rewards/

英特尔承认，其部分第13代和第14代 CPU 存在电压过高问题，可能导致芯片性能不稳定甚至永久性损坏。受影响的 CPU 包括功耗65W及以上的酷睿i9、i7和部分i5型号。

英特尔计划在8月中旬发布微码更新来解决此问题，但该更新只能防止未来发生损坏，无法修复已经受损的 CPU。对于已经出现不稳定现象的用户，英特尔建议联系客服寻求帮助，但并未承诺延长保修期或召回产品。

此次事件可能会影响消费者对英特尔下一代 CPU 的购买意愿，使其在与 AMD 的竞争中处于不利地位。

来源：

https://www.yahoo.com/tech/intel-admits-damage-unstable-14th-101315720.html

更多内容请查阅 : blog-240730

关注微信官方公众号 : oh my x

获取开源软件和 x-cmd 最新用法