Meta Llama 3 使用 Hugging Face 和 PyTorch 优化 CPU 推理

原文地址:meta-llama-3-optimized-cpu-inference-with-hugging-face-and-pytorch

了解在 CPU 上部署 Meta* Llama 3 时如何减少模型延迟

2024 年 4 月 19 日

万众期待的 Meta 第三代 Llama 发布了,我想确保你知道如何以最佳方式部署这个最先进的(SoTA)LLM。在本文中,我们将重点讨论如何执行只权重量化(WOQ)来压缩 8B 参数模型并改善推理延迟,但首先,让我们讨论一下 Meta Llama 3。

Llama 3

迄今为止,Llama 3 系列包括 8B 到 70B 参数的模型,未来还会有更多版本。这些模型都附带有允许使用的 Meta Llama 3 许可证,请在接受使用这些模型所需的条款之前仔细阅读。这标志着 Llama 模型系列和开源人工智能进入了激动人心的新篇章。

结构

Llama 3 是一种基于纯解码器transformer的自动回归 LLM。与 Llama 2 相比,Meta 团队做出了以下显著改进:

  • 采用分组查询关注 (GQA),提高了推理效率。
  • 优化了标记符号生成器,其词汇量为 128K 标记,旨在更高效地编码语言。
  • 在 15 万亿个 token 数据集上进行了训练,比 Llama 2 的训练数据集大 7 倍,包含的代码多 4 倍。

下图是 print(model) 的结果,其中 model 为 meta-llama/Meta-Llama-3-8B-Instruct。从图中我们可以看到,该模型由 32 个 LlamaDecoderLayers 组成,这些 LlamaDecoderLayers 由 Llama Attention 自我注意组件构成。此外,它还有 LlamaMLP、LlamaRMSNorm 和一个线性头。

29

语言建模性能

该模型在各种行业标准语言建模基准(如 MMLU、GPQA、HumanEval、GSM-8K、MATH 等)上进行了评估。在本文中,我们将回顾 "指令调整模型 "的性能。这些数据中最引人注目的是 Llama 3 8B 参数模型在所报告的基准测试中的性能比 Llama 2 70B 高出 62% 到 143%,而模型体积却小了 88%!

30

最新一代 Llama 提升了语言建模性能、许可权限和架构效率,标志着生成式人工智能领域翻开了激动人心的篇章。让我们来探讨如何优化 CPU 上的推理,以实现 Llama 3 的可扩展、低延迟部署。

使用 PyTorch 优化 Llama 3 推断

在本文中,我们将重点介绍如何在 meta-llama/Meta-Llama-3-8B-Instruct 中应用仅权重量化(WOQ)。WOQ 在性能、延迟和准确性之间取得了平衡,可选择量化到 int4 或 int8。WOQ 的一个关键部分是去量化步骤,它在计算前将 int4/in8 权重转换回 bf16。

31

环境设置

在 Llama-3-8B-Instruct 上执行 WOQ 需要大约 60GB 内存。其中约 30GB 用于加载完整模型,约 30GB 用于量化期间的峰值内存。WOQ Llama 3 只消耗约 10GB 内存,这意味着我们可以通过从内存中释放完整模型来释放约 50GB 内存。

如果在自己的集成开发环境中运行,你可能需要解决其他依赖性问题,如安装 Jupyter 和/或配置 conda/python 环境。在开始之前,请确保已安装以下依赖项。

intel-extension-for-pytorch==2.2
transformers==4.35.2
torch==2.2.0
huggingface_hub

访问和配置 Llama 3

访问 Llama 3 的模型和令牌生成器需要一个 Hugging Face* 账户。

为此,请从设置菜单中选择 "访问令牌"(图 4)并创建一个令牌。

32

运行以下代码后,复制访问令牌并将其粘贴到 Jupyter 单元格中生成的 "令牌 "字段。

from huggingface_hub import notebook_login, Repository
# Login to Hugging Face
notebook_login()

使用 WOQ 量化 Llama-3-8B-Instruct

我们将利用 PyTorch 的英特尔® 扩展* 将 WOQ 应用于 Llama 3。该扩展包含针对英特尔硬件的最新 PyTorch 优化。请按照以下步骤对 Llama 3 模型进行量化并执行推理:

1. Llama 3 模型和标记器: 导入所需的软件包,并使用 AutoModelForCausalLM.from_pretrained() 和 AutoTokenizer.from_pretrained() 方法加载 Llama-3-8B-Instruct 特定的权重和标记符。

import torch
import intel_extension_for_pytorch as ipex
from transformers import AutoTokenizer, AutoModelForCausalLM, TextStreamer
Model = 'meta-llama/Meta-Llama-3-8B-Instruct'
model = AutoModelForCausalLM.from_pretrained(Model)
tokenizer = AutoTokenizer.from_pretrained(Model)

2. 量化配方配置(Quantization Recipe Config): 配置 WOQ 量化配方。我们可以将 weight_dtype 变量设置为所需的内存数据类型,分别从 torch.quint4x2 或 torch.qint8 中选择 int4 和 in8。此外,我们还可以使用 lowp_model 来定义去量化精度。目前,我们将保持 ipex.quantization.WoqLowpMode.None 作为默认的 bf16 计算精度。

qconfig = ipex.quantization.get_weight_only_quant_qconfig_mapping(
  weight_dtype=torch.quint4x2, # or torch.qint8
  lowp_mode=ipex.quantization.WoqLowpMode.NONE, # or FP16, BF16, INT8
)
checkpoint = None # optionally load int4 or int8 checkpoint
# PART 3: Model optimization and quantization
model_ipex = ipex.llm.optimize(model, quantization_config=qconfig, low_precision_checkpoint=checkpoint)
del model 

我们使用 ipex.llm.optimize() 应用 WOQ,然后使用 del model 从内存中删除完整模型,释放出 ~30GB 内存。

3. 提示 Llama 3:与 LLama 2 一样,Llama 3 也为其指令调整模型预设了提示模板。使用该模板,开发人员可以定义特定的模型行为指令,并提供用户提示和对话历史记录。

system= """\n\n You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. If you don't know the answer to a question, please don't share false information."""
user= "\n\n You are an expert in astronomy. Can you tell me 5 fun facts about the universe?"
model_answer_1 = 'None'
llama_prompt_tempate = f"""
<|begin_of_text|>\n<|start_header_id|>system<|end_header_id|>{system}
<|eot_id|>\n<|start_header_id|>user<|end_header_id|>{user}
<|eot_id|>\n<|start_header_id|>assistant<|end_header_id|>{model_answer_1}<|eot_id|>
"""
inputs = tokenizer(llama_prompt_tempate, return_tensors="pt").input_ids

我们提供所需的字段,然后使用标记器将整个模板转换成模型的标记。

4. Llama 3 推论: 在文本生成方面,我们利用 TextStreamer 生成实时推理流,而不是一次性打印整个输出。这将为读者带来更自然的文本生成体验。我们为 model_ipex.generate() 和其他文本生成参数提供了配置好的流。

with torch.inference_mode():
    tokens = model_ipex.generate(
        inputs,
        streamer=streamer,
        pad_token_id=128001,
        eos_token_id=128001,
        max_new_tokens=300,
        repetition_penalty=1.5,
)

运行此代码后,模型将开始生成输出。请记住,这些都是未经过滤的非保护输出。对于真实世界的使用案例,你将需要进行额外的后处理考虑。

33

就是这样。只需不到 20 行代码,你就能在生态系统中拥有最新 SoTA LLM 的低延迟 CPU 优化版本。

总结

与前几代产品相比,Meta 的 Llama 3 LLM 系列有了显著的改进,并提供了多种配置(更多配置即将推出)。在本文中,我们探讨了利用仅权重量化(WOQ)增强 CPU 推理能力的问题,这种技术可以减少延迟,同时对准确性的影响最小。

通过将新一代面向性能的 Llama 3 LLM 与 WOQ 等优化技术相结合,开发人员可以为 GenAI 应用开启新的可能性。这种组合简化了硬件要求,使集成到新系统和现有系统中的 LLM 能够实现高保真、低延迟的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/592480.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

java基于云计算的SaaS医院his信息系统源码 HIS云平台源码

目录 云HIS功能模块 1、预约挂号&#xff1a; 2、药库管理&#xff1a; 3、门诊医生站&#xff1a; 4、门诊费用&#xff1a; 5、药房管理&#xff1a; 6、治疗室&#xff08;门诊护士工作站&#xff09;&#xff1a; 7、统计分析&#xff1a; 8、财务管理&#xff1a;…

vue快速入门(五十三)使用js进行路由跳转

注释很详细&#xff0c;直接上代码 上一篇 新增内容 几种常用的路由跳转方式演示 源码 App.vue <template><div id"app"><div class"nav"><!-- router-link 自带两个高亮样式类 router-link-exact-active和router-link-active区别&a…

《QT实用小工具·五十四》果冻弹出效果的动画按钮

1、概述 源码放在文章末尾 该项目实现动画按钮&#xff0c;鼠标放在按钮上可以弹性拉出的三个按钮&#xff0c;使用贝塞尔曲线实现&#xff0c;项目demo显示如下所示&#xff1a; 项目部分代码如下所示&#xff1a; #ifndef WATERCIRCLEBUTTON_H #define WATERCIRCLEBUTTON…

MySQL CRUD进阶

前言&#x1f440;~ 上一章我们介绍了CRUD的一些基础操作&#xff0c;关于如何在表里进行增加记录、查询记录、修改记录以及删除记录的一些基础操作&#xff0c;今天我们学习CRUD&#xff08;增删改查&#xff09;进阶操作 如果各位对文章的内容感兴趣的话&#xff0c;请点点小…

mac查看Linux服务器的性能

mac上安装 linux系统 如果有 linux服务器账号密码&#xff0c;那么上一部可忽略&#xff1b; 比如&#xff1a;直接连接阿里云或腾讯云账号 1. 安装termius 链接: https://pan.baidu.com/s/1iYsZPZThPizxqtkLPT89-Q?pwdbw6j 提取码: bw6j 官网 Termius - SSH platform for …

[Linux][网络][TCP][一][TCP基础][TCP报头]详细讲解

目录 1.TCP头部格式2.TCP协议的特点3.TCP如何封装与分用4.通过序列号和确认应答号提高可靠性1.32位序列号2.32位确认应答号3.保证可靠性4.为什么序列号和确认应答号是单独的字段 5.窗口大小1.TCP的发送和接收缓冲区2.窗口大小 6.连接管理机制 1.TCP头部格式 TCP全称为"传输…

C语言数据结构之队列

目录 1.队列的概念及结构2.队列的实现逻辑3.队列的代码实现4.相关例题选择题 •͈ᴗ•͈ 个人主页&#xff1a;御翮 •͈ᴗ•͈ 个人专栏&#xff1a;C语言数据结构 •͈ᴗ•͈ 欢迎大家关注和订阅!!! 1.队列的概念及结构 队列&#xff1a;只允许在一端进行插入数据操作&#x…

SpringBoot与SpringMVC的区别

SpringBoot与SpringMVC的区别是什么&#xff1f; SpringBoot和SpringMVC是Java开发中常用的两个框架&#xff0c;它们都是由Spring框架所提供的&#xff0c;但在功能和使用方式上有着一些区别。本文将分别介绍SpringBoot和SpringMVC的特点和区别。 一、SpringBoot的特点&#…

第16章 基于结构的测试技术(白盒测试技术)

一、静态测试技术 &#xff08;一&#xff09;概述 不运行程序代码的情况下&#xff0c;通过质量准则或其他准则对测试项目进行检查的测试类型&#xff0c;人工或工具检查。 1、代码检查 2、编码规则检查 软件编码规范评测&#xff1a;源程序文档化、数据说明、语句结构、…

wpf线程中更新UI的4种方式

在wpf中&#xff0c;更新UI上面的数据&#xff0c;那是必经之路&#xff0c;搞不好&#xff0c;就是死锁&#xff0c;或者没反应&#xff0c;很多时候&#xff0c;都是嵌套的非常深导致的。但是更新UI的方式&#xff0c;有很多的种&#xff0c;不同的方式&#xff0c;表示的意思…

01-MySQL 基础篇笔记

一、MySQL 概述 1.1 数据库相关概念 数据库&#xff1a;&#xff08;DB&#xff1a;DataBase&#xff09; 存储数据的仓库&#xff0c;数据是有组织的进行存储 数据库管理系统&#xff1a;&#xff08;DBMS&#xff1a;DataBase Management System&#xff09; 操作和管理数…

论文阅读笔记(AAAI 20)Order Matters

个人博客地址 注&#xff1a;部分内容参考自GPT生成的内容 论文笔记&#xff1a;Order Matters&#xff08;AAAI 20&#xff09; 用于二进制代码相似性检测的语义感知神经网络 论文:《Order Matters: Semantic-Aware Neural Networks for Binary Code Similarity Detection》…

时间日志格式的统一和定制

返回当前格式的时间没有错误&#xff0c;但是不符合中国人的阅读习惯 解决&#xff1a; 方案一&#xff1a;JsonFormat 解决后端 传到 前端格式问题 依赖&#xff1a; <dependency><groupId>com.fasterxml.jackson.core</groupId><artifactId>jack…

基于MQTT通信开发的失物招领小程序

项目架构设计 这个项目采用前后端分离的方式&#xff0c;重新设计了两条链路来支撑程序的信息获取和传递 前端的小程序页面再启动页面渲染时&#xff0c;直接通过DBAPI从后端数据库获取信息&#xff0c;直接渲染在小程序中项目中给DBAPI的定位是快速从后端获取信息&#xff0…

C语言 计数控制循环

今天 我们来说 计数控制的循环 对于循环次数 我们已知的循环 我们称之为 计数控制的循环 这种情况 我们一般选择 for来实现 更为方便 先看一个案例 求 1 到 N 的累加合 我们代码可以这样写 #define _CRT_SECURE_NO_WARNINGS//禁用安全函数警告 #pragma warning(disable:6031…

一键自动化博客发布工具,chrome和firfox详细配置

blog-auto-publishing-tools博客自动发布工具现在已经可以同时支持chrome和firefox了。 很多小伙伴可能对于如何进行配置和启动不是很了解&#xff0c;今天带给大家一个详细的保姆教程&#xff0c;只需要跟着我的步骤一步来就可以无障碍启动了。 前提条件 前提条件当然是先下…

数据库MySQL的基本操作

在Linux里面&#xff0c;我们要对数据库MySQL进行操作时&#xff08;例如修改MySQL的密码&#xff09;&#xff0c;不是直接在我们的终端上进行操作&#xff0c;而是通过终端连接进入到MySQL里面去&#xff0c;在进行操作&#xff0c;写SQL语句。 而安装C等的开发库sudo命令&a…

【深度学习驱动的蛋白质设计技术与前沿实践-从基础到尖端应用】

RoseTTAFold&#xff0c;作为 David Baker 教授团队早期开发的蛋白质结构预测工具&#xff0c;在学术界与工 业界广受认可。然而&#xff0c;随着时间推移&#xff0c;仅局限于预测已知结构的蛋白质并不能满足生物医药和生 物工程领域对创新设计的需求。这促使 David Baker 教授…

浅谈ps/2键盘

文章目录 说明基础知识操作系统中断类型工作机制优点应用 CPU对IO设备的轮询机制轮询机制的工作原理轮询机制的特点轮询机制的优、缺点与中断机制的对比 N-Key Roller&#xff08;全键无冲&#xff09;应用领域实现原理技术限制 PS/2接口简介USB设备&PS/2设备的工作机制PS/…

【在线oj系统】02-开发环境版本说明

目录 一、前置环境版本介绍 二、SpringCloud组件停更/替换/更新 服务注册和发现 服务调用和负载均衡 分布式事务 服务熔断和降级 服务链路追踪 服务网关 分布式配置管理 三、客户端版本 一、前置环境版本介绍 使用Cloud的版本决定Boot的版本&#xff0c;SpringCloud的…
最新文章