大模型本地化部署、微调、量化、开发平台和工具-峰网博客

一、大模型推理引擎

llama.cpp
transformers
vLLM
SGLang
MLX

二、大模型微调工具

2.1 LLaMA-Factory

 https://github.com/hiyouga/LLaMA-Factory

LLaMA-Factory 是一个专为 Meta 发布的 LLaMA (Large Language Model Meta AI) 系列模型的微调和训练工具。LLaMA-Factory 是针对 LLaMA 系列语言模型的微调工具，适用于有大规模计算需求和高效训练优化需求的场景。
特色

多种模型：LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen、Qwen2-VL、DeepSeek、Yi、Gemma、ChatGLM、Phi等等。
集成方法：（增量）预训练、（多模态）指令监督微调、奖励模型训练、PPO 训练、DPO 训练、KTO 训练、ORPO 训练等等。
多种精度：16 比特全参数微调、冻结微调、LoRA 微调和基于 AQLM/AWQ/GPTQ/LLM.int8/HQQ/EETQ 的 2/3/4/5/6/8 比特 QLoRA 微调。
先进算法：GaLore、BAdam、APOLLO、Adam-mini、DoRA、LongLoRA、LLaMAPro、Mixture-of-Depths、LoRA+、LoftQ 和 PiSSA。
实用技巧：FlashAttention-2、Unsloth、Liger Kernel、RoPE scaling、NEFTune 和 rsLoRA。
广泛任务：多轮对话、工具调用、图像理解、视觉定位、视频识别和语音理解等等。
实验监控：LlamaBoard、TensorBoard、Wandb、MLflow、SwanLab 等等。极速推理：基于 vLLM 的OpenAI 风格 API、浏览器界面和命令行接口。

2.2 PEFT

https://github.com/huggingface/peft

参数高效微调（PEFT）方法只需微调少量（额外）模型参数，而不是微调模型的所有参数，即可使大型预训练模型有效地适应各种下游应用。
使用 PEFT 有很多好处，但最主要的是节省计算和存储的巨大成本，使 PEFT 适用于许多不同的用例。
考虑使用 A100 80GB GPU 和超过 64GB CPU RAM 在 ought/raft/twitter_complaints 数据集上训练以下模型的内存要求。借助 LoRA，您可以完全微调 12B 参数模型，否则 80GB GPU 上的内存会耗尽，并轻松拟合和训练 3B 参数模型。当您查看 3B 参数模型的性能时，它与完全微调的模型相当，而 GPU 内存只是一小部分。

三、大模型量化工具

llama.cpp

四、大模型部署工具

Ollama
LM Studio
Xinference
LocalAI
FastChat
One API

五、RAG工具

Langchain-Chatchat
https://github.com/chatchat-space/Langchain-Chatchat?tab=readme-ov-file

六、大语言模型（LLM）应用开发平台

Dify、Coze

大模型本地化部署、微调、量化、开发平台和工具

一、大模型推理引擎

二、大模型微调工具

2.1 LLaMA-Factory

2.2 PEFT

三、大模型量化工具

四、大模型部署工具

五、RAG工具

六、大语言模型（LLM）应用开发平台

请叫我峰子

推荐阅读

评论抢沙发

评论前必须登录！

Lastest

Member

Catelogs

网站建设

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

关注微信

在线咨询

回顶部

一、大模型推理引擎

二、大模型微调工具

2.1 LLaMA-Factory

2.2 PEFT

三、大模型量化工具

四、大模型部署工具

五、RAG工具

六、大语言模型（LLM）应用开发平台

请叫我峰子

推荐阅读

评论 抢沙发

评论前必须登录！

Lastest

Member

Catelogs

网站建设

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

关注微信

在线咨询

回顶部

评论抢沙发