[llms] Docs

less than 1 minute read

Published: May 26, 2025

个人向学习文档

基础部分和面试问题：

1. happy魇：研一基本功【注意力+diffusion+大模型微调】

大模型微调实战

unsloth

2. 堂吉柯德：【DeepSeek+LoRA+FastAPI】开发人员如何微调大模型并暴露接口给后端调用

Demo前端Github地址：https://github.com/huangyf2013320506/magic_conch_frontend.git

Demo后端Github地址（含数据集）：https://github.com/huangyf2013320506/magic_conch_backend.git

笔记文档（.md）：https://pan.quark.cn/s/57939e67d3d0

笔记文档（.pdf）：https://pan.quark.cn/s/d5ed78ef4f76

所有资料：https://pan.quark.cn/s/802cd0c232b4

3. RethinkFun：大模型微调，DeepSeek技术原理

代码

code秘密花园：如何把你的 DeePseek-R1 微调为某个领域的专家？（实战篇）

代码

DeepSeek-V3（包含 model, generate 写法）

https://blog.vllm.ai/2023/06/20/vllm.html https://github.com/LMCache/LMCache

强化学习入门

五道口纳什：强化学习入门，数学原理

代码

Share on

Twitter Facebook LinkedIn

一、简介

本期视频主要分为以下五部分：

1. 需求和技术

企业对于大模型的不同类型个性化需求

SFT（有监督微调）、RLHF（强化学习）、RAG（检索增强生成） -关注：基本概念；分别解决什么问题；如何根据需求选择；

微调部分详细介绍：

微调算法的分类
**LoRA 微调算法
微调常见实现框架
2. 整体步骤说明

在 Linux 系统上微调一个大模型、部署模型、暴露 API 给 web 后端调用，本机前端展示全过程

3. 模型微调

框架: LLama-Factory (国产最热门的微调框架)

算法: **LoRA (最著名的部分参数微调算法）

基座模型：DeepSeek-R1-Distill-Qwen-1.5B -蒸馏技术通常用于通过将大模型（教师模型）的知识转移到小模型（学生模型）中，使得小模型能够在尽量保持性能的同时，显著减少模型的参数量和计算需求。

4. 模型部署和暴露接口

框架：FastAPI（一个基于 python 的 web 框架）

5. web后端调用

通过 HTTP 请求交互即可（ Demo 前后端代码都在视频简介）

Celeste

[llms] Docs

个人向学习文档

基础部分和面试问题：

大模型微调实战

代码

强化学习入门

Share on

You May Also Enjoy

[llms] 笔记文档

一、简介

1. 需求和技术

2. 整体步骤说明

3. 模型微调

4. 模型部署和暴露接口

5. web后端调用

采样

sample

MoE 原理及实现

MoE：mix of experts

反向传播计算

反向传播计算