ycvenopyer

DeepSeekv4 Technical Report

Sat, 25 Apr 2026 21:50:13 +0000

DeepSeekv4 Technical Report¶

约 3 个字预计阅读时间不到 1 分钟

On-Policy Distillation

Sat, 25 Apr 2026 21:50:13 +0000

On-Policy Distillation¶

约 4 个字预计阅读时间不到 1 分钟

On-Policy Distillation

Overview

Sat, 25 Apr 2026 11:46:35 +0000

Deep Learning¶

约 2 个字预计阅读时间不到 1 分钟

CNN

Sat, 25 Apr 2026 11:46:35 +0000

CNN¶

约 1 个字预计阅读时间不到 1 分钟

GAN

Sat, 25 Apr 2026 11:46:35 +0000

GAN¶

约 7 个字预计阅读时间不到 1 分钟

生成对抗网络

ResNet

Sat, 25 Apr 2026 11:46:35 +0000

ResNet¶

约 13 个字预计阅读时间不到 1 分钟

ResNet

ResNet-论文全文完整翻译+注解

VAE

Sat, 25 Apr 2026 11:46:35 +0000

VAE¶

约 3 个字预计阅读时间不到 1 分钟

1.AE¶

2.VAE¶

Bayesian Classifier

Sat, 25 Apr 2026 11:46:35 +0000

贝叶斯分类器¶

约 193 个字预计阅读时间 1 分钟

1.贝叶斯决策论¶

判别式模型与生成式模型

贝叶斯定理

2.极大似然估计（MLE）¶

3.朴素贝叶斯分类器¶

属性条件独立性假设

拉普拉斯修正

4.半朴素贝叶斯分类器¶

考虑一部分属性见的相互依赖信息

独依赖估计（ODE）

SPODE

TAN

AODE

5.贝叶斯网（信念网）¶

借助DAG刻画属性之间的依赖关系，用条件概率表（CRT）来描述属性的联合概率分布。

贝叶斯网中三个变量之间的典型依赖关系：同父结构，V型结构，顺序结构。

道德图

最小描述长度（MDL）

AIC评分函数

BIC评分函数

近似推断：吉布斯采样

6.EM算法¶

Cluster

Sat, 25 Apr 2026 11:46:35 +0000

聚类¶

约 152 个字预计阅读时间不到 1 分钟

1.聚类任务¶

2.性能度量¶

也叫聚类有效性指标

聚类目的：簇内相似度高且簇间相似度低

分为内部指标和外部指标

外部指标：Jaccard系数，FM指数，Rand指数

内部指标：DB指数，Dunn指数

还有F值，互信息，平均廓宽等

3.距离计算¶

闵可夫斯基距离

曼哈顿距离

内积距离

余弦距离

VDM

MinkovDM

非度量距离

4.原型聚类¶

4.1 K-Means¶

4.2 学习向量量化（LVQ）¶

4.3 高斯混合聚类（GMM）¶

5.密度聚类¶

5.1 DBSCAN¶

OPTICS、DENCLUE

6.层次聚类¶

6.1 AGNES¶

DIANA

BIRCH

ROCK

Decision Tree

Sat, 25 Apr 2026 11:46:35 +0000

决策树¶

约 141 个字预计阅读时间不到 1 分钟

1.基本流程¶

分而治之

2.划分选择¶

2.1 信息增益¶

ID3

2.2 增益率¶

C4.5

2.3 基尼指数¶

CART

3.剪枝处理¶

3.1 预剪枝¶

3.2 后剪枝¶

4.连续与缺失值¶

4.1 连续值处理¶

二分法

4.2 缺失值处理¶

5.多变量决策树¶

OC1

6.可增量学习的决策树¶

在接受到新样本后对已学得的模型进行调整，而不完全重新学习，主要机制是通过调整分支路径上的划分属性次序来对树进行部分重构。

ID4

ID5R

ITI

Dimensionality

Sat, 25 Apr 2026 11:46:35 +0000

降维与度量学习¶

约 62 个字预计阅读时间不到 1 分钟

1.kNN¶

2.低维嵌入¶

维数灾难

2.1 MDS¶

3.PCA¶

4.t-SNE¶

5.核化线性降维¶

5.1 kPCA¶

6.流形学习¶

6.1 等度量映射（Isomap）¶

6.2 局部线性嵌入（LLE）¶

7.度量学习¶

度量矩阵

近邻成分分析（NCA）

Ensemble Learning

Sat, 25 Apr 2026 11:46:35 +0000

集成学习¶

约 175 个字预计阅读时间 1 分钟

1.个体与集成¶

2.Boosting¶

2.1 AdaBoost¶

2.2 XGBoost¶

2.3 LightGBM¶

3.Bagging¶

4.Random Forest¶

5.结合策略¶

5.1 平均法¶

简单平均法

加权平均法

5.2 投票法¶

绝对多数投票法

相对多数投票法

加权投票法

类标记和类概率

5.3 学习法¶

Stacking

6.多样性¶

6.1 误差-分歧分解¶

6.2 多样性度量¶

不合度量

6.3 多样性增强¶

数据样本、输入属性、输出表示、算法参数扰动

7.集成修剪（ensemble pruning）¶

在集成产生之后再试图去除一些个体学习器来获得较小的集成。

并行化集成

基于优化的集成修剪

Feature Selection and Sparsity Learning

Sat, 25 Apr 2026 11:46:35 +0000

特征选择与稀疏学习¶

约 168 个字预计阅读时间 1 分钟

1.子集搜索与评价¶

2.过滤式选择¶

Relief

3.包裹式选择¶

LVW(Las Vegas Wrapper)

4.嵌入式选择与L1正则化¶

LASSO——可通过近端梯度下降求解(PGD)

ridge regression

5.稀疏表示与字典学习¶

“稀疏表示”(sparse representation)近年来很受关注，但即便对多元线性回归这样简单的模型，获得具有最优“稀疏性”(sparsity)的解也并不容易。稀疏性问题本质上对应了L0范数的优化，这在通常条件下是NP难问题。LASSO通过L1范数来近似L0范数，是求取稀疏解的重要技术。

6.压缩感知¶

Linear Model

Sat, 25 Apr 2026 11:46:35 +0000

线性模型¶

约 97 个字预计阅读时间不到 1 分钟

1.基本形式¶

2.线性回归(Linear Regression)¶

3.对数几率回归(Logistic Regression)¶

对数几率，对数几率函数(sigmoid函数)

4.线性判别分析(LDA)¶

类内散度矩阵，类间散度矩阵，广义瑞利商

5.多分类学习¶

一对一(OvO)，一对其余(OvR)，多对多(MvM)

ECOC编码

6.类别不平衡问题¶

再缩放

欠采样

阈值移动

Model Evaluation and Selection

Sat, 25 Apr 2026 11:46:35 +0000

模型评估与选择¶

约 147 个字预计阅读时间不到 1 分钟

1.经验误差与过拟合¶

精度，误差，过拟合，欠拟合

2.评估方法¶

2.1 留出法¶

2.2 交叉验证法(cross validation)¶

k折交叉验证

LOO留一法

2.3 自助法(bootstrapping)¶

包外估计

2.4 调参与最终模型¶

3.性能度量¶

3.1 错误率与精度¶

3.2 查准率、查全率、F1¶

3.3 ROC与AUC¶

3.4 代价敏感错误率与代价曲线¶

4.比较检验¶

4.1 假设检验¶

二项分布，t分布

4.2 交叉验证t检验¶

4.3 McNemar检验¶

4.4 Friedman检验与Nemenyi后续检验¶

5.偏差与方差¶

Neural Network

Sat, 25 Apr 2026 11:46:35 +0000

神经网络¶

约 358 个字预计阅读时间 1 分钟

Fundamentals: This includes understanding the structure of a neural network, such as layers, weights, biases, and activation functions (sigmoid, tanh, ReLU, etc.)

Training and Optimization: Familiarize yourself with backpropagation and different types of loss functions, like Mean Squared Error (MSE) and Cross-Entropy. Understand various optimization algorithms like Gradient Descent, Stochastic Gradient Descent, RMSprop, and Adam.

Overfitting: Understand the concept of overfitting (where a model performs well on training data but poorly on unseen data) and learn various regularization techniques (dropout, L1/L2 regularization, early stopping, data augmentation) to prevent it.

Implement a Multilayer Perceptron (MLP): Build an MLP, also known as a fully connected network, using PyTorch.

1.神经元模型¶

M-P神经元模型

激活函数

学习率

权重初始化：常数初始化，随机分布初始化，Xavier初始化，He初始化

2.感知机与多层网络（MLP）¶

多层前馈神经网络（Multi-Layer FFN）

前馈并不意味着网络信号不能向后传，而是指网络拓扑结构上不存在环或回路。

3.反向传播算法（BP）¶

LMS（Least Mean Square）算法（BP前身）：将LMS推广到由非线性可微神经元组成的多层前馈网络，就得到BP算法。

梯度下降GD

随机梯度下降SGD

解决过拟合：早停，正则化（dropout，标签平滑，权重衰减）

4.全局最小与局部最小¶

跳出局部最小：启发式算法（模拟退火，遗传算法等）

5.其他神经网络¶

RBF网络

ART网络

SOM网络

级联相关网络

Elman网络

Boltzman机

深度学习（pre-training,fine-tuning）

深度信念网络DBN

权值共享CNN

6.深度学习¶

Probabilistic Graphical Model

Sat, 25 Apr 2026 11:46:35 +0000

概率图模型¶

约 135 个字预计阅读时间不到 1 分钟

一类是DAG模型或贝叶斯网

一类是无向图模型或马尔可夫网

1.隐马尔可夫模型（HMM）¶

2.马尔可夫随机场（MRF）¶

3.条件随机场（CRF）¶

4.学习与推断¶

4.1 变量消去¶

4.2 信念传播¶

5.近似推断¶

一类是采样，通过随机化方法完成近似；一类是变分推断，使用确定性近似完成近似推断

5.1 MCMC采样¶

马尔可夫链蒙特卡罗方法

Metropolis-Hastings（MH）算法

吉布斯采样

6.话题模型¶

Reinforcement Learning

Sat, 25 Apr 2026 11:46:35 +0000

强化学习¶

约 30 个字预计阅读时间不到 1 分钟

1.马尔可夫决策过程（MDP）¶

2.epsilon-贪心¶

3.Softmax¶

4.Q-learning¶

5.Sarsa¶

6.Actor-Critic¶

7.SAC¶

8.深度Q网络¶

9.策略梯度¶

Semi-Supervised Learning

Sat, 25 Apr 2026 11:46:35 +0000

半监督学习¶

约 86 个字预计阅读时间不到 1 分钟

1.未标记样本¶

聚类假设

流形假设

半监督学习分为纯半监督学习和直推学习

2.生成式方法¶

3.半监督SVM¶

TSVM

4.图半监督学习¶

5.基于分歧的方法¶

协同训练算法

6.半监督聚类¶

约束k均值算法

约束种子k均值算法

SVM

Sat, 25 Apr 2026 11:46:35 +0000

支持向量机¶

约 117 个字预计阅读时间不到 1 分钟

1.间隔与支持向量¶

2.对偶问题¶

凸二次规划问题（最优化方法）

KKT条件

SMO(Sequential Minimal Optimization)算法

3.核函数¶

4.软间隔与正则化¶

引入损失函数：hinge损失，指数损失，对率损失

松弛变量

结构风险与经验风险

5.支持向量回归（SVR）¶

6.核方法¶

Mercer定理

表示定理

基于核函数的学习方法：引入核函数将线性变成非线性

Word Embedding

Sat, 25 Apr 2026 11:46:35 +0000

词嵌入¶

约 13 个字预计阅读时间不到 1 分钟

1.Word2Vec¶

1.1 Skip-Gram¶

1.2 CBOW¶

2.GloVe¶

3.FastText¶

4.CoVe¶

5.BiLM¶

6.ELMo¶

MoE

Fri, 24 Apr 2026 18:19:02 +0000

MoE¶

约 4114 个字 7 张图片预计阅读时间 13 分钟

1.什么是MoE？¶

MoE由两个关键部分组成：

稀疏MoE层：这些层代替了传统Transformer中的FFN层，由若干专家组成，每个专家是一个独立的神经网络。这些专家通常是FFN，也可以是更复杂的网络结构，甚至是MoE层本身，从而形成层级式的MoE结构。
门控网络或路由：这个部分用于决定哪些令牌(token)被发送到哪个专家。有时，一个token可以被发送到多个专家。token的路由方式是MoE使用中的一个关键点，因为Router由学习的参数组成，并且与网络的其他部分一同进行预训练。

尽管混合专家模型 (MoE) 提供了若干显著优势，例如更高效的预训练和与稠密模型相比更快的推理速度，但它们也伴随着一些挑战:

训练挑战: 虽然 MoE 能够实现更高效的计算预训练，但它们在微调阶段往往面临泛化能力不足的问题，长期以来易于引发过拟合现象。
推理挑战: MoE 模型虽然可能拥有大量参数，但在推理过程中只使用其中的一部分，这使得它们的推理速度快于具有相同数量参数的稠密模型。然而，这种模型需要将所有参数加载到内存中，因此对内存的需求非常高。

2.MoE模型早期发展历程¶

MoE最早起源于1991年的论文Adaptive Mixture of Local Experts。与集成学习方法类似，旨在为由多个单独网络组成的系统建立一个监管机制。每个专家处理训练样本的不同子集，专注于输入空间的特定区域，而门控网络则负责选择专家来处理特定的输入，它决定了分配给每个专家的权重。

Learning Factored Representations in a Deep Mixture of Experts探索了将 MoE 作为更深层网络的一个组件。这种方法允许将 MoE 嵌入到多层网络中的某一层，使得模型既大又高效。

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer引入稀疏性，在保持极高规模的同时实现了快速的推理速度。

3.什么是稀疏性？¶

在Dense LLM中，所有的参数都会对所有输入数据进行处理。稀疏性意味着并非所有参数都会在处理每个输入时被激活或使用，而是根据输入的特定特征或需求，只有部分参数集合被调用和运行。

存在这样的一个问题：例如，在混合专家模型 (MoE) 中，尽管较大的批量大小通常有利于提高性能，但当数据通过激活的专家时，实际的批量大小可能会减少。比如，假设我们的输入批量包含 10 个令牌，可能会有 5 个令牌被路由到同一个专家，而剩下的 5 个令牌分别被路由到不同的专家。这导致了批量大小的不均匀分配和资源利用效率不高的问题。

那么该如何解决呢？一个可学习的门控网络（G）决定将输入的哪一部分发送给哪些专家（E）：

\[ y = \sum_{i = 1}^n G(x)_i E_i(x) \]

根据上述公式，虽然所有专家都会对所有输入进行运算，但通过G的输出G(x)进行加权乘法，当G(x)为0时就没必要计算相应的专家操作，这样就可以节省计算资源。

那么有哪些门控函数呢？一个典型的门控函数是带有Softmax函数的简单网络：

\[ G_{\sigma}(x) = Softmax(x\cdot W_g) \]

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer还探索了其他的门控机制，比如带噪声的TopK门控（Noisy Top-K Gating），这种门控引入了一些可调整的噪声，然后保留前k个值。

添加噪声：

\[ H(x)_i = (x \cdot W_g)_i + StandardNormal() \cdot Softplus((x \cdot W_{noise})_i) \]

选择保留前k个值：

\[ \operatorname{KeepTopK}(v,k)_i = \begin{cases} v_i & \text{if } v_i \text{ is in the top } k \text{ elements of } v, \\ -\infty & \text{otherwise.} \end{cases} \]

应用Softmax函数：

\[ G(x) = Softmax(KeepTopK(H(x), k)) \]

通过使用较低的k值，我们可以比激活多个专家时更快地进行训练和推理。为什么不仅选择最顶尖的专家呢？最初的假设是，需要将输入路由到不止一个专家，以便门控学会如何进行有效的路由选择，因此至少需要选择两个专家。Switch Transformers就这点进行了更多的研究（见后文）。

添加噪声的目的是为了专家间的load balance。

4.MoE中Token的load balance¶

正如之前讨论的，如果所有的token都被发送到只有少数几个受欢迎的专家，那么训练效率将会降低。在通常的混合专家模型 (MoE) 训练中，门控网络往往倾向于主要激活相同的几个专家。这种情况可能会自我加强，因为受欢迎的专家训练得更快，因此它们更容易被选择。为了缓解这个问题，引入了一个辅助损失，旨在鼓励给予所有专家相同的重要性。这个损失确保所有专家接收到大致相等数量的训练样本，从而平衡了专家之间的选择。接下来的部分还将探讨专家容量的概念，它引入了一个关于专家可以处理多少令牌的阈值。

5.MoEs and Transformers¶

Transformer 类模型明确表明，增加参数数量可以提高性能，因此谷歌使用 GShard 尝试将 Transformer 模型的参数量扩展到超过 6000 亿并不令人惊讶。

GShard 将在编码器和解码器中的每个 FFN 层中的替换为使用 Top-2 门控的混合专家模型 (MoE) 层。下图展示了编码器部分的结构。这种架构对于大规模计算非常有效: 当扩展到多个设备时，MoE 层在不同设备间共享，而其他所有层则在每个设备上复制。

为了保持负载平衡和训练效率，GShard 的作者除了引入了上一节中讨论的类似辅助损失外，还引入了一些关键变化:

随机路由: 在 Top-2 设置中，始终选择排名最高的专家，但第二个专家是根据其权重比例随机选择的。
专家容量: 可以设定一个阈值，定义一个专家能处理多少令牌。如果两个专家的容量都达到上限，令牌就会溢出，并通过残差连接传递到下一层，或在某些情况下被完全丢弃。专家容量是 MoE 中最重要的概念之一。为什么需要专家容量呢？因为所有张量的形状在编译时是静态确定的，无法提前知道多少令牌会分配给每个专家，因此需要一个固定的容量因子。

GShard 的工作对适用于 MoE 的并行计算模式也做出了重要贡献，但这里不做展开。

注意: 在推理过程中，只有部分专家被激活。同时，有些计算过程是共享的，例如自注意力 (self-attention) 机制，它适用于所有token。这就解释了为什么我们可以使用相当于 12B 稠密模型的计算资源来运行一个包含 8 个专家的 47B 模型。如果我们采用 Top-2 门控，模型会使用高达 14B 的参数。但是，由于自注意力操作 (专家间共享) 的存在，实际上模型运行时使用的参数数量是 12B。

6.Switch Transformers¶

尽管混合专家模型 (MoE) 显示出了很大的潜力，但它们在训练和微调过程中存在稳定性问题，Switch Transformers深入研究了这些问题。

Switch Transformers 提出了一个 Switch Transformer 层，它接收两个输入 (两个不同的token) 并拥有四个专家。

与最初使用至少两个专家的想法相反，Switch Transformers 采用了简化的单专家策略。这种方法的效果包括:

减少门控网络 (路由) 计算负担
每个专家的批量大小至少可以减半
降低通信成本
保持模型质量

Switch Transformers 也对专家容量这个概念进行了研究:

\[ \text{Expert Capacity} = \left( \frac{\text{tokens per batch}}{\text{number of experts}} \right) \times \text{capacity factor} \]

上述建议的容量是将批次中的令牌数量均匀分配到各个专家。如果我们使用大于 1 的容量因子，我们为令牌分配不完全平衡时提供了一个缓冲。增加容量因子会导致更高的设备间通信成本，因此这是一个需要考虑的权衡。特别值得注意的是，Switch Transformers 在低容量因子 (例如 1 至 1.25) 下表现出色。

Switch Transformer 的作者还重新审视并简化了前面章节中提到的负载均衡损失。在训练期间，对于每个 Switch 层的辅助损失被添加到总模型损失中。这种损失鼓励均匀路由，并可以使用超参数进行加权。

作者还尝试了混合精度的方法，例如用 bfloat16 精度训练专家，同时对其余计算使用全精度进行。较低的精度可以减少处理器间的通信成本、计算成本以及存储张量的内存。然而，在最初的实验中，当专家和门控网络都使用 bfloat16 精度训练时，出现了不稳定的训练现象。这种不稳定性特别是由路由计算引起的，因为路由涉及指数函数等操作，这些操作对精度要求较高。因此，为了保持计算的稳定性和精确性，保持更高的精度是重要的。为了减轻不稳定性，路由过程也使用了全精度。

Switch Transformers 采用了编码器 - 解码器的架构，实现了与 T5 类似的混合专家模型 (MoE) 版本。GLaM 这篇工作探索了如何使用仅为原来 $\displaystyle{\frac{1}{3}}$ 的计算资源 (因为 MoE 模型在训练时需要的计算量较少，从而能够显著降低碳足迹) 来训练与 GPT-3 质量相匹配的模型来提高这些模型的规模。作者专注于仅解码器 (decoder-only) 的模型以及少样本和单样本评估，而不是微调。他们使用了 Top-2 路由和更大的容量因子。此外，他们探讨了将容量因子作为一个动态度量，根据训练和评估期间所使用的计算量进行调整。

7.用Router-z-loss稳定模型训练¶

之前讨论的平衡损失可能会导致稳定性问题。我们可以使用许多方法来稳定稀疏模型的训练，但这可能会牺牲模型质量。例如，引入 dropout 可以提高稳定性，但会导致模型质量下降。另一方面，增加更多的乘法分量可以提高质量，但会降低模型稳定性。

ST-MoE 引入的 Router z-loss 在保持了模型性能的同时显著提升了训练的稳定性。这种损失机制通过惩罚门控网络输入的较大 logits 来起作用，目的是促使数值的绝对大小保持较小，这样可以有效减少计算中的舍入误差。这一点对于那些依赖指数函数进行计算的门控网络尤其重要。

\[ L_z(x) = \frac{1}{B} \sum_{i=1}^B \left( \log \sum_{j=1}^N e^{x_j^{(i)}} \right)^2 \]

这里B是token的数量，N是专家的数量，x是进入路由的logits。

8.专家学习特点¶

ST-MoE 的研究者们发现，编码器中不同的专家倾向于专注于特定类型的Token或浅层概念。例如，某些专家可能专门处理标点符号，而其他专家则专注于专有名词等。与此相反，解码器中的专家通常具有较低的专业化程度。

此外，研究者们还对这一模型进行了多语言训练。尽管人们可能会预期每个专家处理一种特定语言，但实际上并非如此。由于Token路由和负载均衡的机制，没有任何专家被特定配置以专门处理某一特定语言。

9.微调策略¶

增加更多专家可以提升处理样本的效率和加速模型的运算速度，但这些优势随着专家数量的增加而递减 (尤其是当专家数量达到 256 或 512 之后更为明显) 。同时，这也意味着在推理过程中，需要更多的显存来加载整个模型。值得注意的是，Switch Transformers 的研究表明，其在大规模模型中的特性在小规模模型下也同样适用，即便是每层仅包含 2、4 或 8 个专家。
稠密模型和稀疏模型在过拟合的动态表现上存在显著差异。稀疏模型更易于出现过拟合现象，因此在处理这些模型时，尝试更强的内部正则化措施是有益的，比如使用更高比例的 dropout。例如，我们可以为稠密层设定一个较低的 dropout 率，而为稀疏层设置一个更高的 dropout 率，以此来优化模型性能。
在微调过程中是否使用辅助损失是一个需要决策的问题。ST-MoE 的作者尝试关闭辅助损失，发现即使高达 11% 的Token被丢弃，模型的质量也没有显著受到影响。Token丢弃可能是一种正则化形式，有助于防止过拟合。

Switch Transformers 的作者观察到，在相同的预训练困惑度下，稀疏模型在下游任务中的表现不如对应的稠密模型，特别是在重理解任务 (如 SuperGLUE) 上。另一方面，对于知识密集型任务 (如 TriviaQA)，稀疏模型的表现异常出色。作者还观察到，在微调过程中，较少的专家的数量有助于改善性能。另一个关于泛化问题确认的发现是，模型在小型任务上表现较差，但在大型任务上表现良好。

一种可行的微调策略是尝试冻结所有非专家层的权重。实践中，这会导致性能大幅下降，但这符合我们的预期，因为混合专家模型 (MoE) 层占据了网络的主要部分。我们可以尝试相反的方法: 仅冻结 MoE 层的参数。实验结果显示，这种方法几乎与更新所有参数的效果相当。这种做法可以加速微调过程，并降低显存需求。

在微调稀疏混合专家模型 (MoE) 时需要考虑的最后一个问题是，它们有特别的微调超参数设置——例如，稀疏模型往往更适合使用较小的批量大小和较高的学习率，这样可以获得更好的训练效果。

10.DeepseekMoE¶

TBD

11.总结¶

混合专家模型 (MoEs):

与稠密模型相比，预训练速度更快。
与具有相同参数数量的模型相比，具有更快的推理速度。
需要大量显存，因为所有专家系统都需要加载到内存中。
在微调方面存在诸多挑战，但近期的研究表明，对混合专家模型进行指令调优具有很大的潜力。

12.Reference¶

Adaptive Mixture of Local Experts

Learning Factored Representations in a Deep Mixture of Experts

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer

GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

GLaM: Efficient Scaling of Language Models with Mixture-of-Experts

ST-MoE: Designing Stable and Transferable Sparse Expert Models

混合专家模型 (MoE) 详解

【重读经典MoE】Adaptive Mixtures of Local Experts

【论文精炼】OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER | 超大规模神经网络：稀疏门控专家混合层

MoE环游记：1、从几何意义出发

DeepSeek

Fri, 24 Apr 2026 17:58:05 +0000

DeepSeek¶

约 18 个字预计阅读时间不到 1 分钟

DeepSeek v4-pro, flash

DeepSeek-R1,R2?

GRPO¶

DeepSeekMoE¶

MLA¶

MTP¶

FP8 混合精度训练¶

DSA¶

Overview

Fri, 24 Apr 2026 13:34:34 +0000

驾驭工程¶

约 6803 个字预计阅读时间 21 分钟

Harness Engineering: AI Agent稳定落地的核心引擎，重塑AI Agent时代的软件工程。

1.定义¶

Harness Engineering是指在AI系统中，除模型本身外所有决定系统稳定交付能力的组件总和。其核心目标是解决AI Agent在真实场景中的执行稳定性问题，确保模型从“能思考”到“能稳定做事”的关键跨越。

2.AI工程的三阶段演进¶

阶段	核心问题	解决思路	技术重点	局限性
Prompt Engineering (提示词工程)	模型是否可理解指令	优化语言表达	角色设定、风格约束、示例引导	无法弥补知识缺失，不能管理动态信息
Context Engineering (上下文工程)	模型是否获得正确信息	优化信息供给	检索增强(RAG)、渐进式微调、信息分层	无法解决执行过程中的监督与纠偏问题
Harness Engineering (驾驭工程)	模型能否稳定交付任务	优化运行系统	执行编排、状态管理、错误恢复

3.成熟Harness的六层架构¶

3.1 上下文边界层¶

核心功能: 确保模型在正确边界内思考。

关键组件:

角色与目标定义: 明确模型身份、任务范围及成功标准。
信息获取与选择: 确保上下文相关性(非越多越好)。
结构化组织: 分层管理规则、任务状态、外部证据。

3.2 工具系统层¶

核心功能: 连接模型与现实世界的桥梁。

关键挑战:

工具选择: 平衡能力覆盖与使用复杂度。
调用时机: 避免不必要的调用(不必要)和错误判断(不管)。

3.3 执行编排层¶

核心功能: 将任务分解为可执行步骤。

典型流程: 目标理解→信息整合→分析处理→输出生成→结果检查→修正迭代。

价值: 解决Agent“想到哪做到哪”的无序执行问题，确保任务闭环。

3.4 记忆与状态层¶

核心功能: 解决Agent“失忆”问题。

状态分类:

当前任务状态。
会话中间结果。
长期记忆与用户偏好。

管理原则: 分类存储，避免信息混乱导致的执行偏差。

3.5 评估与观测层¶

核心功能: 建立质量反馈机制。

关键组件:

输出验证与验收。
自动化测试系统。
日志与指标监控。
错误回溯分析。

价值: 避免Agent“自我感觉良好”的认知偏差。

3.6 约束校验与恢复层¶

核心功能: 保障系统鲁棒性。

关键机制:

约束机制: 明确能力边界(能做什么/不能做什么)。
校验机制: 输出前后的检查流程。
恢复机制: 失败后的重试、回滚策略。

4.一线公司实践案例¶

4.1 Anthropic的自主编码系统¶

核心问题: 长任务上下文过载。

解决方案: Context Reset(上下文重置)。
类比: 内存泄漏后重启进程而非清理缓存。

核心问题: 自评失真。

解决方案: 角色分离架构：Planner(规划者): 需求转换器；Generator(生成器): 逐步实现；Evaluator(评估者): 环境化测试(真实操作验证)。

4.2 OpenAI的Agent开发实践¶

工程师角色转变: 从写代码→设计环境。

关键策略:

渐进式部署: 将巨型文档拆分为目录+子文档，按需加载。
环境化验证: Agent接测逻辑(截图/操作)+日志系统+隔离环境。
自动治理系统: 将资源工程师经验编码为可执行规则(含修复方案)。

4.3 关键策略¶

约束机制: 明确能力边界(能做什么/不能做什么)。
校验机制: 输出前后的检查流程。
恢复机制: 失败后的重试、回滚策略。

5.关键洞察¶

能力边界: Prompt解决“说清楚”，Context解决“信息对”，Harness解决“持续做对”。
包含关系: Harness包含前两者，是更大系统边界的工程化。
落地关键: 模型决定上限，Harness决定能否稳定落地。
发展趋势: AI落地挑战正从“让模型聪明”转向“让模型稳定工作”。

6.Reference¶

最近爆火的 Harness Engineering 到底是啥？一期讲透！

《最近爆火的 Harness Engineering 到底是啥？一期讲透！》字幕

过去两年呢，AI工程其实经历了三次很明显的中心迁移：从prompt engineering、上下文工程，再到最近的harness engineering。表面上看好像只是换了几个新的名词，但如果你只是把它理解成术语流行式，那就完全低估它们了。

那这三个词呢，分别对应了现在AI系统发展的三个阶段性问题：模型有没有听懂你在说什么，模型有没有拿到足够而且正确的信息，模型在真实的执行力能不能持续的做对。你会发现这些问题呢，是一层一层往外扩张的。

在大模型刚火起来的时候呢，大家最直观的感受就是：同一个模型，你换一种说法，结果可能差很多。比如你说一句「帮我总结一下这篇文章」，他可能只会给你一个很平的总结；但如果你换一种说法，效果马上就会不一样。所以那个阶段呢，大家都相信一件事情：模型不是不会，而是你没有把问题说明白。于是大家开始疯狂的研究提示词：什么角色设定、风格约束、few-shot的示例分布、引导输出格式，等等等等。

那为什么这些东西有效呢？因为大模型本质上是一个对上下文非常敏感的概率生成系统：你给他什么身份，他很容易沿着那个身份去回答；你给他什么样的样例，他很容易沿着那个范式去补全；你强调什么样的约束，它就很容易把那部分当成重点。所以提示词工程的本质不是命令模型，而是塑造一个局部的概率空间。那这个阶段的最重要的能力不是系统的设计，而是语言的设计。

但提示词工程很快就遇到了天花板。因为很多任务不是你说清楚就行，而是你真的得知道——比如你让模型分析一份公司的内部文档，回答一个产品的最新配置，按照一套非常长的规范去写代码，在多个工具之间完成复杂的任务。这个时候你会发现，提示词写得再漂亮，也替代不了事实本身。所以呢，提示词擅长的是长期任务约束输出、激发模型的已有能力，但是他不擅长凭空弥补缺失的知识、管理大量动态的信息、处理长链路任务里的状态。说白了，提示词解决的是表达的问题，不是信息的问题。于是第二阶段开始了。当大家还只是做聊天机器人的时候呢，提示词的作用很大，因为任务短、链路短、状态少，很多问题确实靠把话说明白就可以解决了。但后来agent开始火了，模型不只是要回答问题，而是要进到真实的环境里面做事情：他要多轮对话，调浏览器，写代码，数据库这些工具，还要在多个步骤之间传递中间结果，还要根据外部的反馈不断修订计划。

那这个时候问题就变了：系统面对的已经不是一次回答对不对，而是整条链路的任务能不能跑通。比如如果你不是简单的问一句「帮我总结一下这篇文章」，而是让他做一个更真实的任务啊——比如说，帮我分析这份需求文档，找出潜在风险，结合历史的评审意见给出改进建议，再生成一版发给产品经理的反馈稿——你会发现，这已经完全不是一句提示词就能解决的问题了。他至少要拿到当前的需求文档、历史的评审记录、相关规范、当前目标、已经分析出来中间结论、输出的对象是谁、语气应该怎么调，等等等等。

所以context engineering的核心就变成一句话：模型未必是知道的，系统必须在合适的时机把正确的信息送进去。那这里的context呢，也不只是几段背景的资料；在工程的意义上，它代表了所有影响模型当前决策的信息的总和，包括用户的输入、历史对话、检索结果、工具返回、当当前任务的状态、中间产物、系统规则、安全约束，或者其他agent的传过来的结构化的结果。所以你会看到，prompt其实只是context的一部分；也正因为如此呢，推到上下文的供给机制是非常重要的。

那说到context engineering呢，我觉得RAG也算是一个比较典型的实践。RAG的价值是很直接的：模型参数里面没有知识，怎么在运行时补进去呢？那做法大家都知道：先检索，再把相关的内容塞到上下文。

但是真正成熟的context engineering呢，关注的肯定不只是检索啊，他关注的是整条完整的链路：比如文档怎么切块，结果怎么排序，长文怎么压缩，历史对话什么时候要保留、什么时候要摘要，工具返回要不要全部暴露给模型，多个A证的之间到底传原文摘要还是结构化的字段呢，包括最近很火的agent skills——我觉得本质上也是上下文工程的高级实践。因为它解决了一个特别现实的问题：如果你把十几个不同的工具、工具的说明、所有的参数定义全部一上来就塞个模型，理论上模型会知道的更多，但是实践往往会更糟糕。

为什么呢？因为上下文的窗口是非常稀缺的资源，信息一多，注意力就会涣散。所以skill采用的是一个非常典型的思路，叫渐进式披露：不是一开始就把能力全部给模型看，而是只给他看最少量的原信息；等他真正的要触发某些能力的时候，再把那部分的SOP、详细的参考信息、脚本动态的加载进来。

那这个思路呢，其实非常重要，因为它告诉我们：上下文的优化不只是给的更多，而是按需给、分层给、在正确的实际给。

但是上下文工程其实也不只是终点，因为后来大家又发现了一个更麻烦的问题：就算信息给对了，模型也不一定能稳定的执行的正确。它可能计划做的很好，但是执行跑偏了、掉了工具、但理解错了，返回结果在一个很长的链路里已经慢慢偏航了，但是系统却没有发现。哎，这个时候我们发现啊，提示词和上下文其实主要的解决都在输入词的问题——提示词优化意图的表达，上下文优化的是信息的供给。但是复杂的任务里还有一个更难的问题：当模型开始连续行动的时候，谁来监督它、约束它和纠偏它呢？这个时候第三阶段来了。harness这个词呢，原本的意思是缰绳、马具、约束装置的意思；放到AI系统里面，其实就是在提醒我们一件非常朴素的事情：当模型做从回答问题走向执行任务，系统不只要能够负责信息，还要能够驾驭整个过程。这个就是harness engineering的出发点。

如果前两代工程关注的是怎么让模型更会想，那harness更关注的就是怎么让模型别跑偏、跑得稳、出了错还能拉回来。

这里呢啊，我用一个比较通俗的例子啊，来解释这三个概念。假设你要派一个新人去完成一次很重要的客户拜访的工作：prompt engineering呢，就是你要告诉他先把任务讲清楚——比如见面先寒暄，再介绍方案，讲完需求，最后确认下一步啊——这个就是prompt，重点是把话说明白。那context engineering是啥呢？你要告诉他把资料要准备齐全啊，比如说这个客户的背景、过往的沟通记录、产品的报价、竞品的情况啊、这次会议的目标，这些都是context，重点是把信息要给对。那如果这个会真的很重要啊，你还会继续做很多事情啊，比如说让他带着checklist去，让他在关键的节点实时汇报，汇后核实纪要和录音啊，如果发现偏差马上纠正，最后按照明确的标准去验收结果。这些啊，就是harness，重点已经不是说清楚和资料齐不齐了，而是有没有一套持续观测、持续纠偏、最终验收结果的机制。

所以呢，这三者啊也不是替代的关系，而是包含的关系：prompt是对指令的工程化，context是对输入环境的工程化，harness呢就是对整个运行系统的工程化。它们的边界是一层比一层大的。

LangChain的工程师呢，给harness下了一个很典型的定义：agent等于model加harness；那harness呢，就等于agent减model。翻译成人话呢，就是在一个Agent的系统里面，除了模型本身以外，几乎所有能决定它能不能稳定交付的东西，都可以算进harness。

那如果拆开来看呢，我自己会把一个成熟的harness engineering分成六层。

第一层啊，就是我们重新站在harness的视角去看context。模型能不能稳定发挥，很多时候不仅取决于他聪不聪明，而取决于他看到了什么。所以harness的第一职责，就是让模型能够在正确的信息边界内思考。第一层通常包括三件事情：首先啊，角色的目标和定义——模型要知道自己是谁、任务是什么、成功的标准是什么；第二，信息的裁剪和选择——上下文不是越多越好，而是越相关越好；第三啊，结构化的组织——固定的规则放在哪，当前的任务放在哪儿，任务运行的状态放在哪儿，外部的证据又放在哪儿，最好分层清除。因为信息一旦乱掉呢，模型就很容易漏重点、忘约束，甚至自我污染。

第二层，工具系统。没有工具，大模型本质上还是一个文本预测器：会解释，会总结，但他接触不到真实的世界。一旦连上工具呢，模型才可以真正的做事，比如搜网页、读文档、写代码、调API，等等等等。但是harness在这里做的，不是简单的把工具挂上去，而是啊也要解决三个问题：第一，给他什么工具——工具太少能力不够，工具太多模型又会乱用；第二，什么时候该调用工具——本来不需要查的时候别乱查，该查账的时候也别硬答；第三，工具结果怎么重新喂回模型——搜索过来的几十条结果，不应该原封不动的塞回去，而是要提炼、筛选，保持和任务的相关性。

第三层，执行编排。那这一层解决的核心问题呢，就是模型下一步该做什么。很多agent的问题呢，不是某一步不会，而是不会把所有的步骤给串起来：它会搜索，也会总结，也会写代码，但整个过程想到哪做到哪儿，最后交付出来一堆半成品。所以一个完整的任务呢，通常需要有这样的轨道：首先理解目标，然后判断信息够不够——不够继续补，基于结果继续分析，然后生成输出，检查输出——不满足要求就重新修正，或者从事。这个时候你会发现，这已经非常接近人在工作了；区别在于人靠经验，代理人靠harness这套环境。

第四层，记忆和状态。那没有状态的agent呢，每一轮都会像失忆一样：他不知道自己刚做了啥，也不知道哪些结论已经确认了、哪些问题还没解决。所以harness还必须要管理状态。这里呢，我们要至少让它分清三类东西：首先，当前任务的状态；会话中的中间结果；长期的记忆和用户偏好。这三类呢，如果混在一起，系统会越来越乱；看清楚之后呢，agent的才会像一个稳定的写作者。

第五层，评估和观测啊。这个呀，就是很多团队啊最容易忽视的一层：很多系统其实不是生成不出来，而是生成完了之后根本不知道自己做的好不好。那如果没有独立的评估和观测的能力，agent就会长期停留在自我感觉良好的状态。这一层呢，通常包括输出和验收、环境的验证、自动的测试、日志和指标、错误的归因，等等等等。也就是说呢，系统不仅是要会做，还要知道自己有没有真的能够做对。

第六层，约束、校验、失败和恢复。那最后一层呢，往往才是真正决定这个系统能不能上线的关键环节。因为在真实的环境里面，失败不是例外，而是常态：可能搜索不准，可能是API超时，也可能文档格式混乱，或者模型误解了任务。那如果没有恢复的机制呢，agent每次出错就只能从头再来。所以一个成熟的harness，一定要包括三件事情：约束啊——哪些能做、哪些不能做；校验啊——比如输出之前、输出之后要怎么检查；恢复——失败之后怎么从事、切入镜、回滚到稳定的状态。

转过来呢，我们来看最有参考价值的部分啊：一线公司的真实实践。因为harness这个词最近之所以突然火起来呢，不是大家在空谈这个方法论，而是很多公司都已经把它做进了产品和工程体系里面了啊。比如LangChain在底层模型完全不变的情况下，只通过改造和迭代安全带，就把他自家的智能体验从一个榜单上的排名直接从30开外杀到了前五。OpenAI呢，依靠一个只有几名人类工程师的团队，用agent从零构建了一个超百万行代码的生产及应用，百分之百的代码都是由agent编写的，耗时呢只有纯人工开发的1/10。那Anthropic呢，也构建了一个可以完全自主编码的系统：只凭一句自然语言的需求，就能在无需人类干预的情况下连续运行几个小时，最后做出完整的游戏、完整的数字音频工作站。

那我们先看看Anthropic的实践啊。首先啊，他们在长城自主的任务上总结了两个特别典型的问题。那第一个问题啊，我自己把它翻译成上下文交易，时间一长，上下文越来越满，模型就是模型就开始丢细节、丢重点；甚至呢还会出现一种很有意思的现象——他好像知道自己快装不下了，于是开始着急的去收尾。很多系统面对这种问题呢，都会做context complication，也就是啊把前面的历史上下文压缩一下再继续跑。但Anthropic发现呢，对于一些模型来说，这还是不够的，因为压缩只是变短了，不代表那种负担感真的消失了。所以他们做了一件更激进的事情，叫context reset：不是在原上下文里面继续压，而是换了一个非常干净的新的agent，把工作交接给他。那这个思路很像什么呢？特别像工程里面遇到内存泄漏之后，不是继续清缓存，而是直接重启整个进程再恢复状态。这个其实就是一种非常典型的harness设计。

那Anthropic解决的第二个问题呢，就是自评失真的问题。首先模型自己干活啊，再让他自己给自己打分，往往会是会偏乐观的；那尤其是在设计体验、产品完整度这一类没有标准答案的问题上，偏差是更明显的。所以他们采用了一个非常关键的思路啊：把干活的人和验收的人分开。他们是这样拆分的啊：planner负责把模糊的需求扩展成完整的规格，generator负责逐步的去实现，那evaluator呢负责像QA一样去真实的测试。更关键的是，这个evaluator他不只是会看代码，而是会真实的操作页面、看具体的交互、检查实际的结果。也就是说啊，这不是一个抽象的审查，它是一个带具体环境的验证。那这个事情非常重要啊，因为它背后是一个很明确的工程原则：生产验收必须分离。只要评估者足够独立，系统就能形成一个真正的有效循环——生成、检查、修复、再检查的这样的一个循环。

那OpenAI呢，在这方面给我的感觉是，他们重新定义了工程师在agent的时代的工作。他们做了一个非常有意思的思路啊：人类在这个环境里面不需要写一行的代码，人类只需要去负责设计环境。具体来说呢，工程师的工作变成了三件事情：首先，把产品目标拆解成agent能理解的小任务；那agent失败的时候呢，不是让他更努力一点，而是问环境里面缺了什么能力；最后，建立反馈的链路，让agent真正的能够看到自己的工作结果。那这句话我是非常认同的：当agent的出了问题的时候，修复方案几乎从来不是要更努力一点，而是确定他缺了什么样的结构性的能力。这个其实也是典型的harness思维。

OpenAI还有一个特别典型的事件啊，也是渐进式披露。他们早期呢犯过一个很多团队都会犯的错误：写了一个巨大的agent.md，把所有的规范、框架、约定全部塞进去了。结果呢，agent的更糊涂了，因为上下文窗口是一个稀缺的资源，塞的太满，其实等于什么都没说。那后来他们怎么改的呢？把agent.md变成一个目录页啊：页面只保留核心的索引，更详细的内容呢查到架构文档、设计文档、执行计划、质量评分、安全规则这些具体到子文档里面去了。那agent的先看目录，需要的时候再钻进去。那这个时候我们会发现啊，这个和我们前面说的skills本质上是一个思路：不是一次性全给，而是按需暴露。还有个实践啊，就是OpenAI不只是让agent的写代码，还会让agent呢看见整个应用。因为产业速度一旦上来呢，瓶颈其实就不再是血而是验了；那人类呢，根本是验不过来的，所以他们让agent自己去验。怎么验呢？首先接浏览器能截图，点页面能模拟用户的真实操作；然后去给agent接日志系统和指标系统，让他能够查log、查监控；最后每个任务都独立隔离的环境在跑，互不影响。结果呢，就是agent不再是写完代码就说是写完了，而是真正的可以跑起来看结果，发现bug、修bug、再验证。这个呢，其实就是harness里非常完整的一套攻击系统：执行编排、评估和观测、约束和恢复。

那还有一点需要注意的是呢，OpenAI不止会靠人类在最后的code review环节去兜底质量，因为agent的提交速度太快了，人类是盯不过来的。所以他们把很多资深工程师的经验直接写成了系统规则：比如模块怎么分层，哪一层不能依赖哪一层，什么情况下必须拦截，发现问题之后应该怎么修。重点呢，是这些规则不只是负责报错，而是会把怎么修也一起反馈给agent的，进入下一轮的上下文。那你会发现呢，这已经不是传统意义上的代码规范了，而是一套可持续运行的自动治理系统。这个呢，也是harness的典型形态啊。

最后呢，我们说一下啊。首先，prompt engineering呢，解决的是怎么把任务讲清楚；context engineering呢，解决的是怎么把信息都给对；那harness engineering呢，解决的是怎么让模型在真实的执行中持续作对。所以harness不是在取代prompt，也不是在取代context，它是在更大的系统边界上把前两者都包含进来。当任务还是简单的单轮生成的时候，prompt是很重要的；那当任务开始依赖外部知识、去运行信息的时候呢，context就很关键了；当模型真的进入了长链路、可执行、低容错的真实场景里面，harness几乎就是不可避免的。这也是为什么同样的模型在不同的产品里面表现差距会这么大：因为真正决定上限的可能是模型，但是真正决定能不能落地、能不能稳定交付的就是harness。

那到了这个阶段呢，我们也看清了一个现实：AI落地的核心挑战，正在从让模型看起来更聪明，转向让模型在真实世界里稳定的工作。如果你最近也在做agent，我觉得这件事情非常值得你趁早想明白。

Overview

Fri, 24 Apr 2026 13:22:08 +0000

AI Time¶

约 375 个字预计阅读时间 1 分钟

如果说从2000年开始互联网领域开始爆发，那么从2022年开始就是AI大模型领域的爆发，约莫20年的变革足以改变行业内的版图。计算机科学的历史其实并不长，但是发展的速度越来越快。早期从机器学习到深度学习，训练方式还处于数据集的特征处理和信息抽取，未能发现隐藏机制和深层信息，自然语言处理还在传统的word2vec，计算机视觉还是ImageNet的天下，2017年的一篇《Attention is All You Need》轰动全球，OpenAI推出的GPT系列更是改变了传统计算机与软件工程的发展方向。如今从以年为单位工程迭代（Prompt Engineering -> Context Engineering -> Harness Engineering），到以月为单位的模型迭代（26年一季度各家公司已经推出若干旗舰模型），到以周为单位的产品迭代（产品设计方案和产品原型层出不穷，个人智能体兴起，AGI加速演进），不少人直言“只要学的慢什么都不用学”。

AI时代到底学什么？怎么学？我正在逐步探索这个问题。入门必须要看llm-course！这个板块包含AI模型基座到AI应用，是我的AI知识库。所有文章内容除个人思考总结、各种渠道摘录外，还包括AI工具生成内容，请仔细甄别。

Agent Development Problem

Fri, 24 Apr 2026 13:22:08 +0000

Agent开发问题¶

约 1296 个字预计阅读时间 4 分钟

1.调通API¶

你可以安装SDK写几行代码，把用户输入丢给大模型，拿到返回结果。如果是OpenAI的API，直接使用Cursor等工具，用自然语言描述需求，就能把脚手架搭好，然后你可以自定义几个tool，把JSON schema写好，模型就能调用了。

2.接真实API¶

Demo里用的是mock数据，现在得接真实数据了。

第一个问题是OAuth。

然后是API的各种边界情况。

API的速率限制也是个问题。如果你的Agent在一个复杂任务里连续调用十几次，很容易触发429（too many requests）。

接入API只是tool call的一般，tool本身怎么设计，tool schema和tool call result怎么写，这个问题不是那么容易的。Berkeley的Function-Calling测试发现，模型面对的工具数量越多、参数越复杂，调用准确率下降得越厉害。tool的粒度太细用户需求cover不住，太粗模型又hold不住，这个平衡点没有标准答案，只能在具体场景中反复测试。

tool的description也很关键，或者说是最为关键的，这是给模型调用工具的说明书。

生产级Agent系统中AI只完成了30%的工作，剩余70%是工具工程。

3.多步骤任务¶

当面对一个多步骤的复杂任务时，Agent可能会有灾难式的表现。

Berkeley的Function-Calling排行榜显示，最好的模型工具调用准确率也只有77.5%。这意味着每4次调用就有近1次出错。一个五步任务全部正确的概率？大概是0.775的5次方，不到28%。你的Agent有超过70%的概率在某一步翻车。

更麻烦的是Galileo的研究发现的问题：早期的一个小错误会在后续步骤中不断放大。假设第一步查日历时模型解析时间格式出了个小bug，把周二理解成了周三，后面所有步骤都在错误的基础上继续。它会在一个不对的时间段创建会议，发给所有人一封时间错误的邮件通知。一个小幻觉触发了一连串错误操作。

这时候你开始意识到，你需要在每一步之间加校验逻辑、加回滚机制、加确认环节。而这些东西，没有任何一个LLM的API文档会教你

4.成本问题¶

对于简单请求，我们的想法是用简单模型，而对于复杂任务，应该用高级模型。不同的任务用不同的底座模型，这个思路很自然，但实现起来是一个很大的工程挑战。

你需要一套任务路由机制：先判断用户意图的复杂度，简单查询走便宜的小模型，复杂的多步骤推理才走大模型。但是这个复杂度谁来判断？又如何判断？

而且不同模型的tool call能力不同，tool schema也不适配，每换一个模型，之前精心调试的prompt和tool description可能都得重新调整。

5.上下文管理¶

为了解决Agent遗忘的问题你需要进行上下文工程，说白了就是LLM版的“内存管理”：你得动态决定每一步推理时模型能“看到”什么、该“忘掉”什么。

还有一个坑：研究发现上下文长度和幻觉率正相关。

6.测试¶

OK，现在Agent勉强能用了，那么如何确定它的效果呢？

传统软件开发有成熟的测试方法论：单元测试、集成测试、端到端测试，输入是确定的，预期输出也是确定的。但Agent的输入空间是开放的（用户可以说任何话），输出也是不确定的（模型每次生成的文本都不同）。LangChain的博客一针见血："每一个输入都是边界情况"，这是传统软件从未面对过的挑战。

而且实验室测试和生产环境之间可能差距甚大。

7.多Agent¶

多Agent之间如何沟通？如何分工？这些问题可不是那么简单。多Agent并不一定优于单Agent。

8.瓶颈¶

底层大模型是Agent能力的瓶颈，当上述步骤都解决后，Agent的上限来自于底层大模型的能力。

9.框架选择¶

框架只是工具，不是必需，Langchain，CrewAI等常常使底层prompt和响应变得不透明，增加调试难度。重点在于前面的工程思路。

10.总结¶

Agent与Agent之间的巨大差距，根源不在谁调的接口不同，而在接口之外的工程做得天差地别。调接口是入门门槛，一周就能跨过去。但从Demo到产品，中间隔着的是一整套关于可靠性、可观测性、上下文管理和错误恢复的系统工程。这才是Agent开发真正难的地方。

11.Reference¶

agent与agent之间的差距很大，但agent开发不就是调接口吗？agent开发的难点是什么呢？

Agent Framework

Fri, 24 Apr 2026 13:22:08 +0000

Agent框架¶

约 1423 个字预计阅读时间 4 分钟

随着大语言模型(LLM)的快速发展，Agent框架成为构建智能应用的核心工具。这些框架提供了从简单的单Agent系统到复杂的多Agent协作的完整解决方案。

1.概述¶

Agent框架是用于构建能够自主感知、推理和执行任务的AI系统的工具集。它们通常提供以下核心能力：

工具调用：连接外部API、数据库和工具
记忆管理：维护对话历史和长期记忆
规划能力：将复杂任务分解为可执行的步骤
多Agent协作：多个Agent协同完成复杂任务
状态管理：跟踪Agent的执行状态

2.分类¶

2.1 多Agent系统¶

多Agent系统又可分为垂直型的（Supervisor的），水平型的（去中心的），混合型的。

2.2 规划型¶

Plan-and-Execute最常见，先拆子任务，做完了拿结果回来给规划器，规划器看情况调整计划。

2.3 反思型¶

Reflexion会让Agent明确地批评自己之前的输出，然后重新生成更好的版本，也就是用时间换质量。ToT把问题展开成一棵树，每个节点都是一种可能的思路，扩展、评分、修剪，反复搜索最优解。

3.LangChain¶

概述：LangChain是最早的LLM应用开发框架之一，提供了构建Agent的完整工具链。

核心特性：

模块化设计，可组合各种组件（chains、agents、memory）
丰富的预构建工具集成
支持多种LLM提供商
LangSmith用于调试和监控

适用场景：

快速原型开发
需要丰富工具集成的场景
学习Agent概念

官方资源：

文档：https://python.langchain.com/
GitHub：https://github.com/langchain-ai/langchain

4.LlamaIndex¶

概述：专注于数据连接的Agent框架，擅长构建RAG（检索增强生成）应用。

核心特性：

强大的数据索引和检索能力
支持多种数据源（文档、API、数据库）
LlamaParse用于解析复杂文档
AgentFS提供安全的文件系统访问
Workflows支持构建上下文感知Agent

适用场景：

需要连接私有数据的企业应用
知识库问答系统
文档分析和处理

官方资源：

文档：https://docs.llamaindex.ai/
GitHub：https://github.com/run-llama/llama_index

5.LangGraph¶

概述：LangChain团队推出的图形化Agent编排框架，通过状态图定义Agent行为。

核心特性：

基于图的控制流
循环和条件分支支持
状态管理和持久化
与LangChain生态系统无缝集成
可视化Agent执行流程

适用场景：

需要复杂控制流的Agent
状态机类型的应用
需要可视化和调试的场景

官方资源：

文档：https://langchain-ai.github.io/langgraph/
GitHub：https://github.com/langchain-ai/langgraph

6.CrewAI¶

概述：专注于角色扮演的多Agent协作框架，模拟真实团队工作方式。

核心特性：

基于角色的Agent定义
任务分配和协作机制
自动化工作流设计
支持人工干预
直观的团队配置

适用场景：

模拟团队协作流程
复杂业务流程自动化
需要明确分工的多Agent系统

官方资源：

文档：https://docs.crewai.com/
GitHub：https://github.com/crewAIInc/crewAI

7.HayStack¶

概述：deepset开发的企业级AI编排框架，专注于生产环境部署。

核心特性：

端到端AI应用开发
高级索引和检索
多Agent模式支持
企业级测试和评估
可扩展的模块化架构

适用场景：

企业级生产环境
需要高可靠性和可扩展性
复杂的检索和问答系统

官方资源：

文档：https://docs.haystack.deepset.ai/
GitHub：https://github.com/deepset-ai/haystack

8.AutoGen¶

概述：微软开发的multi-agent框架，专注于Agent间的对话和协作。

核心特性：

对话式Agent交互
可定制的Agent行为
支持人类参与
代码执行能力
与Azure深度集成

适用场景：

需要Agent间对话协作
微软技术栈环境
代码生成和执行场景

官方资源：

文档：https://microsoft.github.io/autogen/
GitHub：https://github.com/microsoft/autogen

9.AutoGPT¶

概述：开创性的自主Agent框架，能够自主完成复杂任务。

核心特性：

完全自主的任务执行
自动规划和分解
内存管理
文件操作能力
Web浏览和交互

适用场景：

自主任务执行
概念验证项目
学习自主Agent原理

官方资源：

文档：https://docs.agpt.co/
GitHub：https://github.com/Significant-Gravitas/AutoGPT

10.MetaGPT¶

概述：模拟完整软件团队的多Agent框架，能够从需求生成完整代码。

核心特性：

模拟完整软件团队（PM、架构师、工程师等）
标准化操作流程(SOP)
自动生成PRD、架构设计、代码
约5轮对话完成软件开发
高质量代码输出

适用场景：

软件开发自动化
从需求到代码的全流程
模拟真实开发团队

官方资源：

文档：https://github.com/FoundationAgents/MetaGPT
GitHub：https://github.com/FoundationAgents/MetaGPT

11.框架对比¶

框架	语言	多Agent	主要特点	学习曲线
LangChain	Python/JS	✓	生态最丰富，组件齐全	中等
LlamaIndex	Python/TS	✓	数据连接最强	中等
LangGraph	Python/JS	✓	图形化编排	较高
CrewAI	Python	✓✓	角色协作	较低
HayStack	Python	✓✓	企业级	较高
AutoGen	Python	✓✓	对话式协作	中等
AutoGPT	Python	-	完全自主	中等
MetaGPT	Python	✓✓	软件开发团队	较高

12.选择建议¶

入门学习：LangChain、CrewAI

企业生产：HayStack、LangGraph

数据密集：LlamaIndex

多Agent协作：CrewAI、AutoGen、MetaGPT

快速原型：LangChain、AutoGPT

13.参考资料¶

LangChain

Fri, 24 Apr 2026 13:22:08 +0000

LangChain¶

约 638 个字 1 张图片预计阅读时间 2 分钟

1.LangChain 和 LangGraph¶

作为 LangChain 生态中两款核心开发工具，LangChain 与 LangGraph 均由同一团队打造，旨在解决大语言模型（LLM）集成与协同问题，但二者在工作流设计理念上存在本质区别，常被开发者混淆。从命名即可直观感知其核心差异：

LangChain（链式架构）：采用静态线性工作流，任务执行严格遵循预先定义的步骤顺序，如同流水线作业，每个环节仅接收上一环节的输出，无法根据中间结果调整路径。
LangGraph（图式架构）：基于动态分支工作流，以有向图为核心结构，允许在每个节点根据任务状态（如推理结果、工具反馈）进行决策，灵活选择后续分支，支持循环、并行、回溯等复杂逻辑。

1.1 场景区别¶

两者的定位差异决定了适用场景的分野，且并非互斥关系，而是可形成“基础组件+高级编排”的协同模式：

LangChain：聚焦于提供标准化组件（如 LLM 调用接口、工具集成模块）与 LCEL（LangChain Expression Language）链式编程语法，适合简单一次性任务（如单轮问答、文档摘要、固定流程的数据处理），能快速搭建轻量化 LLM 应用。
LangGraph：作为构建有状态智能体（Agent）系统的高级框架，擅长处理多步骤动态任务（如复杂问题拆解、多智能体协作、需要人工介入的审批流程），其核心优势在于对“状态连续性”的支持。

1.2 复杂Agent场景选择LangGraph¶

对“状态”的天然支持：Agent的核心在于在“思考-行动-观察”的循环中保持上下文和记忆。LangGraph的全局State机制（例如存储对话历史、中间步骤、工具结果）为此提供了内置、统一的管理方案，避免了传统开发中状态分散的难题。
轻松处理复杂控制流：真实的Agent任务充满不确定性，可能需要根据结果循环重试、条件分支或并行执行。LangGraph的条件边（Conditional Edge）和循环图结构让这些复杂逻辑变得直观和易于实现。
内置生产级特性：LangGraph设计之初就考虑了生产部署，原生支持状态持久化（检查点）、人工干预节点和可视化调试等，这些都是构建可靠Agent系统不可或缺的功能。

2.Langsmith¶

3.Langfuse¶

MCP

Fri, 24 Apr 2026 13:22:08 +0000

MCP¶

约 1185 个字 3 张图片预计阅读时间 4 分钟

1.什么是MCP¶

MCP(Model Context Protocol，模型上下文协议)定义了应用程序和AI模型之间交换上下文信息的方式。这使得开发者能够以一致的方式将各种数据源、工具和功能连接到AI模型，就像USB-C让不同设备能够通过相同的接口连接一样。MCP的目标是创建一个通用标准，使AI应用程序的开发和集成变得更加简单和统一。

可以看出，MCP就是以更标准的方式让LLM Chat使用不同工具，Anthropic旨在实现LLM Tool Call的标准。

2.为什么是MCP¶

手工prompt的局限性：许多LLM平台（如OpenAI、Google）引入了function call功能，这一机制允许模型在需要时调用预定义的函数来获取数据或执行操作，显著提升了自动化水平。
function call的局限性：其平台依赖性强，不同LLM平台的function call API实现差异较大。开发者在切换模型时需要重写代码，增加了适配成本，还有安全性，交互性等问题。
痛点所在：数据和工具本身是客观存在的，我们希望将数据连接到模型的这个环节可以更智能更统一。

MCP的优势：

生态：MCP提供很多现成的插件
统一性：不限制于特点的AI模型，任何支持MCP的模型都可以灵活切换
数据安全：敏感数据保留本地不必上传

3.MCP Architecture¶

MCP由三个核心组件构成：Host、Client和Server。

假设你正在使用 Claude Desktop (Host) 询问："我桌面上有哪些文档？"

Host：Claude Desktop 作为 Host，负责接收你的提问并与 Claude 模型交互。
Client：当 Claude 模型决定需要访问你的文件系统时，Host 中内置的 MCP Client 会被激活。这个 Client 负责与适当的 MCP Server 建立连接。
Server：在这个例子中，文件系统 MCP Server 会被调用。它负责执行实际的文件扫描操作，访问你的桌面目录，并返回找到的文档列表。

整个流程是这样的：你的问题 → Claude Desktop(Host) → Claude 模型 → 需要文件信息 → MCP Client 连接 → 文件系统 MCP Server → 执行操作 → 返回结果 → Claude 生成回答 → 显示在 Claude Desktop 上。

这种架构设计使得 Claude 可以在不同场景下灵活调用各种工具和数据源，而开发者只需专注于开发对应的 MCP Server，无需关心 Host 和 Client 的实现细节。

4.原理：模型如何确定工具的选用¶

Anthropic的解释：

当用户提出一个问题时：

客户端（Claude Desktop / Cursor）将你的问题发送给 Claude。
Claude 分析可用的工具，并决定使用哪一个（或多个）。
客户端通过 MCP Server 执行所选的工具。
工具的执行结果被送回给 Claude。
Claude 结合执行结果构造最终的 prompt 并生成自然语言的回应。
回应最终展示给用户！

这个调用过程可以分为两步：

由LLM确定使用哪些MCP Server
执行对应的MCP Server并对执行结果进行重新处理

模型是通过prompt，即提供所有工具的结构化描述和few-shot的example来确定该使用哪些工具。

5.一些观点¶

function call中，每个工具接口的调用方式不一样，固然可以让LLM读取接口文档调用，但是还是很麻烦。MCP就是让所有的工具接口都用同一个方式调用，相当于用MCP协议包装了一层。这样，LLM就不需要每调用一个接口就要学习一次接口文档了。
MCP的能力核心在于 Claude 的function call能力。如果你的tools是上百个的，那么上下文就会超，而且部分大模型在如此多的tools选择和parameter列表生成中一定会有鲁棒性差的问题，所以当你tools上百个时不适合用MCP，或者不该直接使用MCP一次性对全部tools进行选择（可以像N叉树那样，将一次分类转移成多层级多次的分类，减小每次分类的选择空间）；而当你的tools只有十几个的时候，其实压根不用这么复杂——你大可以自己实现一下OpenAI或某个大模型API的function call代码，然后自己开一个tools.py文件，将所有tools按顺序描述好。

6.如何使用¶

For Claude Desktop Users

Anthropic 最新博客：MCP 没死，它又来了

Building agents that reach production systems with MCP

7.Reference¶

Introducing the Model Context Protocol

MCP (Model Context Protocol)，一篇就够了

Sandbox

Fri, 24 Apr 2026 13:22:08 +0000

Sandbox¶

约 3135 个字 1 张图片预计阅读时间 10 分钟

1.什么是Sandbox¶

1.1 守夜人的诞生——传统安全沙箱时代¶

1990年代的网络安全战场，彼时计算机病毒和恶意软件层出不穷，安全研究问题面临的问题是如何安全地分析这些病毒。Sandbox概念应运而生——创建一个隔离的环境，让恶意代码在其中“表演”，研究人员则在安全距离外观察。代表作：Cuckoo Sandbox。

2000年代初，虚拟化诞生。VMware等虚拟化技术让一台物理机器可以运行多个隔离的OS，这为沙箱技术提供了更强大的隔离能力，但是缺点是太重了，需要消耗大量内存和CPU资源。

2013年，Docker诞生，它的出发点是解决“在我的机器上能跑”的问题，但它带来的革命性变化是——让隔离环境变得轻量、快速、标准化。

1.2 云端的编程革命——云端代码执行环境时代¶

2010年代末，在线协作开发兴起。

2017年，CodeSandbox诞生，其最初只是一个简单的在线代码编辑器，但它很快演化为一个完整的云端开发环境。开发者只需要打开浏览器，就能获得一个功能完整的IDE。

2014年，亚马逊发布了AWS Lambda，开启了Serverless时代。Lambda的理念是：开发者只需要上传代码，无需关心服务器、OS、运行时环境。AWS会自动处理代码的执行、扩缩容、容错等问题。

2018年，AWS开源了Firecracker，这是一个专为无服务器计算涉及的微虚拟机监控器（MicroVM Hypervisor）。Firecracker 的设计哲学是：结合虚拟机的强隔离性和容器的轻量化优势。它实现了：

毫秒级启动：比传统虚拟机快 1000 倍
强隔离性：比容器更安全的硬件级隔离
高密度部署：单机可运行数千个 MicroVM
极小攻击面：只包含必要的组件

Firecracker 为后来的 Agent Sandbox 技术奠定了关键的技术基础。

1.3 AI觉醒与新挑战——AI Agent定制沙箱时代¶

2023年7月，OpenAI发布了Code Interpreter(后改名为Advanced Data Analysis)。这正是Agent Sandbox的雏形——一个自动化Agent可以“动手”写代码、运行任务、产出结果，但所有操作都发生在一个“受限、可控”的沙箱环境中。

但Code Interpreter 的成功也暴露了一个严峻的问题：AI生成的代码本质上是不可信的。不同于传统软件开发中程序员编写的代码，AI 生成的代码具有以下特点：

不可预测性：基于概率模型，输出具有随机性
易受注入攻击：恶意用户可能通过提示注入让 AI 生成恶意代码
权限边界模糊：AI 可能不理解某些操作的安全后果
极快的启动速度：支持交互式对话
丰富的运行时环境：Python、数据科学库等
状态管理：支持多轮对话的上下文
细粒度的权限控制：精确限制可执行的操作

正是在这样的背景下，E2B诞生。

E2B的核心理念是：将复杂的沙箱技术封装成简单的API。

E2B 的成功激发了整个生态的发展。2023 年 10 月，E2B 宣布集成到 LangChain 框架，这标志着 Agent Sandbox 开始从单一产品演进为生态基础设施。

在过去两年里，Agent 从实验室的探索逐渐走向生产环境，不再只是模型能力的展示，而是真实承担起企业中的“数字员工”角色。随着任务日益复杂，既要写代码、调用工具，又要操作浏览器、处理数据，对工作环境的要求也越来越高：

既要足够自由，支持多种场景的多样化任务操作。
又要足够安全，避免误删数据或越权操作。
还要具备弹性和并发能力，支撑大规模落地。

随着 Agent 从工具调用逐渐演进到真正的 Agentic Agent ——能自主规划、动态调用工具并与环境交互，对运行环境提出了更高标准。为了让这些数字员工安全、稳定地完成复杂任务，我们迫切需要一个数字世界的沙箱，为 Agent 提供专属办公环境。

正是基于这样的需求，Agent 沙箱应运而生。它为数字员工提供了一个安全隔离、极速启动的“虚拟办公环境”，让每个 Agent 都能像真实员工一样高效开展工作，同时解决了场景灵活、安全性与规模化并发三大核心挑战，成为 Agent 从研发走向生产的关键基座。

Sandbox的核心作用，就是为Agent构建一个隔离的运行环境，通过网络隔离、文件系统隔离、进程隔离等多种方式，限制Agent的操作范围，确保它无论执行什么操作，都不会影响到宿主机和其他系统。

2.Sandbox+Skills vs 无Sandbox¶

维度	Sandbox+Skills	无 Sandbox
文件系统	有虚拟文件系统（`/user-data/`、`/skills/`、`/outputs/`）	无文件系统概念
工具层次	底层工具（`file_read`、`file_create`、`str_replace`、`sql_query`）	高层抽象工具（`create`、`execute_sql`、`search_memory`）
Skill 设计	完整的任务指南（包含数据结构、字段定义、操作流程）	简洁的功能描述（只说明"做什么"）
System Prompt	详细（2000+ 行，包含完整规范）	简略（仅基本框架）

Deepseek 回答何为Sandbox

Sandbox技术为AI Agent（智能体）带来了安全性、可控性和可扩展性的革命性提升，使其从理论概念走向实际应用。下面我将从核心价值和技术原理两方面详细解释。

一、核心价值

我们可以把Sandbox想象成一个为Agent准备的、高度仿真的“数字训练营”或“安全操作间”。

核心价值：安全与隔离

安全执行：Agent通常被赋予执行代码、访问文件、调用API等能力。在沙箱中运行，可以严格限制其权限（如禁止访问真实数据库、禁止调用危险系统命令），即使Agent被恶意诱导或出现逻辑错误，也不会对宿主系统造成实际损害。

环境隔离：每个Agent或每个任务都在独立的沙箱实例中运行，避免了任务间的资源竞争和相互干扰。一个Agent的崩溃不会影响其他Agent。
关键能力：可控与可观测

资源管控：可以精确限制Agent使用的CPU、内存、磁盘、网络带宽和运行时间，防止其无限循环或耗尽资源。

行为监控与审计：沙箱提供了对Agent所有操作（系统调用、文件读写、网络请求）的全面监控和记录，便于调试、分析其决策逻辑，并满足合规审计要求。

状态快照与回滚：可以轻松保存和恢复沙箱的完整状态，这对调试复杂任务、实现“后悔机制”（让Agent重试）或进行重复性测试至关重要。
赋能场景：测试与扩展

安全测试与迭代：开发者可以无风险地测试Agent的新能力、新工具或新的提示词策略，加速开发迭代周期。

多实例并行：安全的隔离性使得可以低成本、快速地创建大量沙箱实例，让多个Agent并行执行任务（例如，同时分析多个文档、处理多个客户请求），极大提升了效率和可扩展性。

工具使用规范化：Sandbox可以定义一套安全的、虚拟化的“工具集”供Agent调用，将危险的真实操作转化为安全的模拟操作（如将“发送真实邮件”变成“生成邮件内容日志”）。

总结来说，Sandbox技术解决了AI Agent走向实际应用的“信任”和“规模”两大核心难题，是构建可靠、实用、可部署的Agent系统的基石技术。

二、技术原理

其技术原理核心是 “在受控环境中，对不可信代码的执行进行资源隔离与系统调用拦截”。主要实现层次从浅到深包括：

语言级沙箱

原理：利用语言本身的特性或解释器进行隔离。例如，Python的 exec 在受限环境下执行，JavaScript的 iframe 沙箱或Node.js的 vm 模块。

特点：实现简单、轻量，但安全性较低，容易因语言漏洞或配置不当而逃逸。适用于信任度较高或风险较低的场景。
容器化沙箱

原理：使用Docker等容器技术，利用Linux内核的命名空间和控制组实现隔离。

命名空间：为每个容器提供独立的进程树、网络栈、文件系统挂载点、用户ID等视图，使其与主机和其他容器隔离开。

控制组：限制容器所能使用的CPU、内存、磁盘I/O等物理资源。

特点：轻量、启动快、资源开销小，是当前主流的Agent沙箱实现方式。安全性强于语言级沙箱，但因其与主机共享内核，内核漏洞可能导致逃逸。
虚拟机级沙箱

原理：通过Hypervisor在物理硬件上创建完整的、隔离的虚拟机。Agent运行在独立的客户操作系统中，与主机操作系统完全隔离。

特点：安全性最高，隔离最彻底。但启动慢、资源开销大（每个VM都需要独立的OS内核）。适用于对安全性要求极高的场景。
专用安全沙箱

原理：结合高级安全模块，如seccomp-bpf（限制可用的系统调用）、AppArmor/SELinux（强制访问控制，定义进程能访问的文件和权限）、用户命名空间（将容器内root权限映射到主机非root用户）等，对容器或进程进行“深度加固”。

特点：在容器基础上提供了一道额外的、细粒度的安全防线，是现代安全沙箱的标配。
新兴的微虚拟机

原理：如 Firecracker，它结合了虚拟机的安全性和容器的轻量级。通过极简的虚拟化设备模型和裁剪的内核，实现毫秒级启动和极低的内存开销。

特点：专为无服务器和临时性任务负载设计，非常适合需要快速创建/销毁、安全隔离的Agent执行场景，是未来的重要发展方向。

典型工作流程

当一个Agent需要执行任务时：

沙箱创建：管理系统根据任务需求，动态创建一个具备指定资源限制和安全策略的容器或微型VM实例。
环境注入：将必要的代码、工具、API密钥（虚拟化或代理过的）和数据注入到沙箱环境中。
Agent执行：Agent在沙箱内开始运行，其所有操作被限制在沙箱内。
监控与拦截：沙箱管理器实时监控资源使用，并拦截所有试图违反策略的系统调用或资源请求。
结果收集与销毁：任务完成后，将结果输出传回宿主系统，随后立即销毁整个沙箱，不留任何痕迹。

在AI Agent领域的应用代表

OpenAI的代码解释器：在一个安全的、网络隔离的容器环境中执行Python代码，是Sandbox技术的典范应用。
Microsoft的AutoGen：支持将代理对话运行在Docker容器中，以实现隔离执行。
诸多AI应用开发平台：如CrewAI、LangChain的社区方案等，都提供了基于Docker的Agent执行环境。

结论：Sandbox技术通过操作系统级别的隔离和限制机制，为AI Agent提供了一个安全、可控、可复现的物理世界“模拟器”，是其从对话原型走向生产力工具不可或缺的底层支撑。随着Agent能力的复杂化，沙箱技术也向着更轻量、更安全、更易管理的方向持续演进。

3.Reference¶

为什么Agent Sandbox会成为下一代AI应用的基石？

Manus Sandbox

E2B

腾讯Agent沙箱服务

Agent Infra核心技术解析：Sandbox技术原理、选型逻辑与主流方案全景

Tools

Fri, 24 Apr 2026 13:22:08 +0000

Tools¶

约 544 个字 67 行代码 1 张图片预计阅读时间 2 分钟

1.什么是 Tool Use¶

大模型的 Tool（也称Function Calling）是指允许大模型调用外部工具或函数的机制。通过定义工具，模型可以决定何时调用、传递什么参数，并将结果整合到回复中。

一次完整的tool-use流程包含以下步骤：

step1：定义tools，并将其包含在prompt中，发送给LLM；
step2：拿到LLM的tool-use请求，调用tool；
step3：把tool调用结果作为新的context，再发送给LLM。

2.Tool 定义¶

对于每一个tool，需提供三类信息：

name。工具的名称；
description。工具的功能、限制、使用指南等；
input schema。工具调用的入参规范，包括每个字段的名称、类型（int、bool、string、list等）、取值范围、描述等；通常采取json schema格式。

实际上，定义tools也是一次提示词工程，好的tool定义能帮助模型更好理解tools、从而带来更好的tool-use效果。

Tool-Use为LLM提供了More Context + Take Actions的组合拳，帮助LLM解决knowledge gap问题、自身能力限制问题以及无法执行外部动作的问题，大大拓宽了LLM的应用场景；其实现方式也比较简单，但如果遇到效果不及预期的情况，就得注意tools定义、tools数量及相关性、基座模型能力等因素。

3.Tool 的常见格式¶

3.1 OpenAI Function Calling 格式¶

{
  "type": "function",
  "function": {
    "name": "get_current_weather",
    "description": "获取指定城市的当前天气",
    "parameters": {
      "type": "object",
      "properties": {
        "location": {
          "type": "string",
          "description": "城市名称，如：'北京'"
        },
        "unit": {
          "type": "string",
          "enum": ["celsius", "fahrenheit"],
          "description": "温度单位"
        }
      },
      "required": ["location"]
    }
  }
}

3.2 LangChain Tool 格式¶

LangChain 自定义 tools有三种方式：

1.@tool装饰器

search_wrapper = GoogleSearchClient()

@tool("my_search_tool")
def search(query: str) -> list[str]:
    """通过搜索引擎查询"""
    result = search_wrapper.search(query)
    return [res["snippet"] for res in result]

print(search.name)
print(search.description)
print(search.args)

用装饰器来定义Tool是最简单的方式，会默认函数名作为Tool的名称。也可以多传一个string类型的参数来覆盖名称。此外，装饰器会使用函数的注释作为tool的描述，所以函数必须有注释。

2.继承 BaseTool 类

class SearchQuery(BaseModel):
    query: str = Field(..., description="要查询的query")

class CustomSearchTool(BaseTool):
    name = "my_search_tool_class"
    description = "通过搜索引擎来查询信息"
    args_schema: Type[BaseModel] = SearchQuery

    def _run(self, query: str) -> list[str]:
        """调用工具"""
        result = search_wrapper.search(query)
        return [res["snippet"] for res in result]


search = CustomSearchTool()
print(search.name)
print(search.description)
print(search.args)

3.用 StructuredTool 类提供的函数

你也可以用dataclass：StructuredTool。这种方法有点类似于上面两种方法的混合，比继承类方便，比用decorator的功能多。

def search(query: str) -> list[str]:
    """通过搜索引擎查询"""
    result = search_wrapper.search(query)
    return [res["snippet"] for res in result]


search_tool = StructuredTool.from_function(
    func=search,
    name="我的搜索方法",
    description="通过搜索引擎查询，方便又强大",
    # coroutine= ... <- 如果需要，可以指定一个异步方法
)

print(search_tool.name)
print(search_tool.description)
print(search_tool.args)

4.Reference¶

Langchain自定义Tool的三种方式

Agent基础篇：Tool-Use的定义、实现方式和效果优化

OpenAI Platform Using Tools

详解LLM大模型是如何理解并使用 tools

Practice

Fri, 24 Apr 2026 13:22:08 +0000

上下文工程实践¶

约 1761 个字 1 张图片预计阅读时间 6 分钟

在上下文工程领域，有三个产品代表了不同的实践方向：

LangChain：代表 Agent 框架和工具集合，早期的 Agent 框架，提供了各种Agent开发的基础设施，提出了一套上下文管理的方法论。
Claude Code：代表 Code Agent 能力上限，编码 Agent 的能力标杆，在长短记忆、分层多 Agent 协作等方面有独到实践。
Manus：重新展现 Agent 能力，让 Agent 回到大众视野，带动 MCP 发展，在工具使用、缓存设计等方面有独到实践。

1.LangChain¶

1.1 上下文卸载¶

并非所有上下文都要保存在消息历史中，可将部分信息卸载到外部系统。

做法：使用文件系统保存工具调用结果，仅在上下文中保留引用，在需要时再通过检索加载完整内容。

1.2 上下文缩减¶

控制上下文窗口长度，防止性能下降。

做法：摘要工具输出；修剪旧的工具调用；自动触发压缩机制。

1.3 上下文检索¶

按需动态检索上下文，而非全量加载。

做法：

语义检索+向量检索
文件系统+简单命令（bash command:grep/glob）

1.4 上下文隔离¶

做法：多智能体结构，每个子智能体有独立上下文窗口，实现关注点分离。

1.5 上下文缓存¶

缓存关键上下文片段，避免重复处理；提升智能体在长会话、多轮推理下的性能。

2.Claude Code¶

2.1 三层记忆架构¶

在长对话中，上下文管理面临token限制导致信息丢失、传统压缩方法破坏上下文连续性、无法支持复杂多轮协作任务等挑战。

Claude Code构建了三层记忆系统：短期记忆（当前对话）、中期记忆（智能压缩）、长期记忆（CLAUDE.md项目知识库），实现从实时访问到持久化存储的完整覆盖。

关键要点：

92%阈值自动触发智能压缩
8段式结构化保存核心信息
跨会话恢复项目背景和用户偏好

2.2 实时 Steering 机制¶

传统 Agent 无法中断，用户必须等待完整执行结束才能调整方向，导致资源浪费和用户体验差，无法应对动态变化的需求。

Claude Code 的解决方案是采用异步消息队列 + 主循环的双引擎设计，支持实时中断和恢复，用户可以随时调整任务方向，系统自动保存状态并无缝切换。

关键要点：

异步消息队列支持实时中断。
主循环自适应流程控制。
流式输出提供持续交互反馈。

2.3 分层多 Agent 协作¶

复杂任务需要并发处理多个子任务，单 Agent 模式容易出现上下文污染、资源竞争和故障传播，影响整体执行效率和稳定性。

Claude Code 的解决方案是采用主 Agent 负责任务协调，SubAgent 执行专项任务，实现隔离执行环境，调度器控制最多 10 个工具并发，确保任务隔离和资源优化。

2.4 动态上下文注入¶

用户在对话中提及文件或概念时，系统无法自动关联相关信息，导致模型缺乏必要的上下文背景，影响响应质量和准确性。

Claude Code 的解决方案是智能检测用户意图中的文件引用，自动读取相关内容并注入上下文，基于依赖关系推荐相关文件，提供语法高亮和格式化显示，最大20文件8K Token限制。

关键要点：

自动识别和注入相关文件内容。
智能推荐基于依赖关系分析。
容量控制和格式优化提升体验。

3.Manus¶

3.1 为什么需要上下文工程¶

模型微调成本高、风险大
应用快速演进期更适合依赖通用模型+上下文控制
上下文工程是“模型与应用之间最清晰的边界”

3.2 上下文缩减：压缩与摘要¶

3.2.1 压缩¶

每次工具调用结果有两种格式：

完整格式（含全部字段）
紧凑格式（去除可重建字段，仅保留路径或引用）

可逆（reversible）缩减，不丢失信息，只是外部化。

触发机制：

当上下文长度达到“腐烂前阈值”（128k~200k tokens）时触发压缩；
仅压缩历史 50% 工具调用，保留近期完整内容。

3.2.2 摘要¶

不可逆操作，用于超大上下文；
在压缩收益变低时启用；
摘要前会将完整内容卸载到外部文件系统；
使用结构化模式生成摘要（非自由文本）。

3.3 上下文隔离：通信与共享内存模式¶

两种模式：

模式	特点	适用场景
通过通信共享内存（“agent as tool”）	主智能体以任务指令调用子智能体	明确、独立任务
通过共享上下文	子智能体可见完整上下文，拥有独立 action space	复杂研究、分析型任务

权衡点：

共享上下文消耗高（预填充 Token、不可复用 KV 缓存）
通信模式简单高效但信息不完整

3.4 上下文卸载：分层式行为空间¶

为避免“上下文混淆”（过多工具导致模型混乱），Manus 将工具空间分为三层：

层级	内容	特点
第1层：函数调用	原子函数（读写文件、搜索、Shell 命令	Schema 安全、缓存友好
第2层：沙盒工具	在虚拟机内运行的系统命令，如 grep、MCP CLI	可扩展功能、不破坏缓存
第3层：代码与 API	通过 Python 脚本或 API 访问外部服务	高可组合性、适合重计算任务

关键特征：

所有层最终仍以标准函数调用形式执行；
行为空间正交（orthogonal），缓存一致；
提升系统模块化与灵活性。

3.5 五个核心维度的平衡¶

上下文工程的五个维度：

卸载（offload）- 缩减（reduce）- 检索（retrieve）- 隔离（isolate）- 缓存（cache）

它们相互制衡：

卸载 + 检索 → 提高缩减效率
稳定检索 → 安全隔离
过度隔离 → 降低缓存与推理效率

上下文工程是一门艺术，需要在相互冲突的目标中找到平衡。

3.6 避免上下文过度工程¶

“最重要的经验：少做加法，多做理解。”

过度的上下文管理层、复杂的检索机制常适得其反；
最有效的优化往往来自简化架构与信任模型。

4.Reference¶

震惊！不微调也能让AI变强？Manus上下文工程揭秘，让大模型迭代速度提升10倍！

浅谈上下文工程｜从 Claude Code 、Manus 和 Kiro 看提示工程到上下文工程的转变

小白入门LLM Context上下文工程：从基础到实践，通俗易懂讲明白

Overview

Fri, 24 Apr 2026 13:22:08 +0000

LLM¶

约 9 个字预计阅读时间不到 1 分钟

大语言模型的力量！

Alignment

Fri, 24 Apr 2026 13:22:08 +0000

Alignment¶

约 996 个字 2 张图片预计阅读时间 3 分钟

1.大模型的对齐是什么？¶

对齐指的是让大语言模型的行为、输出和决策方式与其设计者(人类操作者)的意图、价值观和指令保持一致的过程。

对齐的目标：

听懂人话：确保模型能理解你的真实意图
安全：不生成有害/歧视/非法内容
价值观正向：输出的内容符合广泛认可的伦理标准
诚实可信：不知道就直说不知道，不胡编乱造
实用主义：输出简洁清晰、结构合理、符合常识

2.为什么要对齐？¶

安全性：避免有害输出（包括仇恨言论、歧视性内容、暴力、色情等信息）；防止滥用（防止模型被用于进行欺诈、制造垃圾邮件、传播恶意软件、进行社会攻击等）；增强鲁棒性（让模型不容易被恶意提示诱导去做坏事）。
可用性和可靠性：指令遵循（让模型能准确理解并执行用户的具体要求）；保持真实性（让模型不胡编乱造，尽量基于事实推理，减少模型幻觉）；符合用户期望（让模型的输出方符合人类用户的合理预期）；道德判断（在涉及道德两难问题时，能输出符合社会普遍伦理的答案或拒绝回答，而不是给出危险建议）。
可信度和实用性：一个行为符合预期、安全可靠、能够遵循指令的模型才真正有用，才能被用户信任并应用于各种严肃场景。

3.SFT¶

SFT(Supervised Fine-Tuning) 是监督微调，特指在预训练模型(如大语言模型)基础上，通过少量标注数据调整模型参数，使其适应特定任务的技术。SFT需要人工整理标签进行学习，模型结构与Pre-training模型相同，但预训练使用的数据为连续的文本，SFT要人工梳理问题与对应的答案，并且数据一般是特定任务数据集，标注数据内容围绕特定任务展开。

SFT一般只需要对response部分进行loss计算，无需对prompt部分计算loss。

SFT具体实现方法有可以进行全量微调，也可以使用少量参数对大模型进行微调，比如LoRA方法等。

4.RLHF¶

RLHF（Reinforcement Learning from Human Feedback）是人类反馈强化学习，主要用于微调语言模型以使其行为更符合人类的需求或偏好，利用人类提提供的反馈数据指导模型优化，这种方法特别适用于那些难以通过传统监督学习方法获得高质量标签数据的情况。

RLHF的步骤为：

多种策略产生样本并收集人类反馈（SFT）
训练奖励模型（Reward Model）
训练强化学习策略，微调LM（Reinforcement Learning）

5.对齐的挑战¶

意图的模糊性: 人类的意图(尤其是隐含的、复杂的意图)本身就不容易清晰定义。
“价值观”的多样性: 不同文化、不同群体、甚至不同个人之间的价值观可能存在冲突。对齐到谁的价值观?(通常目标是主流、无害、普世的价值观，但这本身也有争论)。
过度对齐的风险：如果对齐得“太紧”，可能会导致模型过于保守、缺乏创造力、不敢表达任何可能有争议但合理的观点。
评估困难: 如何客观、全面地评估一个模型是否对齐?这本身也是一个研究难点(称为“对齐评估”)。

6.Reference¶

AI大模型中的对齐（Alignment）是什么？为什么要做对齐？

SFT 是什么?大模型SFT（监督微调）该怎么做（经验技巧+分析思路）

RLHF是什么？一文说清RLHF（人类反馈强化学习）的概念和实现过程

Gemini 1.5 Technical Report

Fri, 24 Apr 2026 13:22:08 +0000

Gemini 1.5 Technical Report¶

约 15 个字预计阅读时间不到 1 分钟

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

Griffin

Fri, 24 Apr 2026 13:22:08 +0000

Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models¶

约 13 个字预计阅读时间不到 1 分钟

Griffin

LLaMA

Fri, 24 Apr 2026 13:22:08 +0000

Llama¶

约 8 个字预计阅读时间不到 1 分钟

LLaMA: Open and Efficient Foundation Language Models

Mamba

Fri, 24 Apr 2026 13:22:08 +0000

Mamba¶

约 16 个字预计阅读时间不到 1 分钟

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

SSM（状态空间模型）

RetNet

Fri, 24 Apr 2026 13:22:08 +0000

RetNet¶

约 11 个字预计阅读时间不到 1 分钟

Retentive Network: A Successor to Transformer for Large Language Models

RWKV

Fri, 24 Apr 2026 13:22:08 +0000

RWKV¶

约 8 个字预计阅读时间不到 1 分钟

RWKV: Reinventing RNNs for the Transformer Era

Sampling Techniques

Fri, 24 Apr 2026 13:22:08 +0000

Sampling techniques¶

约 47 个字预计阅读时间不到 1 分钟

Explore various text generation approaches and their tradeoffs. Compare deterministic methods like greedy search and beam search with probabilistic approaches like temperature sampling and nucleus sampling.

Text Generation Strategies: Greedy vs Beam Search

浅谈文本生成中的采样方法

Structual Pruning

Fri, 24 Apr 2026 13:22:08 +0000

结构化剪枝经典论文¶

约 17 个字预计阅读时间不到 1 分钟

1.LLM-Pruner¶

2.Compresso¶

3.FLAP¶

4.LoRAPrune¶

5.LoRAP¶

6.SlimGPT¶

7.SliceGPT¶

8.Reference¶

Unstructual Pruning

Fri, 24 Apr 2026 13:22:08 +0000

非结构化剪枝经典论文¶

约 25 个字预计阅读时间不到 1 分钟

1.OBD¶

2.OBS¶

3.SparseGPT¶

4.Wanda¶

5.Reference¶

再看大模型稀疏化：SparseGPT、Wanda

LLM API

Fri, 24 Apr 2026 13:22:08 +0000

LLM API¶

约 20 个字预计阅读时间不到 1 分钟

1.private LLMs¶

1.1 OpenAI¶

1.2 Google¶

1.3 Anthropic¶

2.open-source LLMs¶

2.1 OpenRouter¶

2.2 Hugging Face¶

2.3 Together AI¶

Prefill&Decode

Fri, 24 Apr 2026 13:22:08 +0000

Prefill 和 Decode¶

约 1480 个字 1 张图片预计阅读时间 5 分钟

1.预填充阶段¶

Prefill发生在模型接收到完整输入prompt之后，但在开始生成第一个输出token之前。这个阶段的主要任务是处理输入的prompt，计算出所有输入token的上下文表示，并初始化后续解码阶段所需的关键数据结构——KV Cache。

具体的计算流程和复杂度参见：第二章：推理加速核心：预填充（Prefill）与解码（Decode）的深度解析与实现。

在Prefill阶段，对于Transformer的每一层，模型都会计算得到K和V矩阵。这些K和V矩阵会被缓存起来，这就是KV Cache。KV Cache的结构可以看成一个多维数组，按层、按注意力头、按token位置存储了key和value的信息。

Prefill的特点在于高度的并行性。由于整个输入Prompt在开始时是已知的，模型可以同时计算所有token在每一层的表示。这使得预填充阶段能够充分利用GPU的并行计算能力，显著提高处理速度。

为了进一步优化预填充阶段的性能，主流的技术包括：

高效注意力机制（Efficient Attention Mechanisms）：如FlashAttention：这是一种通过重新组织注意力计算过程，减少GPU内存读写次数，从而显著加速计算的高效注意力机制。它尤其在处理长序列时表现出色。
批处理（Batching）：在实际应用中，通常会同时处理多个独立的推理请求。预填充阶段可以将这些请求的Prompt组成一个批次进行处理。通过批处理，可以更有效地利用GPU的计算资源，提高整体的吞吐量。

2.解码阶段¶

Decode在Prefill完成之后开始，模型以自回归的方式逐个生成输出token。每生成一个token，该token就会被添加到已生成的序列中，并作为下一步生成的输入。

Decode从Prefill处理的输入Prompt的最后一个token开始，目标是生成后续的输出序列。假设Prefill处理了 $n$ 个输入token，Decode的目标是生成接下来的 $m$ 个输出token $(y_1, y_2, ..., y_m)$。

在每一步 $t$（从 1 到 $m$），模型会基于已经生成的序列 $x_1, ..., x_n, y_1, ..., y_{t - 1}$ 来预测下一个token $y_t$。对于decoder-only模型，在解码的每一步，通常只将上一步生成的token作为当前Transformer层的输入（除了第一步，输入是预填充的最后一个token）。然而，模型内部的自注意力机制仍然可以访问包括原始Prompt和所有已生成token在内的完整序列的信息，这是通过KV Cache实现的。

KV Cache在Decode阶段是加速的关键。在Prefill阶段，我们已经为输入Prompt中的所有token计算了key和value向量并存储在KV Cache中。在解码的每一步，假设模型生成了一个新的token $y_t$。为了预测下一个token $y_{t + 1}$，模型需要计算 $y_t$ 的key和value向量。然后，这个新的key和value向量会被追加到KV Cache中，扩展缓存的长度。

当模型在某一步需要计算自注意力时，对于当前要预测的token $y_t$（需要计算其query向量），它会与KV Cache中所有历史的key向量（包括来自原始Prompt和之前已生成的token）进行比较，计算注意力权重。然后，使用这些权重对KV Cache中对应的value向量进行加权求和，得到上下文信息。

3.单步解码的实现与性能分析¶

在解码阶段的每一步，模型主要进行以下操作：

接收上一步生成的token的Embedding。
计算该token在所有Transformer层的query、key和value向量。
将当前生成token的key和value向量更新到KV Cache中。
在自注意力计算中，当前token的query向量会与KV Cache中所有历史token的key向量进行比较，计算注意力权重。value向量会根据这些权重进行加权求和，得到上下文向量。
模型最后一层的输出会经过线性层和Softmax函数，得到下一个token的概率分布。
根据解码策略（例如采样）从概率分布中选择下一个token。

单步解码的计算成本主要在于自注意力机制的计算，其复杂度与当前KV Cache的长度（等于原始Prompt长度加上已生成的token数量）成正比。KV Cache的关键作用在于，它避免了在每一步都重新计算原始Prompt的key和value向量。然而，随着生成序列的长度增加，KV Cache的大小也会增长，可能导致内存带宽成为瓶颈。

4.Prefill 和 Decode 的协同工作¶

Prefill和Decode共同完成了LLM的推理过程。Prefill为Decode准备了初始的KV Cache，而Decode则迭代地利用和更新这个缓存来生成最终的输出。

数据流：输入Prompt -> Tokenization -> Embedding -> Prefill(生成KV Cache) -> Decode(逐个生成token) -> Detokenization -> 输出文本。

性能瓶颈：

Prefill：对于极长的输入Prompt，自注意力机制的计算量仍然很大，可能成为计算瓶颈。同时，加载模型权重和初始KV Cache的内存开销也需要考虑。
Decode：解码的串行自回归特性是主要的瓶颈。虽然KV Cache减少了重复计算，但每一步仍然需要进行注意力计算，并且随着生成序列的增长，KV Cache的大小也会增加，可能导致内存带宽瓶颈。此外，生成长序列会显著增加总的推理时间。

5.Reference¶

大模型推理探秘：揭开 LLM 响应

Speculative Decoding

Fri, 24 Apr 2026 13:22:08 +0000

Speculative Decoding¶

约 909 个字预计阅读时间 3 分钟

随着大规模语言模型（LLM）在各类自然语言处理任务中的广泛应用，模型推理效率成为制约其落地和推广的关键因素，推理同时对吞吐和时延具有较高要求。投机解码（Speculative Decoding）作为一种提升大模型推理性能的有效技术，近年来受到广泛关注。投机解码通过引入辅助模型（通常为小型语言模型）或结构来预测主模型的输出，从而减少主模型的计算负担，提高推理速度。

Transformer架构的大模型推理的解码（decode phase）每次根据注意力窗口内的所有上文信息，生成一个新token。这个自回归的过程受到访存带宽的限制（memory-bound，访存密集型）。投机解码通过引入辅助的草稿模型（通常为小型语言模型，draft model）或结构来预测主模型的输出的连续若干个token，目标模型（target model）只需对草稿模型预测的token进行验证，从而在前向计算中并行生成多个token，减少目标模型的计算负担，提高推理速度。

投机解码的研究领域主要集中在token预测的优化上：研究如何设计高效的draft model或预测模块，包括模型结构、参数量、训练方法、预测token数量等，以在保证预测准确率的同时最大化推理速度提升。

1.方向1：高效缓存机制的设计¶

通过缓存之前预测的有效信息来提升draft model的预测能力：通过设计高效的缓存机制，存储和利用之前预测的（包括没有被命中）token及其上下文信息，提升draft model在连续token预测中的准确率和效率。可以优化的方向包括但不限于： a. 缓存更有效的信息，以提升预测效率； b. 优化检索策略，如向量检索，文本匹配等的效率。

2.方向2：高效draft model结构设计¶

draft model结构设计：优化预测模块结构设计，draft model的设计目标通常是得到和target model近似的数据分布，从而提升在验证阶段target model接受的token数量，主流的draft model如eagle经常采用和target model一样的自回归设计，然而我们认为自回归的draft结构并不是通向模拟target model数据分布的唯一途径，我们希望draft model在保持住数据分布的同时能够具有其他的如并行采样的优秀性质。可以优化的方向包括但不限于：a. 设计出最小推理代价但最大保留原模型数据分布的新型网络架构 b. 探索高速高效的draft model采样机制来战胜自回归draft采样.

3.推荐论文和项目¶

SpecForge：SpecForge is an ecosystem project developed by the SGLang team. It is a framework for training speculative decoding models so that you can smoothly port them over to the SGLang serving framework to speed up your inference. Learn more: https://docs.sglang.ai/SpecForge/。

Accelerating Large Language Model Decoding with Speculative Sampling

Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads （SD方向的著名论文，与上述方向2相关）

EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty （还包括EAGLE-2, 3系列，EAGLE-3是当前业界落地的SOTA工作）

Break the Sequential Dependency of LLM Inference Using Lookahead Decoding

Better & Faster Large Language Models via Multi-token Prediction

Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling （与上述方向1强相关）

此外，还包括Deepseek等的MTP等优化方案，可以扩展阅读。

RLHF

Fri, 24 Apr 2026 13:22:08 +0000

RLHF¶

约 7 个字预计阅读时间不到 1 分钟

1.PPO¶

2.DPO¶

3.GRPO¶

4.DAPO¶

5.GSPO¶

6.ARPO¶

Overview

Fri, 24 Apr 2026 13:22:08 +0000

Machine Learning¶

约 160 个字预计阅读时间不到 1 分钟

Python is a powerful and flexible programming language that's particularly good for machine learning, thanks to its readability, consistency, and robust ecosystem of data science libraries.

Python Basics: Python programming requires a good understanding of the basic syntax, data types, error handling, and object-oriented programming.

Data Science Libraries: It includes familiarity with NumPy for numerical operations, Pandas for data manipulation and analysis, Matplotlib and Seaborn for data visualization.

Data Preprocessing: This involves feature scaling and normalization, handling missing data, outlier detection, categorical data encoding, and splitting data into training, validation, and test sets.

Machine Learning Libraries: Proficiency with Scikit-learn, a library providing a wide selection of supervised and unsupervised learning algorithms, is vital. Understanding how to implement algorithms like linear regression, logistic regression, decision trees, random forests, k-nearest neighbors (K-NN), and K-means clustering is important. Dimensionality reduction techniques like PCA and t-SNE are also helpful for visualizing high-dimensional data.

1.基本术语¶

2.发展历程¶

BLIP

Fri, 24 Apr 2026 13:22:08 +0000

BLIP¶

约 23 个字预计阅读时间不到 1 分钟

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

CLIP

Fri, 24 Apr 2026 13:22:08 +0000

CLIP¶

约 9 个字预计阅读时间不到 1 分钟

Learning Transferable Visual Models From Natural Language Supervision

ViT

Fri, 24 Apr 2026 13:22:08 +0000

ViT¶

约 13 个字预计阅读时间不到 1 分钟

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Overview

Fri, 24 Apr 2026 13:22:08 +0000

Natural Language Processing¶

约 220 个字预计阅读时间 1 分钟

NLP is a fascinating branch of artificial intelligence that bridges the gap between human language and machine understanding. From simple text processing to understanding linguistic nuances, NLP plays a crucial role in many applications like translation, sentiment analysis, chatbots, and much more.

Text Preprocess: Learn various text preprocessing steps like tokenization (splitting text into words or sentences), stemming (reducing words to their root form), lemmatization (similar to stemming but considers the context), stop word removal, etc.

Feature Extraction Techniques: Become familiar with techniques to convert text data into a format that can be understood by machine learning algorithms. Key methods include Bag-of-words (BoW), Term Frequency-Inverse Document Frequency (TF-IDF), and n-grams.

Word Embedding: Word embeddings are a type of word representation that allows words with similar meanings to have similar representations. Key methods include Word2Vec, GloVe, and FastText.

Recurrent Neural Networks (RNNs): Understand the working of RNNs, a type of neural network designed to work with sequence data. Explore LSTMs and GRUs, two RNN variants that are capable of learning long-term dependencies.

1.文本的表示¶

2.自然语言处理任务¶

3.自然语言处理的基本问题¶

4.自然语言处理的评价指标¶

5.基础工具集与常用数据集¶

Feature Extraction

Fri, 24 Apr 2026 13:22:08 +0000

特征提取¶

约 12 个字预计阅读时间不到 1 分钟

1.Bag-of-words (BoW)¶

2.Term Frequency-Inverse Document Frequency (TF-IDF)¶

3.n-grams¶

Text Preprocess

Fri, 24 Apr 2026 13:22:08 +0000

文本预处理¶

约 11 个字预计阅读时间不到 1 分钟

1.tokenization¶

2.stemming¶

3.lemmatization¶

4.stop word removal¶

CoT

Fri, 24 Apr 2026 13:22:08 +0000

CoT¶

约 5 个字预计阅读时间不到 1 分钟

1.CoT¶

2.ToT¶

3.GoT¶

4.ReAct¶

GraphRAG

Fri, 24 Apr 2026 13:22:08 +0000

GraphRAG¶

约 2034 个字 23 行代码预计阅读时间 7 分钟

1.定义¶

GraphRAG是将知识图谱（Knowledge Graph）引入 RAG 架构的检索增强生成范式。传统 RAG 以文本块（Chunk）为粒度进行向量相似度检索，在面对需要跨文档综合、全局主题归纳、多跳推理等复杂查询时存在天然局限。GraphRAG 通过从非结构化文本中自动构建实体-关系网络（知识图谱），并基于图结构进行检索与生成，从而提供更具深度和上下文感知能力的答案。

1.1 传统 RAG 的局限性¶

查询类型	传统 RAG	GraphRAG
具体事实检索	表现良好	表现良好
全局主题归纳	失败	已解决
模式与趋势分析	失败	已解决
跨文档综合	能力有限	已解决
关系推理	无法实现	已解决

传统 RAG 的核心问题是"相似的不等于代表性的"。当用户问"这些文档的主要趋势是什么"时，向量检索只能返回与问题字面最相似的几个 Chunk，如同只见树木不见森林。

1.2 GraphRAG 的核心思想¶

在索引阶段生成摘要，而非在查询时生成。

GraphRAG 通过社区检测（Community Detection）将知识图谱划分为多个语义簇，并在索引阶段为每个社区预生成层次化摘要。查询时利用这些预构建的结构化摘要，实现对全局信息的快速理解和回答。

2.工作原理¶

GraphRAG 的完整流程可分为四大阶段：

文档 → 实体与关系抽取 → 知识图谱构建 → 社区检测 → 层次化摘要生成 → 检索与生成

2.1 实体与关系抽取¶

利用 LLM 对每个文档 Chunk 进行信息抽取，识别出：

实体（Entities）：人物、组织、地点、技术、产品等，附带名称、类型和描述
关系（Relationships）：实体之间的语义关系，如"投资了"、"合作于"、"开发了"等，附带关系类型和权重
实体声明（Covariates）：可选的附加信息，如事件、主张、时间等

这一步通常通过精心设计的 Prompt 让 LLM 输出结构化的 JSON 数据。

2.2 知识图谱构建¶

将抽取的实体作为节点、关系作为边，构建知识图谱。图结构支持：

节点属性：实体类型、描述、来源文档
边属性：关系类型、权重、来源文档
重复实体的合并与消歧
关系的去重与聚合

2.3 社区检测¶

使用 Leiden 算法（一种改进的 Louvain 社区检测算法）对知识图谱进行层次化社区划分。Leiden 算法通过优化模块度（Modularity），将连接紧密的节点聚集到同一社区中。

社区具有层次结构：底层社区粒度细（如"某公司的投资关系"），高层社区粒度粗（如"整个 AI 产业生态"）。这种层次化结构为后续的层次化摘要奠定了基础。

2.4 层次化摘要生成¶

对每个社区，利用 LLM 生成摘要报告，内容包括：

社区内的关键实体及其角色
核心关系与互动模式
社区的整体主题概括

摘要从底层社区逐层向上聚合，形成层次化的摘要树。这一步是离线完成的，是 GraphRAG 索引阶段最耗时的操作。

2.5 检索与生成¶

GraphRAG 提供两种搜索模式：

局部搜索（Local Search）¶

适用于针对特定实体的精确查询，如"AlphaTech 与哪些公司有合作？"

流程：

从查询中识别目标实体
在知识图谱中探索该实体的邻居节点（1-hop、2-hop）
收集相关实体、关系和社区摘要
将上下文提供给 LLM 生成答案

全局搜索（Global Search）¶

适用于针对整个数据集的宏观查询，如"这些文档的主要主题和趋势是什么？"

流程：

收集所有社区的层次化摘要
从各摘要中提取与查询相关的信息片段
将多个局部答案综合为全局回答

全局搜索是 GraphRAG 区别于传统 RAG 的核心能力，它使系统能够"看到整片森林"。

3.GraphRAG vs 传统 RAG¶

3.1 架构对比¶

维度	传统 RAG	GraphRAG
索引单元	文本 Chunk	实体、关系、社区
索引方式	向量 Embedding	知识图谱 + 社区摘要
检索方式	向量相似度（ANN）	图遍历 + 社区摘要聚合
上下文构建	Top-K 相似 Chunk	实体邻居 + 社区报告
全局理解	不支持	原生支持
索引成本	低（Embedding API 调用）	高（LLM 抽取 + 摘要生成）

3.2 成本对比¶

阶段	传统 RAG	GraphRAG
索引（每文档）	~$0.001（Embedding）	~$0.1-1.0（LLM 抽取 + 摘要）
查询（每次）	~2000 tokens 输入	Local: ~3000 tokens / Global: ~10000+ tokens

GraphRAG 的索引成本显著高于传统 RAG，因为需要大量 LLM 调用进行实体抽取和摘要生成。但在需要全局理解和关系推理的场景中，其回答质量远超传统 RAG。

3.3 适用场景¶

场景	推荐方案
具体事实检索	传统 RAG
全局主题归纳	GraphRAG
成本敏感	传统 RAG
关系推理需求	GraphRAG
实时响应要求高	传统 RAG
文档间关联分析	GraphRAG

4.实现框架与工具¶

4.1 Microsoft GraphRAG¶

微软官方开源实现，提供完整的 CLI 和 Python API：

# 安装
pip install graphrag

# 初始化项目
graphrag init --root ./my_graphrag

# 索引构建
graphrag index --root ./my_graphrag

# 全局搜索
graphrag query --root ./my_graphrag --method global \
  --query "What are the main themes in these documents?"

# 局部搜索
graphrag query --root ./my_graphrag --method local \
  --query "Tell me about AlphaTech"

4.2 其他实现方案¶

工具	特点
Neo4j + LangChain	利用 Neo4j 图数据库存储，LangChain 提供 GraphCypherQAChain 实现自然语言到 Cypher 的转换
NetworkX + 自研	轻量级方案，适合原型验证和小规模数据
NVIDIA cuGraph	GPU 加速的图分析库，适合大规模图计算
Diffbot Knowledge Graph	商业化的自动知识图谱构建服务

5.典型应用场景¶

5.1 法律尽职调查¶

分析大量法律文档，识别关键人物、公司、交易之间的关系网络，发现隐藏的利益关联和风险模式。

5.2 科研文献分析¶

对某一领域的海量论文进行主题聚类和趋势分析，帮助研究人员快速把握领域全貌和前沿方向。

5.3 情报分析¶

从多源情报文本中自动构建实体关系网络，支持分析师发现关键人物、组织和事件之间的关联。

5.4 企业知识管理¶

整合企业内部文档、报告、邮件等非结构化数据，构建企业知识图谱，支持全局知识发现。

5.5 新闻事件追踪¶

从新闻流中自动提取事件要素和参与方，追踪事件发展脉络和影响范围。

6.挑战与优化方向¶

6.1 索引成本¶

GraphRAG 的索引阶段需要大量 LLM 调用，成本较高。优化方向包括：

使用更小的模型进行实体抽取
增量索引，仅对新文档进行处理
缓存和复用中间结果

6.2 抽取质量¶

LLM 抽取的实体和关系可能存在噪声、重复和错误。优化方向包括：

实体消歧与归一化
定义领域特定的实体类型和关系模式
Prompt 调优与少样本示例

6.3 动态更新¶

知识图谱需要随新数据的到来而更新。当前的 GraphRAG 主要面向静态数据集，增量更新机制仍在发展中。

6.4 混合检索¶

在实际生产中，GraphRAG 与传统 RAG 并非替代关系，而是互补关系。最佳实践是构建混合检索系统：

def hybrid_search(query: str):
    if is_global_question(query):
        return graphrag.global_search(query)
    elif contains_entity(query):
        return graphrag.local_search(query)
    else:
        return traditional_rag.search(query)

7.总结¶

GraphRAG 通过引入知识图谱和社区检测，解决了传统 RAG 在全局理解和关系推理方面的核心短板。其"索引时生成摘要"的设计理念和"局部-全局"双搜索模式，为复杂文档分析提供了全新的范式。然而，高昂的索引成本和抽取质量的不确定性仍是实际落地中需要权衡的关键因素。

8.Reference¶

RAG Evaluation

Fri, 24 Apr 2026 13:22:08 +0000

RAG 评估¶

约 1763 个字 49 行代码预计阅读时间 6 分钟

1.为什么要做 RAG 评估¶

搭建好一个 RAG 系统后，一个很现实的问题是：这个系统到底好不好用？靠几次手动测试显然不靠谱，可能刚好问了简单的问题，也可能漏掉了潜在的漏洞。就像训练深度学习模型时需要 Loss 来量化优化方向，RAG 系统也需要一套清晰的评估方法来衡量性能、定位瓶颈、指导优化。

2.RAG 三元组¶

标准 RAG 流程中涉及三个核心元素，构成"RAG 三元组"：

Question（用户问题）：用户提出的查询
Context（检索上下文）：从知识库中检索到的相关文档片段
Answer（生成回答）：LLM 基于上下文生成的最终回答

RAG 评估的本质就是检测这三者之间的关系质量：

评估维度	衡量关系	说明
Context Relevance	Context ↔ Question	召回的文档是否支持用户问题
Groundedness	Answer ↔ Context	回答是否忠实于检索到的上下文
Answer Relevance	Answer ↔ Question	回答是否直接解决了用户问题

3.评估数据构建¶

评估数据集通常包含四个部分：

question：用户输入的问题
contexts：检索到的相关文档片段
answer：RAG 系统生成的回答
ground_truths：人工标注的参考答案

数据集的构建方式有三种：

人工制作：标注人员根据知识库设计问题和参考答案，最准确但成本最高
日志收集：从系统实际运行日志中提取真实问答对，最贴近真实场景但需要清洗
大模型生成：用 LLM 基于知识库自动生成问题和参考答案，效率最高，是目前最常用的方式

4.评估方式¶

方式	说明	优点	缺点
人工评估	人工对照参考答案打分	能处理复杂场景	主观、耗时、一致性差
基于规则	BLEU、ROUGE、F1 等传统指标	客观、高效	灵活性差，难以覆盖复杂情况
大模型评估	用 LLM 根据评分规则自动打分	智能、灵活、可扩展	大模型本身存在不稳定性

5.RAGAS 评估指标¶

RAGAS（RAG Assessment）是目前最主流的 RAG 评估框架，其指标按"检索"和"生成"两大阶段划分：

5.1 检索阶段指标¶

上下文精确率（Context Precision）

衡量检索结果中与参考答案相关的条目是否排名靠前。值域 [0, 1]，越高越好。如果相关文档排在后面，说明检索排序有问题。

上下文召回率（Context Recall）

衡量检索到的上下文是否覆盖了参考答案中的全部关键信息。值域 [0, 1]，越高越好。低分说明检索遗漏了重要内容。

上下文相关性（Context Relevancy）

衡量检索到的上下文中有多少内容真正与问题相关。理想情况下，召回的文档应只包含解答问题所需的信息，不应包含大量无关内容。值域 [0, 1]，越高越好。

5.2 生成阶段指标¶

忠实度（Faithfulness）

衡量生成的回答与给定上下文的事实一致性。从回答中提取所有 claims，逐一检查是否可从上下文中推断出来。值域 [0, 1]，越高越好。低分意味着模型出现了"幻觉"或偏离了检索内容。

答案相关性（Answer Relevancy）

衡量生成的回答与用户问题的匹配程度。不完整或包含冗余信息的答案得分较低。该指标通过让 LLM 从回答中反推问题，再计算反推问题与原问题的相似度来评估。值域 [0, 1]，越高越好。

答案正确性（Answer Correctness）

衡量生成答案与参考答案的相似程度，包括语义相似度和事实覆盖度。值域 [0, 1]，越高越好。

5.3 指标速查表¶

指标	阶段	输入	说明
Faithfulness	生成	Answer + Context	回答是否基于检索内容
Answer Relevancy	生成	Answer + Question	回答是否切题
Answer Correctness	生成	Answer + Ground Truth	回答是否正确
Context Precision	检索	Contexts + Question	相关文档是否排前面
Context Recall	检索	Contexts + Ground Truth	是否覆盖了全部关键信息
Context Relevancy	检索	Contexts + Question	召回内容是否都相关

6.RAGAS 实践¶

6.1 安装¶

pip install ragas

6.2 准备评估数据¶

from datasets import Dataset

questions = [
    "客户经理被投诉了，投诉一次扣多少分？",
    "客户经理每年评聘申报时间是怎样的？",
]

ground_truths = [
    "每投诉一次扣2分",
    "每年一月份为客户经理评聘的申报时间",
]

answers = []
contexts = []

# 运行 RAG 系统获取 answers 和 contexts
for query in questions:
    answers.append(rag_chain.invoke({"question": query}))
    contexts.append([doc.page_content for doc in retriever.get_relevant_documents(query)])

data = {
    "user_input": questions,
    "response": answers,
    "retrieved_contexts": contexts,
    "reference": ground_truths,
}

dataset = Dataset.from_dict(data)

6.3 执行评估¶

from ragas import evaluate
from ragas.metrics import (
    faithfulness,
    answer_relevancy,
    context_recall,
    context_precision,
)

result = evaluate(
    dataset=dataset,
    metrics=[
        context_precision,
        context_recall,
        faithfulness,
        answer_relevancy,
    ],
)

df = result.to_pandas()
print(df)

6.4 结果分析¶

评估结果通常以箱线图等方式可视化，便于直观分析：

中位数：反映整体水平
四分位范围：反映稳定性
极端值：反映系统的薄弱环节，是优化的重点方向

例如，如果 Faithfulness 中位数在 0.75 左右但有少数低至 0.25 的极端值，说明系统整体表现不错，但在某些问题上出现了严重幻觉，需要重点排查。

7.基于评估结果的优化方向¶

根据各指标的表现，可以精准定位问题并优化：

指标偏低	问题定位	优化方向
Context Recall	检索遗漏关键信息	优化分块策略、扩展数据源、调整检索参数
Context Precision	相关文档排名靠后	引入 Rerank 重排序、调整向量检索权重
Context Relevancy	召回太多无关内容	缩小 Top-K、增加过滤条件
Faithfulness	回答偏离检索内容	优化 Prompt、增加事实校验、降低温度参数
Answer Relevancy	答非所问	优化 Prompt 约束输出格式、改进查询重写
Answer Correctness	回答不准确	综合以上所有方向优化

8.其他评估工具¶

工具	特点
RAGAS	开源、轻量、指标丰富，几行代码即可跑通，适合快速评估
LangSmith	全链路监控平台，支持链路追踪、模型监控、A/B 测试，适合长期维护的 RAG 服务
DeepEval	基于 pytest 的评估框架，支持单元测试风格的 RAG 评估
LlamaIndex 评估模块	LlamaIndex 生态内置的评估工具，与 LlamaIndex 深度集成
ARES	斯坦福大学开源框架，支持自动合成训练数据和评估

9.总结¶

RAG 评估是 RAG 开发中不可或缺的一环。光靠手动提问无法看出系统的整体水平，也无法知道瓶颈在哪。有了量化指标，就能直观地看到优点和缺点，后续优化才有方向。

评估的核心思路可以概括为：

构建数据集：问题 + 检索内容 + 生成回答 + 参考答案
选择指标：根据关注点选择检索指标和生成指标
执行评估：使用 RAGAS 等框架自动打分
分析结果：通过可视化定位薄弱环节
持续优化：根据指标反馈迭代改进

10.Reference¶

Lovart

Fri, 24 Apr 2026 13:22:08 +0000

Lovart¶

约 6 个字预计阅读时间不到 1 分钟

AI设计助手

Superpowers

Fri, 24 Apr 2026 13:22:08 +0000

Superpowers¶

约 878 个字 12 行代码预计阅读时间 3 分钟

1.什么是Superpowers¶

Superpowers是一个为AI编程代理（如Claude Code、Codex、OpenCode）打造的完整软件开发工作流系统。它的核心理念是：通过一套可组合的技能（Skills）和初始指令，让AI代理在编写代码时自动遵循最佳实践，而不是像“没有经验的初级工程师”那样随意行事。

2.设计哲学¶

测试驱动开发（TDD）：永远先写测试。没有看到测试失败，就不能确定测试是否真正测试了正确的行为。
系统化而非临时化：用流程替代猜测。每个技能都有明确的决策流程图，作为可执行规范。
复杂度削减：以简洁为首要目标。技能反复强调YAGNI（You Aren't Gonna Need It）原则，积极删除不必要的功能。
证据而非声明：在宣布任务完成之前，必须验证。看到测试通过，看到代码运行，而不是“我觉得应该可以了”。

3.工作流程：7 步强制执行的开发流程¶

步骤	说明	关键特性
1. 头脑风暴	编码前先细化需求，通过提问完善设计	分块展示设计文档供确认
2. Git 工作树管理	设计确认后创建隔离的分支工作区	验证干净的测试基线
3. 编写执行计划	将工作拆解为 2-5 分钟可完成的小任务	每个任务包含文件路径、完整代码、验证步骤
4. 子代理驱动开发	为每个任务分配独立子代理	执行「规格合规性 + 代码质量」两阶段评审
5. 测试驱动开发	严格遵循 RED-GREEN-REFACTOR 流程	编写失败测试 → 验证失败 → 编写最小化代码 → 验证通过 → 提交
6. 代码评审	任务间自动触发评审	按严重程度标记问题，关键问题会阻塞流程
7. 分支收尾	任务完成后验证测试	提供合并 / PR / 保留 / 丢弃分支的选项，清理工作树

4.技能库详解¶

项目包含 14 个核心技能，分为几大类别：

测试类

test-driven-development：强制执行 RED-GREEN-REFACTOR 循环。核心规则是"先写测试失败的代码？删掉，重新来"，包含详细的反模式参考

调试类

systematic-debugging：四阶段根因定位流程，整合了 root-cause-tracing（逆向追踪调用栈）、defense-in-depth（多层验证）、condition-based-waiting（基于条件的等待替代任意超时）等技术
verification-before-completion：确保问题真正被修复

协作类

brainstorming：苏格拉底式设计提炼
writing-plans：详细实现计划
executing-plans：批量执行与检查点
dispatching-parallel-agents：并发子代理工作流
requesting-code-review / receiving-code-review：代码审查的请求与响应
using-git-worktrees：并行开发分支
finishing-a-development-branch：合并/PR 决策工作流
subagent-driven-development：两阶段审查的快速迭代

元技能

using-superpowers：技能系统入门
writing-skills：如何创建新技能（包含测试方法论）

5.安装与使用¶

Claude Code 安装

# 1. 添加插件市场
/plugin marketplace add obra/superpowers-marketplace

# 2. 从市场安装插件
/plugin install superpowers@superpowers-marketplace

# 3. 验证安装是否成功
/help
# 成功将会看到:
# /superpowers:brainstorm - Interactive design refinement
# /superpowers:write-plan - Create implementation plan
# /superpowers:execute-plan - Execute plan in batches

Codex/OpenCode 安装：加载对应平台的远程安装指南，复用核心技能逻辑。

6.总结¶

Superpowers 本质是编码代理的开发流程操作系统（Development Process OS for Coding Agents），通过标准化技能和工作流，让代理能够像专业工程师一样遵循规范完成开发，大幅提升编码代理的输出质量和开发效率。

7.Reference¶

Superpowers GitHub

告别Vibe Coding！用Superpowers让Claude Code写出工程级代码，一次通过零报错！遵循TDD最佳实践！支持Codex和OpenCode

BERT Pruning

Fri, 24 Apr 2026 13:22:08 +0000

基于 BERT 预训练模型的剪枝策略¶

约 2025 个字 6 张图片预计阅读时间 6 分钟

1. 背景与目标¶

1.1 剪枝原因¶

预训练语言模型参数量大，在落地部署时常面临算力与显存占用高、推理延迟大等问题。模型剪枝通过移除对任务冗余的结构或参数，在尽量保留精度的前提下缩小模型、降低计算量，是压缩与加速路线的经典手段之一。

1.2 实验设定¶

任务：文本分类。
数据：AG News等新闻语料上微调 BERT 类模型。
评价维度：准确率、参数量、推理速度。

1.3 核心目标¶

在尽可能保留原始模型核心能力与任务精度的前提下：

降低模型规模与计算复杂度；
减少资源消耗，使模型更易部署到实际场景。

2. 层剪枝（Layer Pruning）¶

2.1 思路与相关论文¶

层剪枝属于粗粒度结构化剪枝：直接去掉若干 Transformer 层，参数量与深度同步下降，实现路径清晰，也便于与固定深度推理的工程栈对接。

LayerDrop（结构化 Dropout） — Fan 等，Reducing Transformer Depth on Demand with Structured Dropout。训练时以一定概率随机丢弃整层，使子网络在多种深度上都能工作；推理时可按需使用更浅的子网络，从而在深度维度上获得压缩与加速潜力。
Poor Man’s BERT — Sajjad 等，On the Effect of Dropping Layers of Pre-trained Transformer Models。在不重新预训练的前提下，通过删层、减头、减隐藏维度等简单策略缩小 BERT，说明结构裁剪加微调在工程上可行，并与更大规模蒸馏等方法形成对照。

层剪枝：通过移除网络中的冗余层，减小模型规模、降低计算成本并加速推理，是一种粗粒度但高效的方案。

2.2 LayerDrop 与训练设置¶

除训练后直接删层的剪枝策略外，我们还对照了LayerDrop：训练阶段使用丢弃概率约 0.1 的结构化丢弃，使模型适应随机深度。

2.3 我们采用的层剪枝策略¶

在微调后的文本分类模型上，对比多种删层模式（均以完整模型为基准）：

策略类型	含义
Top-Layer	优先去掉靠近输出侧的部分层
Bottom-Layer	优先去掉靠近输入侧的部分层
奇数 / 偶数层丢弃	按层号间隔删除，观察结构对称性对性能的影响
对称丢弃	按对称模式删层
Full Model	不删层，作为对照

2.4 实验现象¶

从准确率、参数量、推理速度三方面对比：

准确率：在所测试的策略中，Top-Layer 表现相对最好。
规模与速度：相对 Full Model，各类层剪枝均能减小参数量、加快推理；丢弃的层越多，模型越小、往往也越快。
精度—速度权衡：多数策略在略低于原模型准确率的代价下，仍保持可接受性能，说明层剪枝在本任务上性价比较好。
LayerDrop：实验中收益不突出，推测与丢弃概率是否合适有关，仍需搜索更优超参。

3. 注意力头剪枝（Head Pruning）¶

3.1 思路与相关论文¶

多头自注意力中，并非每个头对下游任务都同等重要。头剪枝在注意力头这一粒度上移除冗余，仍保持 Transformer 整体模块形态，属于常见的结构化裁剪单元。

Voita 等，Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned：从分析与剪枝实验说明，少数头承担主要语义与句法功能，大量头可被剪掉而性能损失有限。
Michel 等，Are Sixteen Heads Really Better than One?：系统研究多头数量与性能，表明许多头可剪，且剪枝后可通过微调恢复部分性能。

Head Pruning：移除多头注意力中贡献小或近似无效的头，在降参与加速的同时尽量保持精度。

3.2 实验现象¶

在不同剪枝比例下观察训练过程与最终指标：

随剪枝比例增大，参数量持续下降，准确率出现可预期的渐进式下降。
推理速度并非随剪枝单调明显改善：仅在约 50% 头被剪掉时，速度提升较为明显；其他比例下提速不显著。

这与文献中头剪枝的收益依赖实现与硬件的论述一致：减少 FLOPs 不等于 wall-clock 时间同比例下降，矩阵乘在 GPU 上往往以张量整块计算，轻度剪头未必改变主导算子的形状或内存访问模式。

小结：头剪枝在论文层面已验证大量头可删；在工程上若要以延迟为主要目标，需要结合剪枝比例、算子实现与硬件，而不能只看参数量或理论 FLOPs。

4. CoFi：粗粒度 + 细粒度联合剪枝与分层蒸馏¶

4.1 动机：剪枝、蒸馏与速度上限¶

经验上，单纯剪枝往往难以把端到端推理加速推到特别高的倍数。知识蒸馏可以把大模型能力迁移到小模型，常能带来更明显的小模型 + 低延迟，但往往依赖大量无标签数据与较高的训练成本。

CoFi：Structured Pruning Learns Compact and Accurate Models提出一种面向特定任务的结构化剪枝框架：在同一套目标函数下同时学习：

粗粒度单元（如自注意力子层、前馈子层等是否保留）；
细粒度单元（如隐藏维度内的权重级稀疏等）；

并配合分层蒸馏（layer-wise distillation）：动态学习教师网络与学生网络之间的层对应关系，把蒸馏损失写进联合目标，从而在剪枝的同时拉近师生表示，提升小模型精度。

CoFi 类方法旨在得到更小更快的模型，且相对大规模无标签蒸馏而言，不一定依赖额外海量无标签数据做传统意义上的蒸馏数据管线。

4.2 设置与现象¶

在尝试向 CoFi 论文设定靠拢时，我们采用约0.2 的剪枝率、稀疏度（Sparsity Ratio）约 0.2 等配置，观察到：

参数量约减少 15.72%；
测试准确率未出现明显损失；
但推理时间变长，整体速度约下降 37%，与更小应更快的直觉不一致。

4.3 反思：为何参数少了却更慢？¶

结合实现与文献，可能原因包括：

剪枝粒度偏窄：若主要对线性层等做稀疏/掩码，而嵌入层、注意力中的大张量等仍占主导，则实际减少的有效计算有限。
迭代剪枝比例：若每轮仅约20%剪枝，多轮累积不足时，整体结构仍接近稠密网络。
稀疏计算与硬件：非结构化或半结构化稀疏若未走专用稀疏内核，在 GPU 上可能无法加速甚至变慢（额外掩码、不规则访存）。
推理路径：需确认是否启用与稀疏匹配的推理后端，以及是否仍按稠密算子执行。

5. 总结¶

方向	主要思想（文献）	本项目观察
层剪枝	LayerDrop、删层式 BERT 压缩等	多种删层策略可降参、提速；Top-Layer 较优；LayerDrop 需调参
头剪枝	多头可大量剪除；需微调补偿	高比例剪头才较明显提速；精度随比例缓慢下降
CoFi	粗 + 细联合剪枝 + 分层蒸馏	参数量可降且精度稳，但实现不当会导致推理变慢

6.参考文献¶

Fan, A., Grave, E., Joulin, A. Reducing Transformer Depth on Demand with Structured Dropout. arXiv:1909.11556
Sajjad, H., Dalvi, F., Durrani, N., Nakov, P. Poor Man’s BERT: Smaller and Faster Transformer Models. arXiv:2004.03844
Voita, E., Talbot, D., Moiseev, F., Sennrich, R., Titov, I. Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned. arXiv:1905.09418
Michel, P., Levy, O., Neubig, G. Are Sixteen Heads Really Better than One? arXiv:1905.10650
Xia, M., Zhong, Z., Chen, D. Structured Pruning Learns Compact and Accurate Models (CoFi). arXiv:2204.00408
知乎专栏（CoFi相关笔记）：https://zhuanlan.zhihu.com/p/510614211

LLM Application

Thu, 23 Apr 2026 23:54:07 +0000

LLM的应用¶

约 39 个字预计阅读时间不到 1 分钟

1.LLM的应用示例¶

2.生成指令数据¶

3.LLM的量化和部署¶

4.本地化开发和应用¶

5.工具调用和自动化¶

Pre-training

Thu, 23 Apr 2026 23:54:07 +0000

Pre-training¶

约 212 个字预计阅读时间 1 分钟

1.什么是预训练？¶

Pre-training是指在一个较小的、特定任务的数据集上进行微调之前，在一个大数据集上训练一个模型的过程。这个初始阶段允许模型从数据中学习一般的特征和表征，然后可以针对具体任务进行微调。

简单来说就是让模型具备通用能力。

数据：海量无标注/弱标注数据（如互联网文本、图像库）。

2.LLM的基本结构¶

2.1 Alpaca¶

2.2 Vicuna¶

2.3 前置归一化¶

pre-norm, post-norm, RMSNorm, LayerNorm

2.4 SwiGLU¶

2.5 Scaling Law¶

3.注意力机制的优化¶

3.1 Longformer Sparse Attention¶

3.2 MHA/MQA/GQA¶

4.位置编码策略¶

4.1 RoPE¶

4.2 ALiBi(Attention with Linear Biases)¶

5.长上下文处理策略¶

5.1 位置插值法¶

5.2 基于NTK的方法¶

5.3 LongLoRA¶

5.4 YaRN (Yet another RoPE extension methods)¶

6.Reference¶

什么是预训练？

Deepspeed

Thu, 23 Apr 2026 23:54:07 +0000

Deepspeed¶

约 1 个字预计阅读时间不到 1 分钟

Overview

Thu, 23 Apr 2026 23:54:07 +0000

模型概览¶

约 65 个字预计阅读时间不到 1 分钟

1.Vendor-Oriented¶

按照厂家有OpenAI、Anthropic、Google、DeepSeek、xAI、Meta AI、Alibaba、ByteDance、Zhipu、Moonshot、MiniMax、Xiaomi等。

2.Domain-Oriented¶

按照模型类别可以划分为Dense LLM、MoE、VLM等。

3.Reference¶

AI江湖的金庸群侠传：全球主流 AI 大模型厂商深度调研

Alibaba

Thu, 23 Apr 2026 23:54:07 +0000

Alibaba¶

约 3 个字预计阅读时间不到 1 分钟

Qwen3.6

Qwen3-VL

Anthropic

Thu, 23 Apr 2026 23:54:07 +0000

Athropic¶

约 14 个字预计阅读时间不到 1 分钟

Claude Haiku/Sonnet/Opus 4.7,Mythos?

Claude Code(CLI) Desktop

MCP

Constitutional AI

Claude Design

ByteDance

Thu, 23 Apr 2026 23:54:07 +0000

ByteDance¶

约 7 个字预计阅读时间不到 1 分钟

Doubao-Seed-2.0 Pro/Lite/Mini/Code

Trae

Seedance 2.0

Coze

Google

Thu, 23 Apr 2026 23:54:07 +0000

Google¶

约 5 个字预计阅读时间不到 1 分钟

Gemini 3.1pro

Nano Banana

Meta AI

Thu, 23 Apr 2026 23:54:07 +0000

Meta AI¶

约 9 个字预计阅读时间不到 1 分钟

Llama系列（完全开源）

MiniMax

Thu, 23 Apr 2026 23:54:07 +0000

MiniMax¶

约 22 个字预计阅读时间不到 1 分钟

MiniMax M2.7

MiniMax-Text-01 新一代纯文本模型

MiniMax-VL-01 视觉语言多模态模型

Moonshot

Thu, 23 Apr 2026 23:54:07 +0000

Moonshot¶

约 7 个字预计阅读时间不到 1 分钟

Kimi2.6 Agent / Agent Swarm

Attention Residuals¶

OpenAI

Thu, 23 Apr 2026 23:54:07 +0000

OpenAI¶

约 35 个字预计阅读时间不到 1 分钟

GPT系列：GPT-5.4

o系列（深度推理）

开源系列 gpt-oss：gpt-oss-120B / gpt-oss-20B

Codex

Sora视频生成

GPT-Image-2图像生成

Whisper语音识别

xAI

Thu, 23 Apr 2026 23:54:07 +0000

xAI¶

约 3 个字预计阅读时间不到 1 分钟

Grok 4.1

Xiaomi

Thu, 23 Apr 2026 23:54:07 +0000

Xiaomi¶

约 5 个字预计阅读时间不到 1 分钟

Xiaomi MiMo-V2.5-Pro

MiMo-V2.5-TTS / -ASR

Zhipu

Thu, 23 Apr 2026 23:54:07 +0000

ZhipuAI¶

约 14 个字预计阅读时间不到 1 分钟

GLM 5.1

GLM-4V

CogView-4图像生成

CogVideoX视频生成

Information Extraction

Thu, 23 Apr 2026 23:54:07 +0000

信息抽取¶

约 24 个字预计阅读时间不到 1 分钟

1.信息抽取概述¶

2.命名实体识别¶

3.关系抽取¶

4.事件抽取¶

Machine Translation

Thu, 23 Apr 2026 23:54:07 +0000

机器翻译¶

约 4 个字预计阅读时间不到 1 分钟

Pretraining LM Advanced

Thu, 23 Apr 2026 23:54:07 +0000

预训练语言模型进阶¶

约 71 个字预计阅读时间不到 1 分钟

1.模型优化¶

1.1 XLNet¶

1.2 RoBERTa¶

1.3 ALBERT¶

1.4 ELECTRA¶

1.5 MacBERT¶

2.长文本处理¶

2.1 Transformer-XL¶

2.2 Reformer¶

2.3 Longformer¶

2.4 BigBird¶

3.模型蒸馏与压缩¶

3.1 DistilBERT¶

3.2 TinyBERT¶

3.3 MobileBERT¶

3.4 TextBrewer¶

4.生成模型¶

4.1 BART¶

4.2 UniLM¶

4.3 T5: Text-to-Text Transfer Transformer¶

4.4 GPT-3: Language Models are Few-Shot Learners¶

Pretraining LM

Thu, 23 Apr 2026 23:54:07 +0000

预训练语言模型¶

约 9 个字预计阅读时间不到 1 分钟

1.GPT¶

2.BERT¶

Sentiment Analysis

Thu, 23 Apr 2026 23:54:07 +0000

情感分析¶

约 4 个字预计阅读时间不到 1 分钟

Tokenization

Thu, 23 Apr 2026 18:11:38 +0000

Tokenization¶

约 1 个字预计阅读时间不到 1 分钟

Overview

Thu, 23 Apr 2026 18:11:38 +0000

LLM Compression¶

约 338 个字预计阅读时间 1 分钟

当前的压缩方法有量化（Quantization）、剪枝（Pruning）、知识蒸馏（Knowledge Distillation）和低秩分解（Low-Rank Decomposition）。

技术	核心原理	典型代表方法	主要优势	主要局限	适用场景
量化	降低参数/激活值的数值精度，如 FP32 → INT8	GPTQ, AWQ, SmoothQuant, QLoRA	压缩效果好，通用性强，推理加速明显	PTQ 在极低比特下可能有精度损失	几乎所有部署场景，是首选技术
剪枝	移除不重要的权重或神经元	SparseGPT (非结构化), 结构化剪枝	可显著减少参数量与计算量	非结构化剪枝依赖硬件支持；需微调恢复精度	追求极致压缩，尤其在支持稀疏计算的硬件上
知识蒸馏	让小模型（学生）学习大模型（教师）的行为	DistilBERT, TinyBERT	可构建极度轻量的模型，部署灵活	训练过程复杂，学生模型性能上限受限于教师模型	需要获得一个结构完全不同的小模型时
低秩分解	将权重矩阵分解为两个或多个低秩小矩阵	LoRA, QLoRA	参数高效微调（PEFT），与量化技术天然互补	单独压缩效果有限，通常与其他技术结合使用	配合微调（如 QLoRA）或作为辅助压缩手段

Context Sparsity

Thu, 23 Apr 2026 18:11:38 +0000

Context Sparsity¶

约 974 个字预计阅读时间 3 分钟

上下文稀疏性（contextual sparsity）指：对给定输入，只需动用模型中一小部分、随输入而变的注意力头与 MLP 参数子集，即可在近似意义上复现稠密前向的输出；稀疏模式依赖整条上下文（token 及其相互作用），而非仅依赖单个 token 的静态嵌入。它与训后一次性固定掩码的静态掩码相对：动态剪枝在推理前向中按当前层输入、中间表示等实时决定保留哪些头、神经元或计算路径，从而在不改预训练权重的前提下省算力。

上下文稀疏性这一概念在Deja Vu中首次提出，论文是这样定义的：不显式重训大模型，在推理时对每一层、每一步生成，为当前输入选出结构化稀疏子集——具体是注意力头集合 $S_A$ 与 MLP 神经元集合 $S_M$——使得稀疏注意力 $\mathrm{MHA}_{S_A}$ 与稀疏 MLP $\mathrm{MLP}_{S_M}$ 的输出与全量计算足够接近。这类稀疏是输入条件（input-conditioned）的：不同样本、不同上下文对应不同的 $S_A, S_M$，因此称为上下文稀疏，以区别于与输入无关的全局静态稀疏。

Deja Vu 的关键发现：

上下文稀疏性的存在性：在 OPT 等预训练 LLM 上，用两遍前向的验证方式：第一遍记录对当前输入输出范数较大的头与 MLP 神经元，第二遍只算这些子集；在多种语言建模与 in-context learning 任务上，性能与稠密模型接近。实证上平均可对注意力头施加约 80% 稀疏、对 MLP 神经元约 95% 稀疏；结合 MLP 参数量更大，整体约 85% 量级的结构化上下文稀疏，理论上对应可观的计算/访存缩减空间。
可预测性依赖上下文，而非单 token：仅用单 token 嵌入、不含足够上下文信息时，稀疏模式预测不准；需要携带前文混合信息的层间表示，才能较准地预测当前步需要的头与神经元。稀疏选择与层参数（头/MLP）和上一层输出之间的相似性相关，这一观察支撑了后面的预测算法设计。
注意力侧的直觉：并非均匀重要的头：部分头呈现近似均匀混合（对所有 token 注意力较平），另一部分头在特定 token 上形成高注意力峰值；对预测而言，保留重命中式头、略去对当前步贡献小的头，往往仍能保持输出质量。论文还将单头动力学与均值漂移式聚类等视角联系，解释为何不同头在不同投影空间里刻画不同的 token 交互，从而自然出现按输入变化的稀疏激活。
MLP 侧与残差：动态预测可行的结构原因：激活函数使 MLP 本身存在激活稀疏；同时残差连接使 token 表示在相邻层间变化相对缓慢，因此可以用跨层的 lookahead 预测下一子模块需要的稀疏子集，而不必在每一步都付出完全的串行预测开销。

近年来相关论文如下：

Reference¶

Deja Vu: 利用上下文稀疏性提升大语言模型推理效率

论文笔记：DejaVu、LLM in Flash、PowerInfer

LLM Pruning

Thu, 23 Apr 2026 18:11:38 +0000

LLM Pruning¶

约 2557 个字预计阅读时间 8 分钟

剪枝通过移除冗余权重或结构单元来压缩模型：与量化侧重降低数值精度不同，剪枝侧重减少参与计算的参数或改变结构。关于pruning的论文合集你可以看awesome-pruning。

1.剪枝的基础原理¶

1.1 为什么需要剪枝？¶

大规模语言模型往往过参数化，存在可移除的冗余权重。我们可以将大模型分为训练和推理两个阶段，训练阶段是根据数据学习模型中的参数（对MLP来说主要是网络中的权重）；推理阶段中将新数据给模型，经过计算得出结果。过参数化是指训练阶段我们需要大量的参数来捕捉数据中的微小信息，而到了推理阶段则并不需要那么多参数，因此就可以在部署前对模型进行简化。
在可控精度损失下，剪枝可减小参数量与理论计算量，使得计算实践更少，功耗更小。同时对设备要求变低，可以放在更低端的设备上跑。
也有pruning后精度提高的，说明原模型overfit了，pruning起到了regularization的作用。

1.2 分类¶

分类维度	类型	说明	硬件友好度
粒度	非结构化剪枝	任意位置移除单个权重，得到稀疏矩阵	低：依赖稀疏 GEMM（通用矩阵乘）、专用内核或半结构化模式
	结构化剪枝	移除整行/整列、注意力头、FFN 神经元等	高：矩阵维度变小，易在通用 GEMM 上加速
时机	训练前剪枝	基于初始化或随机掩码	较少单独用于 LLM
	训练中剪枝	动态调整稀疏掩码、稀疏训练	灵活，训练与搜索成本高
	训练后剪枝	对已训练模型剪枝，可选校准与微调	LLM 场景最常见

1.3 评估维度¶

重要性分数（importance score）：如何为每个权重或结构单元打分（幅度、梯度、Hessian 近似、激活相关项等）。
稀疏度（sparsity ratio）：被剪除权重的比例，可以定义为层中0参数所占比例；结构化场景则对应移除头/神经元比例等。稀疏度可以预先定义，也可以在剪枝过程中自动化，由pruning算法确定各模块的剪枝比例，而不是一开始固定一个值。
精度恢复（accuracy recovery）：裁完后进行fine-tuning可以弥补pruning带来的精度损失，因此很多方法会在pruning后做fine-tuning。比较经典的是training，pruning，fine-tuning三段式。后面两个阶段交替进行，每次pruning后损失的精度可以由后面的fine-tuning来弥补，该过程也称为iterative pruning。评估指标有困惑度，是否需要calibration或LoRA微调等。

困惑度

在语言建模范式下，困惑度（perplexity, PPL）用来概括模型在一段无标签文本上预测下一个 token 的难易程度：PPL 越低，通常表示模型对语料的平均预测更自信、语言建模样本内拟合更好；是否与下游任务、泛化一致，仍需结合其他指标。

设语料有 $N$ 个被计入损失的 token，位置 $t$ 上模型输出下一 token 的分布，真实出现的 token 为 $w_t$，条件概率为 $p(w_t \mid w_1, \ldots, w_{t-1})$（也简记为给定上文的 $p(w_t\!\mid\!\text{context})$）。平均负对数似然（NLL，按 token 平均）为：

\[ NLL = -\frac{1}{N} \sum_{t=1}^{N} \log p\bigl(w_t \mid w_1, \ldots, w_{t-1}\bigr) \]

困惑度定义为：

\[ PPL = e^{NLL} = \exp\!\left(-\frac{1}{N} \sum_{t=1}^{N} \log p\bigl(w_t \mid w_1, \ldots, w_{t-1}\bigr)\right) \]

模型能力（capacity）：主流pruning方法中，被裁剪的部分一般直接丢弃不会再拿回来了，即模型的capacity在iterative pruning的过程中不断减少。如此一旦有参数被不适当地裁剪掉便无法被恢复。近年来在模型压缩过程中保留被裁剪部分能力或者扩充能力的方法不断被提出。

2.剪枝方法演进¶

2.1 传统剪枝¶

幅度（magnitude-based）：剪掉绝对值小的权重，实现简单、代价低，大模型 one-shot 时常弱于利用层间敏感度、梯度或激活信息的方法。《Comparing Biases for Minimal Network Construction with Back-Propagation》提出了magnitude-based的pruning方法，即对网络中每个hidden unit施加与其绝对值相关的weight decay来最小化hidden unit数量。
梯度（gradient-based）：用损失对权重的导数、或一阶/二阶泰勒项估计删掉某个权重/神经元对误差的扰动，与纯幅值法对照；是部分结构化剪枝的基础。
二阶导数（Hessian）：基于损失函数相对于权重的二阶导数（对权重向量来说即Hessian矩阵）来衡量网络中权重的重要程度，然后对其进行裁剪，必要时对剩余权重做补偿；经典代表为 OBD、OBS，在 LLM 上由 SparseGPT、LLM-Surgeon 等延续。
Deep Compression：采用剪枝 → 量化 → 哈夫曼编码流水线，对当时经典网络AlexNet和VGG进行了压缩，其中对于pruning带来的精度损失，使用了iterative pruning方法进行补偿，可以让精度几乎没有损失。
正则化（regularization-based）：L1、group sparsity等，把稀疏性写进目标函数。
迭代（iterative pruning）：多轮剪去一部分 → 短微调 → 再剪，和 one-shot（一次定掩码再校准）相对；传统 CNN 压缩里很常见，和 Deep Compression 的剪完再训叙述一致，部署周期通常长于单次剪枝。

2.2 LLM 剪枝的代表性方法¶

方法	类型	核心思想	是否需要微调
OBD（Optimal Brain Damage）	非结构化（经典）	用对角近似 Hessian 估计删去单个权重对损失的影响	通常需要重训练或后续微调
OBS（Optimal Brain Surgeon）	非结构化（经典）	在 OBD 上引入更完整的二阶信息，并在剪除时做权重补偿	常需与再训练/微调配合
SparseGPT	非结构化	借鉴 OBS 类思路，在单次剪枝中用近似二阶信息做权重更新，减轻全量重训练依赖	常配合少量校准数据，不依赖大规模梯度训练
Wanda	非结构化	用权重与输入激活（如行范数）构造重要性，无需 Hessian	一般无需微调即可保持较好 PPL
LLM-Pruner	结构化	基于梯度等信号识别可移除的耦合结构（头、神经元等）	通常需要 LoRA 等快速微调
LLM-Surgeon	非结构化/半结构化/结构化	将 Kronecker 分解等曲率近似扩到 LLM 规模，联合决定删谁与对剩余权重的更新	剪枝中已含权重复原式更新；是否再训看目标与算力
DISP-LLM	结构化	面向维度的解耦式结构剪枝，用超网络等为各层/块学不同的保留模式，各块宽度可不一致	主模型常冻结，以剪枝/辅助模块训练为主
Compresso	结构化	指令微调阶段结合 LoRA 与 L0/协作式提示，在结构化剪枝下恢复指令跟随与通用能力	是（与指令微调/LoRA 同阶段）
FLAP	结构化	基于输出特征图可恢复性等波动式重要性，加偏置补偿，追求免重训的硬件友好裁剪	一般无需全量重训
LoRAPrune	结构化	用 LoRA 权重/梯度作重要性，避免在冻结主干上存完整权重梯度，迭代剪通道/头	依赖 LoRA 式迭代与合并流程
LoRAP	结构化（差异化）	对子层分治：MHA 侧用激活加权的低秩/谱分解，FFN 侧用无梯度通道剪枝	按论文设定有对应微调/压缩阶段
SlimGPT	结构化	在 OBS 思路上做层内批量贪心、动态度与增量剪枝率，控累积误差、偏快速近似最优	轻量重算或再训依实验设定
SliceGPT	结构化	利用 Transformer 的计算不变性，通过正交变换后裁掉矩阵行列以缩小隐藏维	常无需大规模数据再训（配合变换）
Týr-the-Pruner	结构化	以逐层多稀疏率建超网、再搜全局层间稀疏分布，使总体稀疏满足目标时误差可接受	依管线可选继续训练
ZipLM	结构化	在目标环境下迭代剪掉损失–时延/算力最差的结构单元，与推理方式绑定	可一次性或逐步压缩，看设定
Sheared-LLaMA	结构化	在续训过程中按任务目标做结构化裁减，把大模型剪到小预算再继续预训练/对齐	是（续训/剪枝一体）

2.3 重要性评分机制¶

幅度：$ \text{score} \propto |W| $（逐元素）。
SparseGPT：在 OBS 框架下利用 Hessian 逆的近似（常是对角或块对角），使剪掉权重后的单层误差可控。
Wanda（典型形式）：用权重与激活共同刻画敏感度，例如对输出通道维度有 $ \text{score}_j \propto |W_{:,j}| \odot \|X_{:,j}\|_2 $ 一类形式（$X$ 为校准时的输入激活）。

2.4 与 Transformer 结构的关系¶

剪枝对象多为 Q/K/V/O 投影、FFN/SwiGLU 分支；结构化方法常剪MHA或FFN中间维度。
全参微调昂贵，故 post-training 剪枝常与少量校准方法或LoRA搭配。

3.其他剪枝论文¶

4.Reference¶

深度学习网络模型压缩剪枝详细分析

MoE Compression

Thu, 23 Apr 2026 18:11:38 +0000

MoE Compression¶

约 246 个字预计阅读时间 1 分钟

SMoE（Sparse Mixture of Experts）的显存与部署压力主要来自专家总参数量与加载，与稠密 FFN 剪枝的设定不同。近年工作多围绕：专家级或神经元级删除/重分配、用路由/激活指引剪专家内部或整条专家、子空间/输出视角的专家合并等。

近年来相关论文如下：

Quantization

Thu, 23 Apr 2026 18:11:38 +0000

Quantization¶

约 167 个字预计阅读时间 1 分钟

Quantization is the process of converting the parameters and activations of a model to a lower precision. For example, weights stored using 16 bits can be converted into a 4-bit representation. This technique has become increasingly important to reduce the computational and memory costs associated with LLMs.

Base techniques: Learn the different levels of precision (FP32, FP16, INT8, etc.) and how to perform naïve quantization with absmax and zero-point techniques.

GGUF & llama.cpp: Originally designed to run on CPUs, llama.cpp and the GGUF format have become the most popular tools to run LLMs on consumer-grade hardware. It supports storing special tokens, vocabulary, and metadata in a single file.

GPTQ & AWQ: Techniques like GPTQ/EXL2 and AWQ introduce layer-by-layer calibration that retains performance at extremely low bitwidths. They reduce catastrophic outliers using dynamic scaling, selectively skipping or re-centering the heaviest parameters.

SmoothQuant & ZeroQuant: New quantization-friendly transformations (SmoothQuant) and compiler-based optimizations (ZeroQuant) help mitigate outliers before quantization. They also reduce hardware overhead by fusing certain ops and optimizing dataflow.

Overview

Thu, 23 Apr 2026 18:11:38 +0000

LLM Deploy¶

约 200 个字预计阅读时间 1 分钟

Deploying LLMs at scale is an engineering feat that can require multiple clusters of GPUs. In other scenarios, demos and local apps can be achieved with much lower complexity.

Local deployment: Privacy is an important advantage that open-source LLMs have over private ones. Local LLM servers (LM Studio, Ollama, oobabooga, kobold.cpp, etc.) capitalize on this advantage to power local apps.

Demo deployment: Frameworks like Gradio and Streamlit are helpful to prototype applications and share demos. You can also easily host them online, for example, using Hugging Face Spaces.

Server deployment: Deploying LLMs at scale requires cloud (see also SkyPilot) or on-prem infrastructure and often leverages optimized text generation frameworks like TGI, vLLM, etc.

Edge deployment: In constrained environments, high-performance frameworks like MLC LLM and mnn-llm can deploy LLM in web browsers, Android, and iOS.

📚 References:

Streamlit - Build a basic LLM app: Tutorial to make a basic ChatGPT-like app using Streamlit.

HF LLM Inference Container: Deploy LLMs on Amazon SageMaker using Hugging Face's inference container.

Philschmid blog by Philipp Schmid: Collection of high-quality articles about LLM deployment using Amazon SageMaker.

Optimizing latence by Hamel Husain: Comparison of TGI, vLLM, CTranslate2, and mlc in terms of throughput and latency.

Overview

Thu, 23 Apr 2026 18:11:38 +0000

LLM Evaluation¶

约 1045 个字预计阅读时间 3 分钟

1.核心评估框架：从传统指标到模型裁判¶

评估一个LLM，可以根据测试目标和可用资源，选择不同层次的评估方法。

传统自动指标 (Traditional Metrics)：包括 BLEU、ROUGE、BERTScore 等，适用于机器翻译、文本摘要等有标准答案的任务，通过计算n-gram重叠或语义相似度来打分。它们计算快，但无法衡量语义的细微差别和逻辑连贯性。
评测基准 (Benchmarks)：这是最主流的方法，通过让模型做一系列标准化“考题”来评分。常用基准按能力划分，例如：GLUE/SuperGLUE（基础语言理解）、MMLU（多任务知识）、HellaSwag（常识推理）、TruthfulQA（真实性）。这种方式结果直观、可复现，但存在数据污染和刷榜风险。
人类评估 (Human Evaluation)：由人工评估者直接评价模型输出的质量，通常是最可靠但也是成本最高、最耗时的评估方式。
模型作为裁判 (LLM-as-a-Judge)：让一个能力强大的LLM（如GPT-4）去评估其他模型的输出。它能处理复杂的、开放式的生成任务，但可能存在偏见和不一致。
系统评估 (System Evaluation)：与仅针对基座模型的模型评估不同，系统评估更关注LLM在真实应用场景（如RAG系统、Agent）中的综合表现，包括提示工程、检索逻辑、工具调用等整个管线的效果。

2.常用评测基准¶

GLUE / SuperGLUE：评估通用的语言理解能力。GLUE包含9项自然语言理解任务，SuperGLUE是难度升级版。
MMLU：衡量模型在57个学科（包含STEM、人文、社科等）上的知识广度。MMLU-Pro是难度升级版，GPQA的问题则更难，旨在达到“专家级”水平。
BIG-bench：包含200多个超难任务，旨在探索LLM的极限能力。
HELM (Holistic Evaluation of Language Models)：一个更全面的评估框架，除了准确性，还强调鲁棒性、公平性、偏见、效率等多个维度。
C-Eval：一个全面的中文基础模型评估套件，覆盖了人文、社科、理工等多个领域。
TruthfulQA：专门用于衡量模型回答的真实性，检测其是否倾向于模仿人类的常见错误认知。
SafetyBench：专注于评估模型在安全、偏见、伦理等方面的表现。
HumanEval：用于评估模型生成代码的正确性和功能性，是代码能力的经典基准。
AGIEval：使用人类标准化考试（如高考、司法考试）的题目来评估模型的“人机对齐”水平。

3.评估面临的挑战¶

数据污染：评测数据集可能无意中混入模型的训练数据，导致分数虚高，无法反映真实能力。
模型敏感性：LLM对提示词的微小变化非常敏感，这会影响结果的稳定性和可复现性。
评估成本与偏见：人类评估成本高昂，而LLM作为裁判又可能引入新的偏见。
动态性与复杂度：静态基准测试难以衡量模型在动态、多步骤交互环境下的真实能力，为此研究人员正探索动态评估方法。
评估流程不统一：不同研究的评估设置差异巨大，导致结论不一致。
安全与价值观风险：LLM可能生成违背人类价值观或存在偏见的内容，甚至被恶意输入诱导。

4.评估工具与最佳实践¶

关键实践步骤：

明确评估目标：先明确业务目标和成功标准。
创建测试集：构建能代表真实应用场景的数据。
选择合适的指标：为不同场景挑选合适的评估指标（如RAG系统可关注忠诚度、上下文相关性等）。
使用评估工具：借助DeepEval、Ragas等框架，高效实现评估流程。
持续监控：将评估集成到开发和部署流程中，进行持续监控和优化。

5.Reference¶

evaluation-guidebook

Language Model Evaluation Harness

Build an LLM Evaluation Framework: Metrics, Methods & Tools

Enhancing Evaluation Practices for Large Language Models

Overview

Thu, 23 Apr 2026 18:11:38 +0000

LLM Reinforcement Learning¶

约 4 个字预计阅读时间不到 1 分钟

Awesome-RL-for-LRMs

Agentic RL

Thu, 23 Apr 2026 18:11:38 +0000

Agentic RL¶

约 2 个字预计阅读时间不到 1 分钟

RLAIF

Thu, 23 Apr 2026 18:11:38 +0000

RLAIF¶

约 1 个字预计阅读时间不到 1 分钟

RLVR

Thu, 23 Apr 2026 18:11:38 +0000

RLVR¶

约 1 个字预计阅读时间不到 1 分钟

Overview

Thu, 23 Apr 2026 18:11:38 +0000

大模型安全¶

约 794 个字预计阅读时间 2 分钟

资料：LLM Security

1.为何需要LLM安全？¶

幻觉（Hallucination）：模型在缺乏证据时生成看似可信但错误的内容，若直接用于自动化决策或工具链将带来实际风险。

指令/数据边界模糊 → 指令注入（Prompt Injection）：在 RAG、浏览器/邮箱读取、插件/工具链调用等场景，外部数据中的隐藏指令可能被模型误当作“要执行的命令”，引发直接或间接指令注入、提示泄露（Prompt Leaking）等。

调用过程中的隐私暴露：云端推理与 RAG 检索会产生查询隐私、向量嵌入反演、知识库成员推断等问题，导致企业/个人敏感数据泄露。

其他相关问题：模型/Agent 越权执行、工具授权与能力委托、供应链与插件生态风险、数据/知识库投毒、可观测与取证缺失、评测与复现实验基准不足等。

2.细分领域¶

LLM Safety主要围绕“攻击”（如何攻破）和“防御”（如何加固）两大方面展开。

细分领域	核心关注点	主要攻击方式	主要防御策略
对齐与价值对齐 (Alignment & Value Alignment)	核心使命是引导LLM行为符合人类的价值观，在“有帮助”和“无害”之间找到平衡。	越狱、提示注入、模型微调引入安全风险、多轮对话操纵。	RLHF、RLAIF、DPO、对抗性训练、推理增强的微调。
鲁棒性与对抗性攻击 (Robustness & Adversarial Attacks)	研究LLM在面对恶意输入时的脆弱性，寻找绕过其安全护栏的方法。	基于提示的攻击、基于模型的攻击、多模态攻击、多语言攻击、梯度优化攻击。	提示过滤与转换、多智能体防御、输入净化、可解释的防御机制。
隐私保护 (Privacy Protection)	防止模型在训练或推理时泄露、生成或推理出用户的个人敏感信息。	数据提取攻击、模型逆向攻击、成员推理攻击、隐私泄露。	差分隐私（DP）、联邦学习、安全多方计算（MPC）、数据去标识化。
公平性与偏见 (Fairness & Bias)	识别并减轻LLM中可能存在的、针对特定人群或内容的刻板印象和歧视。	训练数据中的偏见、模型学到的社会刻板印象、算法歧视。	公平性算法、偏见识别与缓解技术、构建去偏数据集、人机协同审核。
智能体安全 (Agent Safety)	应对能自主感知、规划和使用工具的LLM智能体所带来的新安全挑战。	目标错位、工具滥用、过度代理、提示注入、多智能体间的恶意合作。	基于规则的约束、沙箱隔离、工具使用审查、人机回环（Human-in-the-loop）。
模型编辑与遗忘 (Model Editing & Unlearning)	在后期精准修改特定知识或“遗忘”有害信息，而不影响模型整体性能。	知识编辑可能被反向利用来植入恶意信息或后门。	模型编辑（Model Editing）、机器遗忘（Machine Unlearning）、安全知识蒸馏。

Agent Safety

Thu, 23 Apr 2026 18:11:38 +0000

Agent Safety¶

约 332 个字预计阅读时间 1 分钟

LLM驱动的AI Agents中的安全性问题：LLM Agents 将“感知—规划—工具执行—反馈—记忆”闭环化，并使用浏览器、文件系统、代码解释器、企业 API 等外部能力完成开放环境任务；因此暴露出更复杂的系统化攻击面。

工具滥用与越权执行：高危工具（执行代码/脚本、shell、财务/法务系统 API）被诱导调用会产生真实世界副作用（数据改写、越权访问、资金转移等）。
（间接）指令注入与提示泄露：来自网页/文档/第三方服务响应中的恶意指令可劫持代理目标或窃取系统提示/密钥。
记忆与知识库投毒：被污染内容写入长期记忆后，在后续决策与工具调用时被持续放大。
后门与策略植入：在多步任务或多代理协作中，隐蔽触发条件可改变代理策略与目标（goal hijacking）。
供应链风险：页面脚本、下载文件、第三方扩展/插件与远端 API 引入新的入口，放大凭据泄露、会话劫持与数据外传风险。
评测与取证困难：长时序、多回合、多工具链路导致复现、问责与合规审计难度高。

LlaVA

Thu, 23 Apr 2026 18:11:38 +0000

LlaVA¶

约 7 个字预计阅读时间不到 1 分钟

LLaVA: Large Language and Vision Assistant

RNN

Thu, 23 Apr 2026 18:11:38 +0000

RNN¶

约 4 个字预计阅读时间不到 1 分钟

1.RNN¶

2.LSTM¶

3.GRU¶

Academic Prompt

Thu, 23 Apr 2026 18:11:38 +0000

学术提示词总结¶

约 1163 个字 98 行代码预计阅读时间 5 分钟

1.Preparation¶

首先我们要知道学术提示词仍然是提示词，因此提示词的技巧仍然适用，可以给定大模型一个角色定位和行为边界，参考系统提示词的写法，然后再引导其进行论文翻译和润色。

比如：

假设你是一名资深的中英文翻译大师和英语学术作者，请帮我翻译一些中文段落成英文，确保你的语言符合专业学术期刊的语言风格。对翻译的要求有以下几点:1.确保翻译成英文的语言和原文意义一致，不可篡改原文意思；2.提供确切定义，确保你的术语和定义准确无误，特别是对于领域的专有名词和术语；2. 确保语言的逻辑关系准确，条理清晰；3. 采用简洁明确的表达方式，避免使用模糊或不必要的词汇、术语或句子；4. 注意英语语法表达的准确性，确保句子结构正确。你能做到吗？

2.chatgpt-prompts-for-academic-writing ¶

2.1 BRAINSTORMING¶

Find a research topic for a PhD in the area of [TOPIC]

Write a detailed proposal on the following research topic. Make Sure it is free from plagiarism. [PARAGRAPH]

Identify gaps in the literature on [TOPIC SENTENCE]

Generate 10 academic research questions about [PARAGRAPHS]

Generate a list of research hypotheses related to [TOPIC SENTENCE]

Identify potential areas for future research in the context of this [TOPIC SENTENCE]

Suggest novel applications of [TOPIC SENTENCE] within [RESEARCH DOMAIN]

2.2 ARTICLE SECTIONS¶

Title/Topic Sentence¶

Suggest 5 titles for the following abstract: [ABSTRACT PARAGRAPH]

Write a topic sentence for this paragraph: [PARAGRAPH]

Keywords¶

Provide 5 keywords for this: [PARAGRAPHS]

Abstract¶

Generate an abstract for a scientific paper based on this information for: [PARAGRAPHS]

Outline¶

Generate an outline for [TOPIC SENTENCE]

I want to write a journal article about [TOPIC SENTENCE]. Give me an outline for the article that I can use as a starting point.

Introduction¶

Come up with an introduction for the following research topic: [TOPIC SENTENCE]

Literature Review¶

Conduct a literature review on [TOPIC SENTENCE] and provide review paper references

Provide me with references and links to papers in [PARAPGRAPH]

NOTE: Be careful and double-check article existence. ChatGPT may generate fake references

Summarize the scholarly literature, including in text citations on [PARAGRAPHS]

Write this in standard Harvard referencing [PARAGRAPH]

Convert this [BIBLIOGRAPHY] from MLA to APA style.

Compare and contrast [THEORY1] and [THEORY2] in the context of [RESEARCH DOMAIN]:

Methodology¶

Create objectives and methodology for [TOPIC SENTENCE]

Write a detailed methodology for the topic: [TOPIC SENTENCE]

Analyze the strengths and weaknesses of this methodology: [PARAGRAPHS]

Write objectives for this study: [TOPIC SENTENCE]

What are the limitations of using [TOPIC SENTENCE] in [RESEARCH DOMAIN]?

Create a recipe for the methods used in this [PARAGRAPHS]

Suggest interdisciplinary approaches to [TOPIC SENTENCE]

Explain how qualitative/quantitative research methods can be used to address [RESEARCH QUESTIONS]

Recommend best practices for data collection and analysis in [TOPIC SENTENCE]

Experiments¶

Design an experiment that [ACTION]

Results¶

Write a result section for the following paragraphs. Please write this in the third person. [PARAGRAPHS]

Discussion¶

Discuss these results: [RESULT PARAGRAPHS]

Conclusion¶

Generate a conclusion for this: [PARAGRAPHS]

Give recommendations and conclusion for: [PARAGRAPHS]

Future Works¶

Can you suggest 3 directions for future research on this topic: [PARAGRAPH]?

2.3 IMPROVING LANGUAGE¶

Rewrite this paragraph in an academic language: [PARAGRAPH]

Paraphrase the text using more academic and scientific language. Use a neutral tone and avoid repetitions of words and phrases. [PARAGRAPH]

Correct the grammar: [PARAGRAPH]

What do you think of how this paragraph is written?:  [PARAGRAPH]

What 3 points would you suggest to improve this paragraph?: [PARAGRAPH]

Improve the style of my writing? [PARAGRAPHS]

Improve the clarity and coherence of my writing [PARAGRAPHS]

Improve the organization and structure of my paper [PARAGRAPHS]

Provide feedback on this text and suggest areas for improvement [PARAGRAPHS]

Can you improve this paragraph using passive voice: [PARAGRAPH]

Can you improve this paragraph to make it more cohesive? [PARAGRAPH]

Analyze the text below for style, voice, and tone. Using NLP, create a prompt to write a new article in the same style, voice, and tone: [PARAGRAPHS]

Please write a few paragraphs using the following list of points [LIST]

Give three variations of this sentence: [SENTENCE]

Write a transition sentence to connect the following two paragraphs: [PARAGRAPH1] [PARAPGRAPH2]

Provide effective transitions between paragraphs [PARAGRAPH1] [PARAGRAPH2]

Rewrite this paragraph as an introduction: [PARAGRAPH]

Rewrite this paragraph as a conclusion: [PARAGRAPH]

Write a counterargument to the following claim: [PARAGRAPH]

Rewrite this in an academic voice: [PARAGRAPH]

Expand these notes: [PARAGRAPH]

Provide me a list of words and phrases which were repeatedly / more than 3 times used: [PARAGRAPHS]

Provide me a list of synonyms for [PARAGRAPH] and evaluate them in the context of [PARAGRAPH]

Act as a language expert, proofread my paper on [TOPIC SENTENCE] while putting a focus on grammar and punctuation.

In the context of [RESEARCH DOMAIN] translate [PARAPGRAPH] into the [LANGUAGE] language.

Proofread the following text for spelling and grammatical errors and rewrite it with corrections. [PARAGRAPHS]

2.4 SUMMARIZATION¶

Summarize the following content: [PARAPGRAPHS]

Summarize the text in simpler and easier-to-understand terms. [PARAGRAPHS]

Come up with a summary that is exactly [NUMBER OF WORDS] words: [PARAPGRAPHS]

Reduce the following to [NUMBER OF WORDS] words: [PARAPGRAPHS]

Shorten to [NUMBER OF CHARACTERS] characters: [PARAPGRAPHS]

Give me a bullet point summary for [PARAPGRAPHS]

Extract the important key points of this: [PARAPGRAPHS]

Summarize the text by extracting the most important information in the form of bullet points [PARAGRAPHS]

Explain this again but simpler: [PARAGRAPHS]

Explain this research to a 12 year old: [PARAGRAPHS]

Identify the key findings and implications of this: [PARAGRAPHS]

Remove the throat-clearing sentence from this paragraph: [PARAGRAPH]

Frontload the argument in the following paragraph: [PARAGRAPH]

Explain [TOPIC] as an analogy

2.5 PLAN/PRESENTATION¶

Develop a research plan for: [TOPIC SENTENCE]

Write a schedule for completion in [TOPIC SENTENCE] in [NUMBER OF DAYS/MONTHS/YEARS]

The deadline for the submission of the first draft is [DATE]. give me a week-by-week breakdown so I can plan my writing better.

Write a sensational press release for this research: [PARAGRAPHS]

Make this more persuasive: [PARAGRAPH]

Write 3 tweets about this research. [PARAGRAPHS]

3.Academic Prompts Collection ¶

3.1 润色与纠错¶

中文学术润色¶

作为一名中文学术论文写作改进助理，你的任务是改进所提供文本的拼写、语法、清晰、简洁和整体可读性，同时分解长句，减少重复，并提供改进建议。请只提供文本的更正版本，避免包括解释。请编辑以下文本

英语学术润色¶

Below is a paragraph from an academic paper. Polish the writing to meet the academic style, improve the spelling, grammar, clarity, concision and overall readability. When necessary, rewrite the whole sentence. Furthermore, list all modification and explain the reasons to do so in markdown table.

查找语法错误¶

Can you help me ensure that the grammar and the spelling is correct? Do not try to polish the text, if no mistake is found, tell me that this paragraph is good. If you find grammar or spelling mistakes, please list mistakes you find in a two-column markdown table, put the original text the first column, put the corrected text in the second column and highlight the key words you fixed.

Example:
Paragraph: How is you? Do you knows what is it?
| Original sentence | Corrected sentence |
| :--- | :--- |
| How **is** you? | How **are** you? |
| Do you **knows** what **is** **it**? | Do you **know** what **it** **is** ? |

Below is a paragraph from an academic paper. You need to report all grammar and spelling mistakes as the example before.

Latex 英文润色¶

Below is a section from an academic paper, polish this section to meet the academic standard, improve the grammar, clarity and overall readability, do not modify any latex command such as \section, \cite and equations.

Latex 中文润色¶

以下是一篇学术论文中的一段内容，请将此部分润色以满足学术标准，提高语法、清晰度和整体可读性，不要修改任何LaTeX命令，例如\section，\cite和方程式。

AIGC内容“降AI味”¶

你是一个伪装成人类科研学者的AI，能够将AI生成的文本改写成人类学者常用的表达方式。请对以下由AI生成的段落进行深度改写，在保持原意的基础上，使其风格更自然、更符合学术写作的习惯，让人难以分辨其是由AI生成。待改写段落：

3.2 翻译¶

中译英¶

Please translate following sentence to English, making it more accureate and academic:

英译中¶

把下面的句子翻译成地道的中文，使它更加学术化：

学术中英互译¶

I want you to act as a scientific English-Chinese translator, I will provide you with some paragraphs in one language and your task is to accurately and academically translate the paragraphs only into the other language. Do not repeat the original provided paragraphs after translation. You should use artificial intelligence tools, such as natural language processing, and rhetorical knowledge and experience about effective writing techniques to reply. I'll give you my paragraphs as follows, tell me what language it is written in, and then translate:

3.3 阅读与写作辅助¶

高效阅读论文¶

你是一位精通各领域前沿研究的学术文献解读专家，面对一篇给定的论文，请你高效阅读并迅速提取出其核心内容。要求在解读过程中，先对文献的背景、研究目的和问题进行简明概述，再详细梳理研究方法、关键数据、主要发现及结论，同时对新颖概念进行通俗易懂的解释，帮助读者理解论文的逻辑与创新点；最后，请对文献的优缺点进行客观评价，并指出可能的后续研究方向。整体报告结构清晰、逻辑严谨。

优化文章结构¶

你是一位资深的文章优化专家，请你对给定的文章进行结构优化。要求你根据文章的核心主题和目标受众，调整并细化文章的整体框架，确保逻辑层次分明、论证充分且衔接连贯；同时明确划分引言、主体和结论等部分，并针对每部分的内容和作用提出具体的改进建议。请输出一个优化后的文章结构大纲，并用严谨、学术的语言详细说明各部分的功能和优化方案。

解释代码¶

请解释以下代码：

3.4 研究与选题¶

论文选题¶

根据【研究方向】发展趋势、研究热点与已有文献，推荐一个创新性强且具有研究价值的研究论文选题。结合现有研究中的空白，提出一个具有填补空白潜力的问题，确保该选题能够推动学科的理论发展或实践应用。

研究思路¶

请基于我提供的研究主题【研究主题】，分析当前领域的研究现状，并列出5个研究空白或未解决问题，基于研究空白或未解决问题给出对应的研究思路，用表格呈现。

技术方案¶

请基于我提供的研究主题【具体主题】和研究思路【具体思路】，分析当前领域的研究现状，列出5个技术方案，基于研究空白或未解决问题给出选择对应的技术方案的原因，用表格呈现。

3.5 代码辅助¶

代码架构分析¶

你是一个专业的软件架构师。请分析以下多个代码文件的集合，并以清晰的语言总结这个项目的整体架构、核心功能、主要模块以及它们之间的相互关系。不要深入每一行代码的细节，重点在于宏观结构。

代码自动注释¶

你是一个遵守代码最佳实践的程序员。请为以下代码的每一部分（函数、类、复杂逻辑块）添加简洁明了的注释，解释其功能、参数和返回值。

Reference¶

GPT 学术优化 (GPT Academic)

导师推荐：12个论文翻译润色场景，专业版ChatGPT指令合集【附使用教程】

50个顶级的ChatGPT学术论文指令！

黑科技！6个AI读文献指令，让你效率提高100倍！

10个顶级的论文降重指令！

ChatGPT Strategy

Thu, 23 Apr 2026 18:11:38 +0000

ChatGPT提示词工程教学¶

约 1625 个字预计阅读时间 5 分钟

1.提示词定义¶

提示词是人类与AI沟通的指令系统，它通过文字定义AI的身份、任务、行为边界和执行逻辑。

核心价值：提示词不是零散的指令堆砌，而是通过结构化设计，让AI理解“我是谁、该做什么、怎么做、不能做什么”，从而将人类意图转化为AI的稳定行为。

2.提示词的核心要素¶

身份与目标：AI的角色定位和存在意义，解决“为什么做”；
交互逻辑：AI接收信息（输入）和输出结果的规范，解决“如何沟通”；
执行流程：AI完成任务的步骤和技能拆解，解决“怎么做”；
行为边界：AI绝对不能触碰的红线，解决“什么不能做”。

3.提示词策略——ChatGPT官方推荐¶

3.1 指令要清晰¶

要清晰地表达你想要什么，不要让GPT猜你想要什么。

问题里包含更多细节。
让模型角色扮演（GitHub人设大全）。
充当ChatGPT提升生成器。

prompt generator

适用场景：当不知道如何写提示词时，可以尝试使用这种方法。（当然，这种方法依旧不完美，需要不断优化，最终达到自己的目的）

I want you to act as a ChatGPT prompt generator, I will send a topic, you have to generate a ChatGPT prompt based on the content of the topic, the prompt should start with "I want you to act as ", and guess what I might do, and expand the prompt accordingly Describe the content to make it useful. response need in simplified Chinese. My query is: 英语听力老师。

使用分隔符：使用三重引号、XML标签、章节标题等分隔符可以帮助划分文本的不同部分。
指定完成任务所需的步骤。
提供示例（few-shot）。
设定回答的长度。
指定段落数量。
指定要点数量。

3.2 提供参考文本¶

命令模型根据参考文本回答问题：就像我们在写作业时，如果有了老师给的参考资料，就可以利用这些资料来写答案，这个模型也一样，有了相关的、可信的信息，就可以用这些信息来回答问题。
让ChatGPT用引用参考文本的方式回答问题：我们可以给ChatGPT提供材料，并让它回复的时候，标明是根据材料的哪一部分做出的回答。这就好像，我们在写论文的时候，要标注信息来源一样。这样做帮助我们在材料里找到引用的文字，来确认这些引用的文字是否真的存在。

3.3 将复杂任务拆分为更简单的子任务¶

问题分类：根据不同的任务类型进行分类，每一个任务可能都需要不同的步骤或者指令。
长对话处理：总结或过滤
分段总结长文并递归构建完整摘要

3.4 给GPT时间“思考”¶

在下结论之前，先引导GPT生成自己的答案：有时候，如果我们明确地告诉模型，在得出结论之前，先按照基本原理进行推理，可能会得到更好的结果。
隐藏推理过程

prompt template

Follow these steps to answer the user queries. Step 1 - First work out your own solution to the problem. Don't rely on the student's solution since it may be incorrect. Enclose all your work for this step within triple quotes ("""). Step 2 - Compare your solution to the student's solution and evaluate if the student's solution is correct or not. Enclose all your work for this step within triple quotes ("""). Step 3 - If the student made a mistake, determine what hint you could give the student without giving away the answer. Enclose all your work for this step within triple quotes ("""). Step 4 - If the student made a mistake, provide the hint from the previous step to the student (outside of triple quotes). Instead of writing "Step 4 - ..." write "Hint:".
按照以下步骤回答用户查询。第 1 步 - 首先找出您自己的问题解决方案。不要依赖学生的解决方案，因为它可能不正确。将您为此步骤所做的所有工作用三重引号 (""") 括起来。第 2 步 - 将您的解决方案与学生的解决方案进行比较，并评估学生的解决方案是否正确。将您为此步骤所做的所有工作用三重引号 (""") 括起来。第 3 步 - 如果学生犯了错误，请确定您可以在不给出答案的情况下给学生什么提示。将您为此步骤所做的所有工作用三重引号 (""") 括起来。第 4 步 - 如果学生犯了错误，请向学生提供上一步的提示（三重引号外）。不要写“第 4 步 - ...”，而写“提示：”。

Problem Statement: Student Solution:
问题陈述：<插入问题陈述> 学生解决方案：<插入学生解决方案>

答案不全的问题：我们正在用一个ChatGPT模型从一堆资料中找出跟我们提出的问题有关的内容。每找到一个内容，模型就要决定是不是要继续找下一个，还是停下来不找了。如果那堆资料特别大，模型有时候会停得太早，没能把所有跟问题有关的内容都找出来。这个时候，如果我们再向模型提出一些新的问题：让它再去找找看有没有之前漏掉的内容，往往能让模型的输出结果，变得更好。

3.5 使用外部工具¶

嵌入：使用基于嵌入的搜索来实现高效的知识检索。一个模型可以利用外部信息作为其输入的一部分。比如RAG。
计算：使用代码或者调用外部的API，来进行更精确的计算。
让模型使用特定功能：Chat Completions API允许在请求中传递一系列功能描述。这让模型能根据提供的方案生成功能参数。通过API以JSON格式返回生成的功能参数，可以用来执行功能调用。功能调用提供的输出可以在下一个请求中反馈给模型，从而形成一个完整的循环。这是使用GPT模型调用外部功能的推荐方式。

3.6 系统地测试变化¶

参考黄金标准答案评估模型输出：假设已知问题的正确答案应该参考一组特定的已知事实。然后我们可以使用模型查询来计算答案中包含了多少所需事实。

4.Reference¶

六种方法，写出好的提示词——ChatGPT官方推荐

Advanced RAG

Thu, 23 Apr 2026 18:11:38 +0000

Advanced RAG¶

约 234 个字预计阅读时间 1 分钟

Real-life applications can require complex pipelines, including SQL or graph databases, as well as automatically selecting relevant tools and APIs. These advanced techniques can improve a baseline solution and provide additional features.

Query construction: Structured data stored in traditional databases requires a specific query language like SQL, Cypher, metadata, etc. We can directly translate the user instruction into a query to access the data with query construction.

Tools: Agents augment LLMs by automatically selecting the most relevant tools to provide an answer. These tools can be as simple as using Google or Wikipedia, or more complex, like a Python interpreter or Jira.

Post-processing: Final step that processes the inputs that are fed to the LLM. It enhances the relevance and diversity of documents retrieved with re-ranking, RAG-fusion, and classification.

Program LLMs: Frameworks like DSPy allow you to optimize prompts and weights based on automated evaluations in a programmatic way.

📚 References:

LangChain - Query Construction: Blog post about different types of query construction.

LangChain - SQL: Tutorial on how to interact with SQL databases with LLMs, involving Text-to-SQL and an optional SQL agent.

Pinecone - LLM agents: Introduction to agents and tools with different types.

LLM Powered Autonomous Agents by Lilian Weng: A more theoretical article about LLM agents.

LangChain - OpenAI's RAG: Overview of the RAG strategies employed by OpenAI, including post-processing.

DSPy in 8 Steps: General-purpose guide to DSPy introducing modules, signatures, and optimizers.

KV-Cache

Tue, 21 Apr 2026 16:07:56 +0000

KV-Cache¶

约 1 个字预计阅读时间不到 1 分钟

PagedAttention

Tue, 21 Apr 2026 16:07:56 +0000

PagedAttention¶

约 11 个字预计阅读时间不到 1 分钟

Efficient Memory Management for Large Language Model Serving with PagedAttention

vLLM

Tue, 21 Apr 2026 16:07:56 +0000

vLLM¶

约 1 个字预计阅读时间不到 1 分钟

TTA

Tue, 21 Apr 2026 16:07:56 +0000

TTA¶

约 1 个字预计阅读时间不到 1 分钟

Homepage

Tue, 21 Apr 2026 09:11:12 +0000

小站题壁¶

约 1273 个字预计阅读时间 4 分钟

行到水穷处，坐看云起时。——偶录王维句，以志闲心

客从四方来，驻足于此，便是缘分。此间无朱门酒肉，唯有键盘为砚、屏幕为笺，录所思、记所学，兼以备忘。笔者不才，好观算法之变、模型之新，亦不忘数理旧章；或随笔闲谈，或披卷论文，皆是一己足迹，不敢自矜，唯愿与同好共切磋耳。

卷籍一览

成文：184 篇
累字：173,709 字

ycvenopyer是一位小镇做题家，经历了好几年学习SE的痛苦才跨过小白那道坎，因此就CS该如何入门、AI时代的计算机专业该如何学习想对一些和我类似的同学给出自己的建议。首先现在计算机相关专业门槛不高，但AI产生的一键满足感太不扎实，如果你想从事CS相关行业，仍建议从基础开始，而且在Coding环节不要100%借助AI，一键Tab的爽感会让你在上机的时候坐牢。第二点是CS是完全靠自学的，如果你不知道从何开始，可以从CSDIY看起，这里计算机四大件（数据结构与算法、操作系统、计算机组成原理、计算机网络）是必须认真拜读的，虽然很多都是几十年前的东西了，但其中的思想方法仍然发挥着光辉，在学习这些之前建议补充一些数学知识，包括微积分、线性代数、概率论、离散数学等。第三点是CS需要实践而不是看书，只看CS的书基本没用，看再多的书不如敲上一句prompt（开个玩笑，应该是Hello World!）。一开始把数据结构与算法学好，然后在代码平台上刷题，比如力扣、牛客、洛谷等，最后做项目实践，可以从简单的小游戏入手，然后做一些课程项目，接着从GitHub上找一些开源项目尝试，有了这些你就可以开始找实习，企业实习的实践收获是远大于课程学习的，通过企业实习熟悉大型项目的流程，积累经验。最后是AI方向的学习，这部分首先需要把线性代数和概率论学好，数学基础是深入学习AI的基石，其次是学习国外一些优秀的课程，而对于前沿AI的内容，比如AI模型、AI产品化的东西在Anthropic或者是OpenAI的官网上有，这是第一手资料；然后是要用好AI工具，逐渐驾驭AI而不是被牵着鼻子走。

ycvenopyer是一位逃离SE的CS人，即将研究的是LLM，我在25年的时候听到“前端已死”这种言论，在26年初更是听到“软件工程已死”的消息，软件工程将在近几年内发生颠覆性变革（AI4SE）。作为一名本科SE人，本人对于SE的了解仅限于产品、前端、后端、测试、运维，本科期间学了软件质量管理、软件系统设计等SE味严重的课程，但是真正在企业中所需的开发技能学校里是一字不提。个人对于软件工程本身是消极的，工程存在但程序员不在，AI时代对于知识的获取和基本的开发是手到擒来了，大大降低了门槛，只会增删改查、加组件加模块远远不够了，真正能留下来的是在软件之上的人，具有系统和工程思维的人。而且很多企业都在积极拥抱AI，做AI转型，这种改变是很可怕的，如果哪天AI可以完全自主解决某一业务问题，那我就得被辞退了。

本人的编程水平实在上不了台面，上面一番话也只是一个菜鸟的牢骚，幸亏遇上了AI时代，在机器学习、自然语言处理、大模型系统与工程这些课程的洗礼下，我逐渐找到一些自己的感觉。AI的基础仍是数学，自然界的一切遵循正态分布，我们所发现的一切是在一定概率空间中的必然事件。这话听起来像玄学，落到纸面上却全是矩阵与期望：嵌入是高维空间里的几何，训练是在噪声里找梯度，推理是一次又一次在分布上采样。学得愈多，愈觉得懂与会用之间还隔着无数实验与失败；论文里的定理漂亮，工程里却是显存、延迟和坏 case 的泥潭。

若说有何信念，那便是：模型再强，也仍在人设定的目标函数与数据分布里打转；我们所谓智能，很大程度上是在不确定里做可重复的近似，人类理想的AGI还远没有到来。

About

Mon, 20 Apr 2026 18:39:46 +0000

About Me¶

约 196 个字预计阅读时间 1 分钟

I am a student in the School of Intelligent Software Engineering at NJU. I am keen on software engineering, LLMs, and AI agents.

🎓 Education¶

Bachelor's Degree | Nanjing University | School of Intelligent Software Engineering | Software Engineering (Intelligent Software) | 2022 – 2026
Master's Degree | Nanjing University | School of Computer Science | Computer Technology | 2026 – Present

🗺️ Research Interests¶

I have a broad interest in LLMs and NLP. Currently, I am primarily focusing on MoE Compression(Efficient LLMs) and LLM Safety.

🔧 Technical Skills¶

Languages: C/C++, Python, Java, Latex
Frameworks: Flask, Pytorch
Tools: VSCode, PyCharm, IDEA, Typora, Obsidian, Zotero, Cursor, Claude Code
AI: RAG, Agent, Agent Frameworks(LangChain, LangGraph), MCP, Function Calling, Skill, Prompt Engineering

💼 Internship Experience¶

AI Product Intern | Radnova | Jan 2026 – Mar 2026

🎯 Hobbies¶

⚽ Soccer and 🖊 calligraphy are my merits — I am a fan of Real Madrid and have created numerous calligraphy works to date. I play as a defender on the pitch.

For video games, I enjoy Brawl Stars — add me with friend code 2VUQ28PPQ and we can team up!

I like the JoJo’s Bizarre Adventure series and some Chinese animation. Singing is not my strength, but I listen to gufeng-style tracks and English songs.

兴趣爱好

Mon, 20 Apr 2026 18:39:46 +0000

兴趣爱好¶

约 986 个字 2 张图片预计阅读时间 3 分钟

我从小学3年级开始学习书法，最早跟随爷爷在家学习，后来到兴趣班学习，从颜真卿的《颜勤礼碑》开始学习楷书，然后行楷学习赵孟頫的《帝师胆巴碑》，后来学习《圣教序》，《圣教序》的字体法度严谨，非常适合楷书到行书的过渡，而且因为是集字，所以适合二次创作，并且可以切换到其他行书字体，后来我自学了赵孟頫的行书，比如《洛神赋》、《秋兴赋》、《赤壁赋》、《闲居赋》等等，也尝试过王羲之、米芾、苏轼、智永等书家。

上大学后从孙过庭的《书谱》开始学习草书，孙过庭的草书十分飘逸又不失美感，非常适合草书入门。我最擅长赵体，数年的临摹和创作不仅扩展了我的视野，也让我对中华优秀传统文化有深入理解，书法之道亦是为人之道，刚正与圆滑，洒脱与拘谨，留白与密集，晕染与枯涸，无不映射着古人的智慧。

我从初中开始踢球，彼时正是16-18欧冠三连的皇马，承载了我的青春回忆。那个时期的银河战舰，拥有BBC三叉戟（贝尔、本泽马、C罗），典礼中场（克罗斯、莫德里奇、卡塞米罗），后防有水爷拉莫斯、学霸瓦拉内、队宠马塞洛、纳乔、卡瓦哈尔，门将有纳堵墙（纳瓦斯），还有伊斯科、阿森西奥、巴斯克斯等等。这是一支具有绝对统治力的球队，也是最纯白的年代。

我担任过门将和后卫的角色，当然也有着一颗前锋的心，高中经常和同学踢球，到了大学，接触到天南海北的爱好者，我开始在院队里担任后卫一职，到了苏州，有幸加入南京大学苏州校区队伍的大家庭，主职中后卫，足球也更多地融入生活，成为放松的方式，是属于青春独有的浪漫。

I started learning calligraphy from the third grade of elementary school. I first learned at home with my grandfather, and later attended an extracurricular calligraphy class. I began with regular script using Zhenqing Yan's Yan Qin Li Stele, then moved on to running-regular script by studying Mengfu Zhao's Di Shi Dan Ba Stele. After that, I studied Shengjiao Xu (Preface to the Sacred Teachings). The calligraphy of Shengjiao Xu is rigorous in structure and rules, making it very suitable for the transition from regular script to running script. Moreover, since it is a collection of characters (from Xizhi Wang), it lends itself well to creative adaptations and allows switching to other running script styles. Later, I self-studied Mengfu Zhao's running script works, such as Luoshen Fu, Qiuxing Fu, Chibi Fu, and Xianju Fu, and also tried my hand at calligraphers like Xizhi Wang, Fu Mi, Shi Su, and Yong Zhi.

Since entering university, I began learning cursive script with Guoting Sun's Shu Pu (also known as Treatise on Calligraphy). Guoting Sun's cursive script is both elegant and aesthetically pleasing, making it highly suitable for beginners. I am most proficient in the Zhao style. Years of copying and creating calligraphic works have not only broadened my horizons but also deepened my understanding of China's fine traditional culture. The way of calligraphy is also the way of being human: integrity and flexibility, uninhibitedness and restraint, blank spacing and density, wet ink and dry brush—all of these reflect the wisdom of the ancients.

I started playing soccer in middle school, right during Real Madrid’s UEFA Champions League three-peat from 2016 to 2018—a period that holds many of my fondest youth memories. That era’s “Galácticos” featured the BBC front line (Bale, Benzema, and Cristiano Ronaldo), the legendary midfield trio (Kroos, Modrić, and Casemiro), and a back line with “Captain” Ramos, the scholar Varane, the team favorite Marcelo, plus Nacho and Carvajal. In goal was the “human wall” Navas, along with Isco, Asensio, Lucas Vázquez, and many others. It was a team with absolute dominance—an era of purest white.

I have played as both goalkeeper and defender, though I have always had a striker’s heart. In high school I often kicked the ball around with classmates. In university I met enthusiasts from all over the country and began playing as a defender on the school team. After coming to Suzhou, I was fortunate to join the Nanjing University Suzhou campus team—mainly as a centre-back. Football has woven itself more deeply into daily life and become a way to unwind; it is a kind of romance that belongs only to youth.

Overview

Mon, 20 Apr 2026 14:41:54 +0000

Math Space¶

约 65 个字 1 张图片预计阅读时间不到 1 分钟

很惭愧在这里单开数学一栏，笔者从小到大都很喜爱数学，不过到了大学学习计算机之后就不怎么学习理论数学了，在这里勉强对几门数学课进行整理。

Overview

Mon, 20 Apr 2026 14:41:54 +0000

项目作品¶

约 31 个字预计阅读时间不到 1 分钟

这里是我的个人和团队项目，笔者致力于通过项目学习实践经验。

LLM Infra

Mon, 20 Apr 2026 14:41:54 +0000

LLM Infra¶

约 2 个字预计阅读时间不到 1 分钟

POP

Mon, 20 Apr 2026 14:41:54 +0000

POP: Online Structural Pruning Enables Efficient Inference of Large Foundation Models¶

约 2425 个字 12 张图片预计阅读时间 8 分钟

作者：Yi Chen、Wonjin Shin、Shuhong Liu、Tho Mai、Jeongmo Lee、Chuanbo Hua、Kun Wang、Jun Liu、Joo-Young Kim（韩国科学技术院 KAIST、东京大学、东京工业大学等）

论文链接： https://arxiv.org/abs/2602.06822

1. 背景¶

1.1 大规模基础模型与推理挑战¶

大规模基础模型（Large Foundation Models, LFMs）通过持续扩大规模显著提升能力，但推理阶段计算开销巨大。常见压缩路径包括：

量化：降低数值精度；
低秩分解：近似权重矩阵；
剪枝：移除冗余参数。

其中，结构化剪枝移除整块通道或子结构，在通用 GPU 上更易获得稳定加速，与实际部署结合更紧。

1.2 静态掩码的局限性¶

传统结构化剪枝常依赖离线校准或预训练预测器，得到静态剪枝掩码，并在整条推理链路中复用。其缺点包括：

对输入不敏感：难以捕捉不同上下文与任务所触发的多样稀疏模式。
在长生成中崩溃：静态框架 Týr 在约 20% 剪枝比例下，Llama2-7B 在 ARC-C 短格式 QA 上仍能保持约 98% 准确率，但在 MBPP 等长格式生成基准上仅约 35%。

原因：自回归解码中，每一步只有当前步的 token 信息可用，有效上下文从整段 prompt塌缩为单 token，通道重要性会随解码步动态变化；固定掩码无法对齐这种变化。

1.3 上下文稀疏性¶

定义：在给定输入上下文下，模型内部只有一部分神经元会被显著激活，且这一“有用子集”随输入变化。

关键观察：

细粒度：通道重要性的排序在不同解码步之间会变化（例如平均排序差异不为零）。
粗粒度：Top-50% 高重要性通道在解码过程中又具有相当的稳定性（通道集合重合度约 0.6–0.65）。

由此得到设计张力：既不能在预填充（prefill）阶段一次性固定整张掩码，也不宜在每一步对全体通道重新评估（开销过大）。这自然引向在线、分阶段的剪枝策略。

1.4 现有在线剪枝方法¶

为缓解静态剪枝问题，文献中已有在线剪枝思路：在解码过程中动态更新剪枝决策。但仍有局限：

Probe Pruning：依赖多 token 聚合后的激活估计重要性，与自回归解码每步仅可见单 token的设定不完全兼容。
Instruction-Following Pruning：需要训练预测器，引入额外数据与训练开销。

Q：能否在推理阶段，以最小额外开销，让剪枝决策随生成上下文条件化，并适用于多种任务与架构？

2.动机与方法¶

2.1 POP 方法概述¶

POP（Partition-guided Online Pruning）建立在两点观察上：

全局重要性结构在解码过程中大体稳定；
中间仍存在局部波动（上下文稀疏性），需要在解码阶段做小范围自适应。

设计思路：

Prefill 阶段：利用全序列激活做一次粗粒度划分，得到相对稳定的计算骨架。
Decode 阶段：仅在少数候选通道内做细粒度、逐 token的动态选择，控制额外开销。

特点：

强调自回归解码场景下在线剪枝的必要性；
提出三态通道划分 + 两阶段在线剪框架；
无需离线校准、无需再训练，即插即用。

2.2 激活感知的重要性度量¶

记线性层权重 $W \in \mathbb{R}^{C_{\mathrm{out}} \times C_{\mathrm{in}}}$，输入激活 $X \in \mathbb{R}^{B \times L \times C_{\mathrm{in}}}$（$B$ 为 batch，$L$ 为序列长度）。自回归解码第 $t$ 步的激活记为 $X_t \in \mathbb{R}^{B \times 1 \times C_{\mathrm{in}}}$。用 $i$ 索引输出通道、$k$ 索引输入通道。输出通道重要性记为 $I_i$，解码步上的对应量为 $I_i(t)$。目标剪枝率为 $r$。

POP沿用Wanda一类激活感知思路：重要性 = 权重幅度 × 激活强度，且随当前输入变化。直观上，通道若在输入上被强烈激活且权重大，则更不宜剪除。

逐元素重要性：

\[ I_{i,k} = \lvert W_{i,k} \rvert \cdot \lVert X_k \rVert_2 \tag{1} \]

其中 $\lVert X_k \rVert_2$ 表示第 $k$ 个输入通道在样本与 token 上聚合后的 $\ell_2$ 范数。

结构化剪枝以通道为单位，需将 $\{I_{i,k}\}$ 聚合为输出通道标量：

\[ I^{\mathrm{out}}_i = \mathcal{A}\bigl(\{ I_{i,k} \}_{k=1}^{C_{\mathrm{in}}}\bigr),\quad i = 1,\ldots,C_{\mathrm{out}} \tag{2} \]

$\mathcal{A}(\cdot)$ 为聚合算子（如求和、取最大等）。

2.3 两阶段架构与三态通道划分¶

Prefill（粗划分）：处理完整 prompt，得到全序列激活 $X$，计算各通道重要性并排序。将每个 FFN 的通道划分为三个区域：

区域	含义
保留区 R（Retained）	重要性持续偏高，始终保留，作为整条生成过程的稳定骨架。
剪除区 P（Pruned）	贡献很小，提前移除，在给定 prompt 下提升效率。
候选区 C（Candidate）	重要性处于中间，随上下文波动明显，作为 decode 阶段有界的在线搜索空间。

分位数与超参：给定目标剪枝率 $r$ 与划分相关宽度参数（记为 $\delta$ 或 $\gamma$），可对重要性分数集合$\{I^{\mathrm{out}}_i\}_{i=1}^{C_{\mathrm{out}}}$ 使用分位数阈值 $Q_\alpha(\mathcal{I})$（$\alpha$ 分位数），据此划定 R / P / C 的边界。论文与实验中 $\gamma$ 控制候选区相对大小（默认 0.1，见后文消融）。

Decode（细选择与低开销前向）：每一步解码 $t$：

前向：仅对 $R \cup C$ 参与计算，得到中间激活（P 区不参与）。
打分：仅对候选区 $C$ 内的通道，用当前步 token 对应的激活重算重要性分数。
选择：从 $C$ 中选取子集，使激活通道总数满足全局预算（与目标剪枝率 $r$ 一致）。
最终 FFN 计算：仅使用 R + 被选中的 C 中通道完成输出。

这样，大部分通道在 prefill 已定论，decode 只维护 C 的内部排序与子集选择，将额外开销限制在候选区。

3. 实验与结果¶

3.1 实验设置¶

模型：稠密 LLM（Llama⅔、Qwen3）；MoE（Qwen1.5/⅔-MoE）；视觉语言模型 VLM（Qwen2-VL、Qwen2.5-VL）。
基准：问答（BoolQ、ARC、HellaSwag 等）；长生成（CoQA、MBPP、HumanEval、GSM8K、NQ-Open 等）；VQA（POPE、OK-VQA、GQA、ScienceQA、MME 等）。
基线：Wanda-sp、FLAP、Týr（离线）；Probe Pruning（在线）等。
评测：LM-Eval-Harness、LMMs-Eval；硬件如 RTX A6000；LLM batch=10，VLM batch=1；$\gamma=0.1$。
公平性说明：剪枝比例取 20%、40%；POP 仅剪 FFN、不剪注意力，并在 MLP 内调节稀疏度以匹配目标整体剪枝率。

3.2 稠密 LLM¶

POP 在多数模型上 QA 表现强劲。部分设置下次于 Týr，与 Týr 依赖带校准数据的离线进化搜索有关。在生成类任务上，POP 相对基线的平均提升更明显，强调了在自回归解码过程中进行随上下文条件化剪枝的必要性。

3.3 MoE¶

动态路由使 prefill 与 decode 的差异更大，在线剪枝对 MoE 尤其有益；在 40% 剪枝等设置下，基线退化更重，而 POP 更稳。

3.4 VLM¶

多模态下部分基线可接近崩溃；POP 在 Qwen2-VL / Qwen2.5-VL 上仍能保持较强的 VQA 表现，说明能推广到多模态架构，跨领域更鲁棒。

3.5 推理效率¶

POP 不剪注意力，注意力延迟基本不变；端到端可达约 1.14×–1.38× 加速，同时维持较好准确率。

4. 消融实验¶

4.1 剪枝策略对比¶

变体1（固定 prefill 掩码）：省算但精度降；
变体2（每步全通道重评估）：精度高但开销大；
POP：仅在 C 内在线更新，$\gamma=0.1$ 时额外 FFN 成本低于约 4%，在精度与效率间更均衡。

4.2 划分比例¶

候选区扩大（$\gamma$ 增大）通常准确率更好，decode 开销也增加；默认 0.1。

4.3 离线准备成本¶

Wanda/FLAP 等校准相对小；Probe、Týr 等离线成本高；POP 完全在线，零离线准备。

5. 总结与展望¶

总结：

自回归生成中，仅 prefill 固定掩码会在新 token 上产生系统性偏差，在线剪枝有必要。
POP 通过三态划分 + decode 阶段仅在候选区内更新，在精度与开销之间取得平衡。
POP 在 LLM / MoE / VLM 上多设置优于或稳健于同类剪枝，突出 decode 动态决策的价值。

局限与展望：Top 通道在解码中较稳定多为经验观察；若阈值外的通道也强依赖上下文，固定 R / P 可能限制极端场景下的自适应。未来可探索：自动选择候选区宽度、自适应 $\gamma$、以及能否以低开销将类似思想扩展到注意力头等。

局限性

这篇论文采用划分区域然后保留R，剪去P，对C进行再计算候选，感觉参数规模仍然很大，因为候选区还要计算中间激活，FFN层参数量仍占大头，这种划区域思想挺好，但有待改进，划分宽度这里有待优化，中间步骤感觉可以探索一些方法再优化效率。

6. 参考文献¶

Li et al. Týr-the-Pruner: Structural Pruning LLMs via Global Sparsity Distribution Optimization. NeurIPS 2025.
Le et al. Probe Pruning: Accelerating LLMs through Dynamic Pruning via Model-Probing. ICLR 2025.
Hou et al. Instruction-Following Pruning for LLMs. ICML 2025.
Sun et al. Wanda: A Simple and Effective Pruning Approach for LLMs. ICLR 2024.
An et al. FLAP: Fluctuation-based Adaptive Structured Pruning for LLMs. AAAI 2024.
Gao et al. The Language Model Evaluation Harness. 2024.
Zhang et al. LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models. 2024.

Olica

Mon, 20 Apr 2026 11:06:46 +0000

Olica: Efficient Structured Pruning of Large Language Models without Retraining¶

约 2122 个字 14 张图片预计阅读时间 7 分钟

作者：Jiujun He、Huazhen Lin ，西南财经大学统计与数据科学学院

论文链接： https://arxiv.org/abs/2506.08436

开源代码：https://github.com/BetterTMrR/LLM-Olica

1. 背景与动机¶

1.1 LLM 的发展与挑战¶

随着 Transformer 架构的普及，自然语言处理经历了从 BERT 到 GPT 系列的重要演进。遵循缩放定律（scaling laws），模型参数从数亿扩展到数千亿级，并展现出上下文学习、指令遵循等涌现能力。

与此同时，规模增长带来三方面压力：

参数规模：常见大模型参数量在数百亿到千亿量级。
部署困难：在边缘设备上部署与推理难度陡增。
资源需求：训练与推理对算力、显存要求高。

现有模型压缩手段包括网络剪枝、知识蒸馏、量化等。Olica 聚焦网络剪枝，目标是在去除冗余参数的同时尽量保持模型能力。

1.2 结构化与非结构化剪枝¶

面向 LLM 的剪枝可粗分为两类：

结构化剪枝：移除结构化单元（如整组通道或卷积核等），更易映射到硬件与高效内核，有利于实际加速。
非结构化剪枝：移除单个权重，稀疏模式不规则，往往依赖专用库或硬件才能充分体现加速收益。

1.3 现有结构化剪枝的局限¶

结构化剪枝常见两条技术路线：

基于梯度（gradient-based）：借助损失函数的泰勒展开等估计参数重要性（如 OBD、OBS）。但对 LLM 全体参数求梯度代价极高。
基于正则化（regularization-based）：对参数施加 L1/L2 等促使稀疏。LLM 预训练本身已极耗资源，实践中往往避免再叠加强结构化正则。

此外，许多 LLM 结构化剪枝工作还存在：

重硬件与多卡：例如 DISP-LLM 剪枝 13B LLaMA 需要多张 A100 80GB。
依赖大量数据与重训练：如 LLM-Pruner、LoRAP、SlimGPT 等往往需要数万条标注指令数据做恢复训练。
剪枝后关联被破坏：通常需要昂贵的重训练来重建层间依赖与性能。

Olica 的动机正是在上述约束下，探索尽量少数据、少算力、无需完整重训练的结构化剪枝路径。

2. 剪枝方法¶

2.1 核心观察与总体思路¶

Transformer 中 多头注意力层（MHA） 涉及两组矩阵乘积：$W_q W_k^\top$ 与 $W_v W_o^\top$。Olica 的关键是将这类矩阵乘积视作统一对象，对其施加主成分分析（PCA），用低维子空间保留主要信息，从而在不破坏整体模块形状、不依赖大规模重训练的前提下压缩 MHA。

2.2 MHA：正交神经元分解（OND）¶

正交神经元分解（Orthogonal Neuron Decomposition, OND） 将 MHA 中的 $W_v$ 与 $W_o$ 视为一体，通过 SVD 提取主结构。设 $W_{vo} = U \Sigma V^\top$，可定义 $\hat{W}_v \leftarrow U\Sigma$、$\hat{W}_o \leftarrow V$ 等形式（并保持与 $W_v$ 相关的恒等/等价关系，具体实现见论文），使得分解后 $U$、$V$ 列正交，输出方向上的信息更“去相关”，便于在固定维度内保留尽可能多的有效信息。

剪枝策略：对每个神经元（或等价特征方向）定义重要性评分，优先剪掉重要性最低的部分。

2.3 Fast-OND：降低分解复杂度¶

朴素 OND 若对 $h$ 个注意力头分别做 SVD，复杂度约为 $O(h d^3)$，对 7B 级模型可能达到约一小时。

Olica 利用一个经验观察：$W_q$ 与 $W_k$（以及 $W_v$ 与 $W_o$）的奇异值分布高度相似，在相同“能量保留比例”下所需奇异值个数也接近。据此提出 Fast-OND：仅对 $W_v$ 做 SVD，令 $W_v = U \Sigma V^\top$，再据此更新 $\hat{W}_v \leftarrow U$、$\hat{W}_o \leftarrow W_o V \Sigma^\top$，将复杂度降至约 $O(d^3 / h)$。对 LLaMA-7B（如 $h=32$）可在数分钟级完成剪枝。

2.4 FFN 层剪枝¶

对前馈（FFN）层，剪枝目标是中间神经元。用重要性评分对中间神经元排序，按目标稀疏率 $s$ 剪掉低分神经元，使权重形状由 $\mathbb{R}^{d \times 4d}$ 变为 $\mathbb{R}^{d \times d'}$（$d'$ 由稀疏率决定）。

问题：层输出发生变化后，误差会在深度网络中逐层累积，需要额外校准。

2.5 线性校准（无需重训练）¶

为重建剪枝 FFN 引入的残差误差并避免完整重训练，Olica 使用岭回归拟合误差项 $E$，对校准矩阵 $\hat{W}$ 求闭式解，并相应修改前向传播形式。

2.6 层选择与低秩近似¶

层选择：随着参与校准的 FFN 层数增加，困惑度（PPL）通常先降后趋于平稳；校准层并非越多越好，过多会引入额外参数与过拟合风险。论文使用多重相关系数 $MC2$ 衡量线性可恢复程度：$R_{XE}$ 越大，残差越适合用线性方式补偿；实验上较浅层 FFN 的残差往往更易校准。

低秩近似：若直接引入完整 $\hat{W}$，参数量约 $d^2$，约占单层 FFN 的 ⅛。可将 $\hat{W}$ 低秩分解，只保留前 $r$ 个最大奇异值对应的方向，将新增参数降到约 $2dr$（$r \ll d$）。

3. 实验与结果¶

3.1 设置¶

模型：LLaMA-1、LLaMA-2、Vicuna 系列。
语言建模数据：WikiText2，序列长度 128 tokens。
下游任务：BoolQ、PIQA、HellaSwag、WinoGrande、ARC-e、ARC-c、OpenbookQA 等。
评估：lm-eval-harness。
校准数据：从 BookCorpus 与 Alpaca 随机抽 256 条样本，截断长度 128；在 FFN 层数取 6 / 12 / 16 等设置下，选取约 3% 最大特征值对应方向等配置。
基线：LLM-Pruner、LoRAPrune、Compresso、FLAP、SliceGPT、LLM-Surgeon、LoRAP、DISP-LLM、SlimGPT 等结构化剪枝方法。

3.2 资源与性能¶

在 33% 稀疏率下，Olica 在报告设置中达到 PPL = 19.83、平均准确率 61.21%。相对依赖大量数据与多卡重训练的路线，Olica 在数据与 GPU 资源上更省。

LLaMA-7B，25% 稀疏率：PPL 16.69，平均准确率 63.54%，优于所对比基线。

更高稀疏率（33%）：PPL 19.83、准确率 61.21%，明显优于 LLM-Pruner（PPL 24.50）与 SlimGPT（PPL 24.55）。

跨规模与系列：在 LLaMA-13B、LLaMA-2-7B、Vicuna 等模型上，Olica 多为最优或次优，体现一定通用性和可扩展性。

无 LoRA 微调：PPT 强调上述结果均在不做 LoRA 微调的情况下取得。

3.3 推理效率¶

在较高稀疏度下，可降低资源占用并提升推理吞吐，使剪枝模型更适合资源受限场景；报告表明在稀疏度提升的同时性能损失可控。

4. 消融实验¶

模块有效性：Fast-OND 相对基线分解更高效；线性校准可与其它剪枝流程结合并带来增益。

校准层数：PPL 随校准层数增加先降后稳，超过约 20 层后边际收益减小。
低秩比例：随低秩近似比例增大 PPL 逐步下降，超过约 0.15 后收益有限。
推荐折中：校准 20 层 FFN 且低秩比例 0.15 时，额外参数约占全模型 1%。

样本效率：校准样本数与序列长度在 8～2048 范围变化时，PPL 波动不超过约 2.4；即便仅 8 个样本仍较稳定。

运行时间：Fast-OND 约 413 s，对比标准 OND 约 2910 s，约 7× 加速且精度相当。

5. 总结¶

Olica 将 MHA 中矩阵乘积的 PCA/SVD 式压缩与 FFN 剪枝后的线性校准结合，并辅以 Fast-OND 降低分解复杂度、加权 SVD 与层选择控制额外参数。整体在数据量、显存与运行时间上较省，并在多个基准上达到优于或接近主流结构化剪枝基线的表现，同时保持无需完整重训练这一实践上的吸引力。

6. 参考文献¶

Vaswani et al. Attention Is All You Need. NeurIPS 2017.
Kaplan et al. Scaling Laws for Neural Language Models. 2020.
Gao et al. DISP-LLM: Dimension-independent structural pruning for large language models. NeurIPS 2024.
Ma et al. LLM-Pruner: On the Structural Pruning of Large Language Models. NeurIPS 2023.
Li et al. LoRAP: Transformer Sub-layers Deserve Differentiated Structured Compression. ICML 2024.
Ling et al. SlimGPT: Layer-wise Structured Pruning for LLMs. NeurIPS 2024.
Zhang et al. LoRAPrune: Structured pruning meets low-rank parameter-efficient fine-tuning. ACL 2024.
Guo et al. Compresso: Structured pruning with collaborative prompting learns compact large language models. 2023.
An et al. Fluctuation-based adaptive structured pruning for large language models. AAAI 2024.
Ashkboos et al. SliceGPT: Compress LLMs by Deleting Rows and Columns. ICLR 2024.
van der Ouderaa et al. The LLM Surgeon. ICLR 2024.
Frantar & Alistarh. SparseGPT: Massive Language Models Can Be Accurately Pruned in One-shot. ICML 2023.

本科四年总结

Sat, 18 Apr 2026 21:51:02 +0000

本科四年总结¶

约 3056 个字 8 张图片预计阅读时间 10 分钟

序¶

回首望去，四年时间如白驹过隙，当我在图书馆写下这一篇的序言时，不由得感慨万千，心想自己好不容易有了去处，终于又可以读上三年书，又渐渐平静下来。

初载¶

22年之秋，竟已是四年之前，彼时我被诱捕（坑蒙拐骗）进入技科，四个方向（智能科学与技术、智能软件与工程、集成电路、数字经济）听起来词藻华丽、前程似锦，实则进入了第一年大类招生的双重陷阱（专业是新开的，分流是内卷的），大四听到智软不招本科生并被机器人与自动化替代时，真是贻笑大方，得亏我已经离开了智软。

我们这一届正好赶上了学校的寻根之旅，大一在鼓楼学习，大二则会去苏州（其他专业则去仙林）。鼓楼校区面积不算很大，分为北园和南园，北园是上课的地方，南园是宿舍和食堂，我们有幸住在了最豪华的陶三，大家都普遍认为最难吃大学食堂榜单上必有南大鼓楼校区，实际也确实如此，不过校区位于市中心，附近汉口路食堂和广州路食堂还是能满足同学们的需求。刚入大学，对于南京这座六朝古都还是陌生的感觉，依稀记得去过了很多次玄武湖，很多次夫子庙。第一次去玄武湖是和室友第一天认识晚上去的，就当是破冰了，但是我们宿舍都挺i的，相顾无言哈哈哈，后来一位同学去了计算机拔尖班，大二的时候我又找了一位同学做室友，没想到的是最后我竟然又和那位计拔的室友做同学了，另一位室友也保研来到软院读博了，大家又回到了南京。鼓楼校区给我的感觉就是年代感、古朴、宁静，像是在台风眼中的漩涡，形成自己的一片区域，波澜不惊。

大一实在是没好好学习，对于一个小县城出来的从没碰过电脑完全不知道电脑操作的小镇做题家来说，CPL（全称C语言程序设计）这门课简直是地狱，上课听不懂跟不上，OJ看不懂做不好，彼时的我连CSDN是啥都不知道（后来知道这也是个垃圾信息大于有用信息的网站），期末机试完美爆零，项目也没做出来，最后补考竟然及格了，免于重修之苦。当然原罪是我太菜，怪不得培养方案烂、课程对新手不友好😭。作为一个智软的学生大一竟然还还学了物理、微观经济学等等，后来发现根本用不到（大类学习都是如此）。大一上以CPL和物理考得都很垃圾收尾，绩点也因此不高。大一下学习的离散数学是我觉得最入门、最有用的一门课，也开始学习一些专业课，不过当时代码基础太差，也是将就着学。

比较幸运的是，我加入了知恬书画社管理层，还加入了院足球队。书画社一学期也没几次活动，来的人也寥寥无几，不过社长倒是个有趣之人，而且竟是软院的学长，我发现其实理工科擅长书画的同学更多，也不太清楚为什么，当然也可能只是凑巧。书画社人员更新很快，我们那一届的人下一年就都离开了，苏州这边更是没什么氛围，我唯一的遗憾是在大学没能上一门与书法相关的课程（真是可远观而不可亵玩了，仙林有但是我在苏州）。在足球队是大学里最值得回忆的经历，大家自发地在一起组织踢球，然后参加新生杯，虽然我们没有小组出线，但其实球队本身实力不弱，不过由于磨合不够、没有学长带队、缺乏经验，很遗憾我们未能更进一步，后面下一届和下下一届的小登都很强，24届小登甚至拿了新生杯冠军。

大一一年，我的评价是迷迷糊糊就过去了，啥也没学到，现在回过头看来，大一的课程重要性是最大的，只恨自己没好好学（悔不当初呀）。

再载¶

已来不及追忆北大楼的青藤、食堂的难吃、市中心的便捷，下一刻将迎来苏州校区的第一届学生——就是我们。如果要评价苏州校区，我给到夯！不过交通除外（离太湖距离2公里多，位于苏州市偏远地区，门口只有有轨电车，附近无商圈）。宿舍环境、教学设备、体育场、食堂，都是顶级的！虽说是去开荒，吸了一段时间甲醛，但是这三年过得还是很滋润的。

大二学习上逐渐熟悉了节奏，开始学习人工智能相关课程，但操作系统学得仍然是依托，后来大三编译原理也是，这几门课让我知道自己不适合体系结构研究和编程语言底层研究，自己的开发能力也是一般，也为我后来选择AI方向做了铺垫。加上后来的机器学习、自然语言处理等课程我学得挺好，LLM发展和应用带来巨大冲击和变革，后面决定考研也是为了走这条路。大二下来绩点也是没有什么大变化，够不到保研。

在寒假时，我报名了返校宣讲，正是因为这个契机，我遇到了我的女朋友。两个人的缘分从此开始，写这些文字时我们已经六百多天啦🥳！寒假还和室友组队参加了美赛，三个人最后一天也没熬夜直接开摆收获H奖。

苏州那边还是挺无聊的，平时只能写写字踢踢球放松，大二下体育老师朱老师组织我们参加了苏州市大学生运动会，结果可想而知，我们当时体量太小，而对手有苏州市大学生足球联赛冠军苏州大学，结局就是被狠狠10：0了。

大二一年，我的感觉是平稳中收获悸动，算是十分舒适的一年。

三载¶

时间步入大三，一切都被按下了加速键，大三上我尽可能多修了几门选修课，给后面腾出时间准备考研，那个时候已经知道自己保不了，排名50%左右。和女朋友异地每个月去南京见她，南京已经快被我两逛完了，什么红山动物园、玄武湖、夫子庙、秦淮河、科巷、中山植物园、栖霞山呀，都去过plusplus次了。

大二暑假在老王的带领下染上了健身，开始疯狂撸铁。我一开始是为了减肥，大二最后到90kg了（虽然现在也是这个吨位😂，不过现在是在增肌期，也已经在减肥了），一学期努力减到80kg了，最轻的时候78kg。最初在宿舍楼下小健身房锻炼，卧推到50kg瓶颈了，后来体育场完工去体育场练，有一段时间开始增重（其实是考研没控制饮食），然后卧推突破到70kg了，后来就开始小有成效了。

大三寒假一到，我就开始为考研做准备，先把微积分和线代学校的书复习了一遍，初步定的考的是南软，因为自己本身是智软且南软两年制据说导师放实习，不过后来改三年制了，而且市中心租房不便宜，综合考虑选择了南计，其实也有一些私心，想去南京和女朋友在一起。大三下到大四上基本上就是在学习学习疯狂学习，感觉自己回到了高三的时候，每天只有一个念头就是要考上，但是在此期间荒野乱斗打到了6万杯，英雄全集齐（还挺欧）。在女朋友、家人和朋友的支持和陪伴下，我也成功坚持了下来，最后成功上岸，和南大续费三年。中途参加了全国大学生数学竞赛圆了一个高中的省一梦哈哈哈（不过大学拿省一含金量低些），差了几分没能去国赛。如果让我选择，我大概是不会再考研的了，二战什么的是不可能的，考不上就去工作。

大三一年，感觉过的是最快的，也突然面临着人生的选择，工作？考研？当面对人生命题时，我不得不仔细思考，25年5月份的时候和一位表哥（现在阿里就职）聊了聊，当时想投投暑期实习去秋招，或者是继续all in考研，最后选择了考研，因为那时候比较迟了，看八股准备实习和秋招大概率找不到好工作（大厂肯定去不了），选择考研然后做LLM方向，是更好的选择。现在回想起来，如果我去做开发，估计也是做不下去，大家也都知道，前端都转Agent全栈了😀。

卒载¶

2025年12月21日下午5点，出考场，又结束了人生一场大型考试，这种考试的感觉已经麻木了，剩下的只有舒畅。一年以来身心俱疲，此时终于可以休息休息了！

坐在出租车上回学校，望着窗外霓虹闪烁，耳机里放着王道咸鱼学长推荐的《山脚》，这结束的又岂止是考研初试的过程，是一个人经历二次淬炼的过程呀！

但是脚步还未停下，休息了一周准备找个实习做，给自己春招留个保底，如果考研没考上还有工作的机会。我开始刷牛客，看Java八股，当时对于开发和AI两者都想抓，结果Java没项目可写，AI倒是有课设，最后选择投AI岗，华为的AI机试没过，然后学校推的一个绚星的实习拿到了，合合信息面过了杳无音信（避雷，至少给我个回复吧，感觉是HR刷KPI的），最后去了绚星。

在绚星具体业务没做什么，但是学到了很多东西，对于Agent和行业相关了解了很多，也开始真正构建自己对于AI的认知。mentor人很好，团队也很nice，白嫖了好几次饭，最后提出离职回去准备复试mentor还给我留了hc（哭😭）。

三月份准备复试，复试相比于初试学习强度没那么大，最后成功拿下！和mentor告别，也为这一年多的奋斗画上了完美的句号。

4月17日在苏州校区拍了毕业照，黄领道袍哈哈哈，当自己穿上这一身服饰时，只感觉我也能回古代做个秀才了（也可能是进士，幻想ing）。

大四收尾，还有毕业论文的折磨（这论文给AI写都比我像人写的）。

跋¶

鼓楼烟雨到姑苏，四载浮沉一砚书。千灯照卷同携手，春风黄领再征途。

那个当初对大学充满憧憬的少年，如今即将步入新的牛马生活。

这是最好的时代，也是最坏的时代。我希望可以把主动权握在自己手中。

四年不算短，也不算长，它见证了我太多教训和收获，让我不再天真单纯。

路程还要继续，收拾好行装，奔赴远方吧！

考研经验贴

Sat, 18 Apr 2026 10:30:23 +0000

我的考研经验贴¶

约 5062 个字预计阅读时间 16 分钟

1.基本背景¶

本科：苏州某南京985智能软件与工程专业

英语：六级540+

竞赛：大学生数学竞赛江苏赛区省一（考研顺便参加的），美赛H奖

其余：无

本科期间可以说平平无奇，绩点排名专业50%，考研的目标一方面是为了学历提升，另一方面也是对AI方向很感兴趣，想有更多的选择，对于未来就业也更好。

2.择校¶

一开始准备考南软22408，因为是本校且专业相关而且南软据说导师好且放实习，后面得知11408选择更多，在6月份改为选择11408，英语当时刚开始阅读影响不大，主要是数学补了一下重积分无穷级数和概率论，后来南软在8月份也改成11408了哈哈哈，而且南软改为3年制，本人综合考虑觉得性价比不高，再结合导师资源和研究方向等信息决定考南计，当时对于计院的老师和方向也大致了解了一下，最终选择考计专。至于其他的，比如科软，软微等等，这两个感觉竞争太大难度高，其他华五院校个人感觉差不多，对于本校还是比较青睐的，而且呢喃的计算机和AI方向还是很强的。

3.初试分数介绍¶

政治	英一	数一	408	总分
75	79	138	107	399

政治：选择是41分，单选错1道多选错4道；大题34分，大题主要是抄材料加肖四的背诵。
英语：客观扣了8.5分，客观难度不算太难，感觉比25年简单，但是本人新题型选反了两个，阅读错一个，完型五个；主观题感觉做得不错，翻译主题词对了，大小作文没跑题，后面主观有27.5分。
数学：选填都对，大题概率论第一问求导求错了导致失分，其他的地方感觉是证明题第一问有问题，其他大题对了答案没问题，最后的分数比预估的低一些。
408：今年的408对本人来说感觉有些难，选择有几题概念模糊，大题和语文阅读题一样，后面没时间了都是在抢分答题，在手写代码题上花时间太多了，大题丢了很多基础分，今年的题目比较新颖。

4.整体安排¶

笔者大概是从3月开始备考，每天是从8点起床吃饭学习，中午到11点半，然后玩手机睡午觉，下午一般两点多开始到五点半去吃饭，吃完饭可能会去健身，晚上6点多开始到10点半。平均每天10小时左右，考研期间我坚持去健身房锻炼，前期会按照计划一周四到五练，后面就两天一练了，有氧也不做了，关于健身锻炼我觉得考研期间还是可以保持的，不要太频繁一周七练就行，每周三练差不多，晚上也可以去跑跑步，对于身体和精神状态还是有益的。时间上分成4个阶段：

阶段一：3-7月。主要是基础阶段的学习，每天大概8小时左右学习，上课的话一般只有半天学习。数学完成了微积分、线性代数、概率论的学习。408按照数据结构、操作系统、计组、计网的顺序每个月一本书，做了王道书后面的选择题，因为中间有一些课程等等的事情所以到7月完成。英语一开始每天在扇贝上背单词，从5月份开始做阅读。
阶段二：8-9月。主要是强化阶段的学习，每天10小时起步。数学微积分和线代买了张宇的36讲，线代还看了杨威的，概率论找了方浩的资料但没看，无穷级数看了方浩的小猪佩奇，主要做了880。408我买了王道的网盘强化课，跟着学习了强化课大题的解法，这部分还是很有必要的，主要做了王道书后面的大题真题，后面想着二刷选择题的，但是没时间了。英语继续做真题，这段时间把阅读做完了，然后是新题型、完型、翻译，这三门我从b站上听了一些老师的课，翻译强推唐迟。政治我从暑假就开了，其实感觉到10月开也不迟，不过我暑假把政治的基础课听了一遍，跟的是肖秀荣系列的韩雪老师，对着书本勾勾画画就行了，也不用背诵，主要做做肖1000，买了苍盾的小程序刷题。
阶段三：10-11月。主要是真题，每天10小时起步。数学把05-25的真题做了两遍，选择李艳芳的真题集就完事了！然后数学可以针对错题和薄弱题型进行解决，b站上有丰富的up主资源，比如没咋了，你的葫芦等等，做完真题就可以开始模拟，我当时感觉真题的答案都记住了，真题平均也在140，直接开模拟了，如果真题遇到很多薄弱环节和问题的话，建议先解决这些问题再模拟，因为真题的重要性远大于模拟。408我只完全地做完了一遍真题，两天一张，一天计时做题，一天复盘，后面只把16-25的真题二刷了，本人感觉真题还是要刷两遍以上，而且复盘很重要，我当时复盘可能还不够，基础概念没有掌握好，408把真题吃透了包足够的，模拟我做了王道的模拟几张，感觉选择题是一些冷门考点，大题质量离真题差得远，选择题可以做做，其他的模拟卷没做过。英语的话开始作文，我会每天抄写一篇作文模板，大作文和小作文交叉，其实到考前我也没有正式写过一篇作文，全是背的作文模板和一些句型，然后客观题我二刷了一遍，每天一篇即可，保持手感，二刷的时候感觉对于一些文章的理解就清晰了。政治这时候我听了腿姐的马原史纲强化课，也打印了一些资料看，后面有肖秀荣的每日带背，我没有二刷肖1000，其实肖1000也只做了马原，主要是利用琐碎时间在小程序上反复刷题，上面也有模拟卷，政治不用做往年真题。
阶段四：12月。冲刺阶段，每天10小时起步。这个时候其实习题做得已经差不多了，主要是手感和熟练度，数学保持每天至少一套选填，两天一套大题。408真题二刷收尾，针对错题和薄弱的地方查缺补漏。英语两天一篇阅读保持题感。政治刷小程序，做肖八肖四选择，考前两周开始背英语作文模板和政治肖四，我是把肖四基本都背了下来（后面的提纲部分）。

5.数学¶

数学我一直是跟着张宇系列的，也有跟着武忠祥系列的，我的看法是无论是那位老师，主动权都在于自己，张宇的书很详细，方法也很完整，强化部分两者可以互为补充，其他的如杨威的线代，方浩的无穷级数和概率论，余炳森的概率论等也非常好，李林的概率论基础讲义据说也不错，总之是有时间就多结合各家进行补充。

阶段一¶

基础阶段我跟的张宇30讲，做了1000题微积分A组，然后做了660，660主要是选填，很多概念题，难度不大但是值得基础阶段一做，可以快速过一遍。微积分前几章的概念很重要，要能区分和判断，后面重积分和无穷级数算是两个难点。个人认为基础阶段理解和题目熟练度很重要，一定要把公式定理理解好，针对题型解决问题，而不是针对题目解决。

阶段二¶

强化阶段我仍然用的张宇的36讲，今年张宇的36讲变化较大，感觉更适合题型专项突破，方法总结得还是挺好的，对于一些常见考点一定要掌握，冷门的可以简单做一遍，后面忘了再看，到后期就是不断查缺补漏。线代部分强推杨威的每日一题以及一些题型的讲解，他在B站上有视频。概率论我用的是余炳森的，其实感觉市面上的概率论都大差不差，我本科学的概率论涉及到一些统计分析的内容，所以感觉考研的概率论其实就是微积分计算，而且题型很固定，掌握好离散型、连续型、混合型以及似然估计等等即可。强化阶段推荐做880，880也是考研数学必做的。

阶段三¶

真题阶段必做李艳芳的真题集，解析详尽，建议刷两遍保证真题每一题看到就知道怎么做，做真题的过程也是熟悉命题规律、掌握常考题型的过程。

阶段四¶

模拟阶段我做了张八、合工大超越、李六、张四、李四（按顺序），模拟卷做个20套即可，大概每天一张，后面会至少每天一套选填，超越卷的选填计算量太恶心了，大题目常规，不过题目确实出的很好，题目也新颖，值得一做，李林的卷子创新性也很好，适合提升，张四难度比真题简单，可以作为考前信心卷。我觉得模拟的主要目的是检查自己还有哪些地方有问题，查缺补漏，以及模拟考场上遇到未见题型的应变能力，不用在意具体的分数以及网上的模拟哥。

6.408¶

408主要就是王道系列的基础书加上真题和模拟题，配套B站上的视频，强化课和冲刺课在网盘上可以买到。

阶段一¶

在3-7月我按照数据结构与算法、操作系统、计组、计网的顺序每本书一个月完成了王道书的选择题和B站上的课程，也有人会把数据结构和算法与计网一起学习，把操作系统和计组一起学习，因为后两者强关联，四本书之间其实关联性一般，学习顺序因人而异，而计组相对来说难度最大，其次是操作系统，计网感觉更像是背诵加计算，数据结构则更加系统化，考点和题型固定。基础阶段一定要把重点考点全部理解一遍，对于一些冷门考点可以选择性不看，后面查缺补漏时看看。这里计网强推湖科大教书匠。

阶段二¶

这部分我在7月份到8月份大概一个月没看408，因为数学和408并行强化实在是有点难，时间分配上忙不过来，后来网盘上有王道的强化课，就买了强化课看，王道的强化课一定要看！这部分对于整个408每门每个部分的体系构建和做题方法非常重要，比如操作系统的PV操作、内存管理、地址的映射、文件管理、IO设备，计组的Cache计算、CPU数据通路、指令系统等等，计网部分则层次更加分明，物理层编码、数据链路层GBN/SR、网络层IPv4、传输层TCP/UDP、应用层DNS、SMTP、FTP等等。这一阶段要建立起整体的框架，把往年的真题按照章节分类完成，可以先听一遍讲解然后再自己做一遍，然后后面再二刷一遍，直到看到就知道怎么做为止。

阶段三¶

这一阶段重点就是真题套卷的完成，每两天完成一张，一天计时做题，一天认真复盘，复盘时不仅仅是错题，还有模糊的选项和蒙的题都要看看，一些边边角角的地方都不能放过，可以看王道书、参考书（比如袁春风的计组等等），或者是B站上的讲解，或者是问AI，比如deepseek、豆包等等。真题的分数也不重要，重要是复盘、查缺补漏、反复记忆。

阶段四¶

408的模拟卷质量良莠不齐，像王道的感觉大题很垃圾，选择题又太偏了，其他的模拟卷我没做过不做评价，真题的重要性永远远大于模拟卷，在真题吃透的情况下可以去看看资料书等等，湖科大的计网模拟卷可以一做。总之冲刺阶段重点是回归书本和常见考点，冷门考点留意即可，实在没有时间就all in常见考点。

7.英语¶

英语我个人的经验就是单词要背好，考研英语阅读对于细节题考的很多，一定要多背单词，然后多分析长难句，因为其实整张试卷都在考长难句。

英语题目我买的是张剑的黄皮书，至于单词书什么的可以不买纸质的，在扇贝或者墨墨等软件上背单词，其他的资料可以从网上打印。

阅读我会直接先看题目，了解文章相关词汇，因为出题顺序是按照文章顺序的，然后看第一段，后面看每段第一句，定下基调，要注意作者的情感词，很多时候会先抑后扬，但是切记不要带入自己的态度。

英语一的新题型有七选五、排序、段落标题选择三种题型，七选五考的最多，排序最难，今年的排序是我大意了，选反了两个，排序题要注意段落之间的衔接，重点看第一句和最后一句，也要注意语块的划分。

完型性价比比较低，一个才0.5分，而且难度不低，但是从16年后完型难度降低了，学有余力的同学可以看看具体的解题技巧。

翻译部分强推唐迟，翻译的原则是一定要翻译，不会的单词也要蒙，保证句子通畅，可以多翻译成小句子。

作文的话把小作文常见的建议信、感谢信等模板背背，大作文今年考了图表作文，以后大概率也是这种，图画和表格都要准备，推荐买一本王江涛的或者黄皮书的作文书。

8.政治¶

政治主要用的是肖秀荣系列，课本加1000题，还有腿姐网上的资料，打印出来看的。

政治个人的经验是多在小程序上刷题，以及多刷刷时政题，其实时政题刷熟练了就能掌握出题人的意图以及选项的规律，因为大家也都知道要选择合适立场的选项。基础阶段的课程可看可不看，马原和史纲建议看看，这两个逻辑性很强，马原的政治经济学部分可以少看点，当然今年的马原大题还就考了政治经济学，往年都是辩证法和唯物史观的。刷题推荐苍盾小程序，里面还有各方的模拟题很nice。

到11月就是肖秀荣的时间了，肖八选择题必须刷两三遍，保证每个题目每个选项都有印象，肖四选择题刷两遍和肖八同样的要求，当然今年肖四的题出的感觉偏偏难难的，当然模拟的分数不代表一切，到了12月就是背肖四了，今年肖四后面有一个提纲，也有十多页纸，还有B站上大牙、苏一等up主总结的背诵材料，都可以看看进行补充，每年肖四押题还是比较准的，我是把肖四都背下来了，考场上不会说抄材料抄不到以及没有话可说。

9.复试¶

复试由于保密协议暂时不做展开。

10.心态问题¶

考研期间心态非常重要，我相信大家在考研期间都会遇到各种各样的困难，在每个阶段也会产生不同的情绪波动。

考研一开始的时候感觉还行，毕竟学习压力没有那么大，但是这个时候可能还有一些课程等事情导致无法把时间完全投入到考研中，那么在学习的时候需要全身心地投入，对于课程什么的可以舍弃，保证学习的连贯性，也不用每天都高强度学习，每周留个一天放松是更好地调节方式，到后期也不能把自己当个机器一样学习，学累的时候就去玩玩喜欢的游戏、听听音乐、锻炼什么的。
心态最不稳的时候是八九月份，大概在保研出结果的时候，身边的同学们一个个尘埃落定，会让人十分焦虑，考研是一个人的战斗，主角是我们自己，无论别人再如何都与我们无关，可以关闭朋友圈，不断重复给自己打气，暗示自己会成功，少浏览一些加的考研信息群的消息，我是从不在那些群里发言，里面一些有用的资料和往年信息可以看看，但是我们自己要保持清醒，稳住心态。
到了后期，会发现自己怎么什么都忘了，知识点想不起来，做题没感觉，知识没体系，这些都是很正常的现象，我们要知道其实我们的知识没有忘，只不过大脑和内存一样，需要调页，需要置换，考研就是反复多次的学习，经过重复训练后就会拟合。当发现自己一直找不到做题的感觉时，可以刷刷别人的经验贴找感觉，看看B站放松大脑，吃顿好吃的休息休息，说不定再坐到座位上就茅塞顿开了。
初试那几天非常紧张，我初试前后瘦了好几斤，一是睡眠肯定是不够的，但是要保证有睡眠，中午一般就在考点旁找个位置休息，看看下午的科目，考场上保持适度的紧张感，可以给自己心理暗示稳住心态，看题做题要细心仔细，考完一门忘一门，不浏览社交软件的信息，考完即是胜利！

11.一些想说的话¶

考研的经历一定会在我们的人生中留下浓墨重彩的一笔，我觉得它让我又找回学习的准心和态度。
考研是一场信息战，重在各种院校信息、考研资料的搜寻，当然资料在精不在多，学习在于找对方向，付出努力，切忌三心二意。
考研是一场持久战，重在计划和实践，对自己的水平首先要有一定的把握，然后选择性价比以及未来发展较好的方向和院校，最后一定可以一研为定！

12.结语¶

感谢我的女朋友、家人、朋友的支持与陪伴，人生永远都是最好的选择，愿大家都成为最好的自己！

我的论文阅读

Sat, 18 Apr 2026 10:30:23 +0000

我的论文阅读¶

约 1442 个字预计阅读时间 5 分钟

本人是一个刚开始阅读专业学术论文的小白，本科期间读过一些综述和研究，但是基本上没有完全读完过🤦‍♂️，虽然英文水平还可以，但面对大段的英文还是头皮发麻。在AI工具的帮助下，我逐渐建立起自己的一套阅读工作流。

由于CC获取不到账号，且GLM Coding Plan抢不到（太难抢了bushi），我不得不给Cursor充了会员，之前用了一段时间CC感觉确实很强，文本生成代码编辑上没得说，Codex一直想试试没开始，opencode也用过，主要试了下里面的Qwen和MiMo，但是opencode太慢了，目前主要用Cursor。

我会把从arXiv上下载的论文放在Zotero中管理，用Cursor先给我将其翻译成中文版本（一字不差，图片截取放在/assets中，参考文献标注好链接）。

论文翻译提示词

你是一个学术论文翻译助手，你具备中英翻译的技能，可以对PDF中的内容进行准确、高效地翻译，并且符合语境和实际研究方向。现在请将×××（论文路径）这篇论文的正文和参考文献以及附录的内容全部翻译成中文，每一个章节都需要详细准确地翻译，不要遗漏，包括对应的参考文献也加上去，图片请截取放在对应的文章位置处，表格类的图请不要用markdown的表格语法而是直接用原图，将翻译的内容放在×××.md中保存。

接着我会精读一遍原论文，用翻译的中文看英文，阅读上少了很多障碍，我会从摘要开始，摘要中浓缩了整篇论文核心的内容和方法，然后从Introduction开始，到Related Work，然后是论文最重要的Methodology部分，这一部分会有阅读难点，对于作者的一些思想动机和方法、公式什么的需要多方搜索，或者问AI老师，我会在中文翻译文档中或者是Zotero中在相应位置写下我的QA，完成Methodology后论文的理论部分就结束了，对于Experiment部分，重点关注作者和哪些baseline做对比的，采用了什么具体的实验设置，比如数据集划分、超参数设置、评估指标等等，实验主要的内容无非是和SOTA方法做对比，以及进行消融实验分析模块有效性等等，实验部分主要告诉我们提出的方法怎么好，好在哪里，以数据的形式呈现，最后就是Conclusion部分，对文章做总结。有时候实验详细设置和公式推导会在附录部分，这里在通读完整篇论文之后也是必须要看的，因为你在复现的时候可能就需要对论文中的具体超参数进行配置，附录部分可能会有。

精读完论文后就会对论文有个大致了解，论文的Motivation、Methodology、Experiment是必须熟悉的。接着需要做PPT进行汇报，我尝试了Cursor生成PPT，

学术论文PPT生成提示词

@/pptx（这里我使用了pptx这个skill帮助生成）你是一个组会论文PPT制作助手。我现在需要在组会上汇报×××这篇论文，请帮我设计一下PPT的内容，按照背景、动机和方法、实验与结果、消融实验、总结与展望、参考文献六个板块，PPT大概20页或者20多页。×××（文件路径）是论文原文，×××.md是中文翻译，请你结合中文翻译制作PPT，analysis.md是一篇对于这篇论文的总结分析（可有可无，这个我从github上找到了每日arXiv论文爬取和分析的仓库），涉及到这篇论文的动机和不足之处，可以参考。×××.pptx是PPT模板（你制作的PPT模板，通常我会用学校的模板），请使用这个模板；/assets 中有论文中的图片。

Cursor会对论文进行分析，对我的PPT模板也会生成py脚本操作，最后将PPT进行填充，但是图片它只给了我路径，没有插入到PPT中。我还尝试了Coze中的PPT技能，它会生成学术风的PPT汇报，个人感觉还是挺不错的，但是在一些细节上还不够，比如对于数学公式很头疼，直接在PPT中输入太麻烦，这些AI工具生成的也是垃圾，后续会尝试一下Genspark。

阅读一篇论文的有效时间大概是2天，一天完成翻译和精读，一天生成PPT并调整字体格式、插入图片、复盘论文、生成讲稿。如果是单纯获取论文Idea和总结贡献，大概只需要Prompt一下。阅读的过程中还有一个很重要的点，就是其实我们是通过阅读论文来补充领域知识的，比如阅读了POP: Online Structural Pruning Enables Efficient Inference of Large Foundation Models这篇论文，我会对LLM/MoE/VLM 模型和数据集特点进行学习，了解大模型推理训练流程、Prefill和Decode过程、上下文稀疏性相关研究等等，这是阅读论文除了Idea之外最大的收获。

还有在多次汇报下来的经验，比如怎么联系几页PPT的内容，讲清楚一个概念，把方法和公式解释好，实验和消融部分不拖沓，直接讲重点，以及要提出自己的一些思考等。

Overview

Wed, 15 Apr 2026 23:30:04 +0000

随笔¶

约 38 个字预计阅读时间不到 1 分钟

gossip里记录我的闲言碎语，一些年度总结和事记。

reading里是读书记录。

paper里是精读的论文笔记。

Overview

Wed, 15 Apr 2026 23:30:04 +0000

技术笔记¶

约 12 个字预计阅读时间不到 1 分钟

Something about native technologies and their actual applications.

Fine-tuning

Tue, 14 Apr 2026 23:03:13 +0000

Fine-tuning 微调¶

约 3066 个字 1 张图片预计阅读时间 10 分钟

1.什么是Fine-tuning？¶

首先，我们有一个预训练的模型，这个模型已经在大量的数据上训练过，然后再在特定的任务数据上继续训练这个模型，使其适应新的任务。

为什么要微调？通用大模型虽然强大，但在特定领域可能表现不佳。通过微调，可以使模型更好地适应特定领域的需求和特征。

2.Full Fine-Tuning 全量微调¶

全量微调利用特定任务数据调整预训练模型的所有参数，以充分适应新任务。它依赖大规模计算资源，但能有效利用预训练模型的通用特征。

3.PEFT 参数高效微调¶

PEFT(Parameter-Efficient Fine-Tuning)旨在通过最小化微调参数数量和计算复杂度，实现高效的迁移学习。它仅更新模型中的部分参数，显著降低训练时间和成本，适用于计算资源有限的情况。PEFT技术包括Prefix Tuning、Prompt Tuning、Adapter Tuning等等。

3.1 Prefix Tuning¶

与传统的微调范式不同，前缀调整提出了一种新的策略，即在预训练的语言模型输入序列前添加可训练、任务特定的前缀，从而实现针对不同任务的微调。这意味着我们可以为不同任务保存不同的前缀，而不是为每个任务保存一整套微调后的模型权重，从而节省了大量的存储空间和微调成本。

前缀实际上是一种连续可微的虚拟标记（Soft Prompt/Continuous Prompt），与离散的Token相比，它们更易于优化并且效果更佳。这种方法的优势在于不需要调整模型的所有权重，而是通过在输入中添加前缀来调整模型的行为，从而节省大量的计算资源，同时使得单一模型能够适应多种不同的任务。前缀可以是固定的（即手动设计的静态提示）或可训练的（即模型在训练过程中学习的动态提示）。

3.2 Prompt Tuning¶

提示调整是一种在预训练语言模型输入中引入可学习嵌入向量作为提示的微调方法。这些可训练的提示向量在训练过程中更新，以指导模型输出更适合特定任务的响应。

提示调整与前缀调整都涉及在输入数据中添加可学习的向量，这些向量是在输入层添加的，但两者的策略和目的不同：

提示调整：旨在模仿自然语言中的提示形式，将可学习向量（通常称为提示标记）设计为模型针对特定任务生成特定类型输出的引导。这些向量通常被视为任务指导信息的一部分，倾向于使用较少的向量来模仿传统的自然语言提示。
前缀调整：可学习前缀更多地用于提供输入数据的直接上下文信息，作为模型内部表示的一部分，可以影响整个模型的行为。

3.3 P-Tuning¶

P-Tuning（基于提示的微调）和提示调整都是为了调整大型预训练语言模型（如GPT系列）以适应特定任务而设计的技术。两者都利用预训练的语言模型执行特定的下游任务，如文本分类、情感分析等，并使用某种形式的“提示”或“指导”来引导模型输出，以更好地适应特定任务。

P-Tuning使用一个可训练的LSTM模型（称为提示编码器prompt_encoder）来动态生成虚拟标记嵌入，允许根据输入数据的不同生成不同的嵌入，提供更高的灵活性和适应性，适合需要精细控制和理解复杂上下文的任务。这种方法相对复杂，因为它涉及一个额外的LSTM模型来生成虚拟标记嵌入。

3.4 P-Tuning v2¶

P-Tuning v2是P-Tuning的进一步改进版，在P-Tuning中，连续提示被插入到输入序列的嵌入层中，除了语言模型的输入层，其他层的提示嵌入都来自于上一层。这种设计存在两个问题：

第一，它限制了优化参数的数量。由于模型的输入文本长度是固定的，通常为512，因此提示的长度不能过长。
第二，当模型层数很深时，微调时模型的稳定性难以保证；模型层数越深，第一层输入的提示对后面层的影响难以预测，这会影响模型的稳定性。

P-Tuning v2的改进在于，不仅在第一层插入连续提示，而是在多层都插入连续提示，且层与层之间的连续提示是相互独立的。这样，在模型微调时，可训练的参数量增加了，P-Tuning v2在应对复杂的自然语言理解(NLU)任务和小型模型方面，相比原始P-Tuning具有更出色的效能。

3.5 Adapter Tuning¶

与LoRA技术类似，适配器调整的目标是在保留预训练模型原始参数不变的前提下，使模型能够适应新的任务。适配器调整的方法是在模型的每个层或选定层之间插入小型神经网络模块，称为“适配器”。这些适配器是可训练的，而原始模型的参数则保持不变。

适配器调整的关键步骤包括：

以预训练模型为基础：初始阶段，我们拥有一个已经经过预训练的大型模型，如BERT或GPT，该模型已经学习了丰富的语言特征和模式。
插入适配器：在预训练模型的每个层或指定层中，我们插入适配器。适配器是小型的神经网络，一般包含少量层次，并且参数规模相对较小。
维持预训练参数不变：在微调过程中，原有的预训练模型参数保持不变。我们不直接调整这些参数，而是专注于适配器的参数训练。
训练适配器：适配器的参数会根据特定任务的数据进行训练，使适配器能够学习如何根据任务调整模型的行为。
针对任务的调整：通过这种方式，模型能够对每个特定任务进行微调，同时不影响模型其他部分的通用性能。适配器有助于模型更好地理解和处理与特定任务相关的特殊模式和数据。
高效与灵活：由于只有部分参数被调整，适配器调整方法相比于全模型微调更为高效，并且允许模型迅速适应新任务。

例如，如果我们有一个大型文本生成模型，它通常用于执行广泛的文本生成任务。若要将其微调以生成专业的金融报告，我们可以在模型的关键层中加入适配器。在微调过程中，仅有适配器的参数会根据金融领域的数据进行更新，使得模型更好地适应金融报告的写作风格和术语，同时避免对整个模型架构进行大幅度调整。

3.6 LoRA¶

LoRA（Low-Rank Adaptation）是一种旨在微调大型预训练语言模型的技术。其核心理念在于，在模型的决定性层次中引入小型、低秩的矩阵来实现模型行为的微调，而无需对整个模型结构进行大幅度修改。

这种方法的优势在于，在不显著增加额外计算负担的前提下，能够有效地微调模型，同时保留模型原有的性能水准。

LoRA的操作流程如下：

确定微调目标权重矩阵：首先在大型模型（例如GPT）中识别出需要微调的权重矩阵，这些矩阵一般位于模型的MHA和FFN部分。
引入两个低秩矩阵：然后，引入两个维度较小的低秩矩阵$A$和$B$。假设原始权重矩阵的尺寸为$\mathbb{R}^{d\times d}$，则$A$和$B$的尺寸可能为$\mathbb{R}^{d\times r}$和$\mathbb{R}^{r\times d}$，其中$r\ll d$。
计算低秩更新：通过这两个低秩矩阵的乘积$AB$来生成一个新矩阵，其秩（即$r$）远小于原始权重矩阵的秩。这个乘积实际上是对原始权重矩阵的一种低秩近似调整。
结合原始权重：最终，新生成的低秩矩阵$AB$被叠加到原始权重矩阵上。因此，原始权重经过了微调，但大部分权重维持不变。这个过程可以用数学表达式描述为：新权重 = 原始权重 + $AB$。

以一个具体实例来说，假设我们手头有一个大型语言模型，它通常用于执行广泛的自然语言处理任务。现在，我们打算将其微调，使其在处理医疗健康相关的文本上更为擅长。采用LoRA方法，我们无需直接修改模型现有的大量权重。相反，只需在模型的关键部位引入低秩矩阵，并通过这些矩阵的乘积来进行有效的权重调整。这样一来，模型就能更好地适应医疗健康领域的专业语言和术语，同时也避免了大规模权重调整和重新训练的必要。

3.7 QLoRA¶

QLoRA（Quantized Low-Rank Adaptation）是一种结合了LoRA方法与深度量化技术的高效模型微调手段。QLoRA的核心在于：

量化技术：QLoRA采用创新的技术将预训练模型量化为4位。这一技术包括低精度存储数据类型（4-bit NormalFloat，简称NF4）和计算数据类型（16-bit BrainFloat）。这种做法极大地减少了模型存储需求，同时保持了模型精度的最小损失。
量化操作：在4位量化中，每个权重由4个比特表示，量化过程中需选择最重要的值并将它们映射到16个可能的值之一。首先确定量化范围（例如-1到1），然后将这个范围分成16个区间，每个区间对应一个4-bit值。然后，原始的32位浮点数值将映射到最近的量化区间值上。
微调阶段：在训练期间，QLoRA先以4-bit格式加载模型，训练时将数值反量化到bf16进行训练，这样大幅减少了训练所需的显存。例如，33B的LLaMA模型可以在24 GB的显卡上进行训练。

量化过程的挑战在于设计合适的映射和量化策略，以最小化精度损失对性能的影响。在大型模型中，这种方法可以显著减少内存和计算需求，使得在资源有限的环境下部署和训练成为可能。

4.模型选择¶

优先选择开源模型
选择模型要考虑持续更新能力
参数量（如7B、72B、175B）需通过测试评估，通常从小到大或者从大到小测试，找到既能达到想要的效果，模型大小又足够轻量的模型

5.数据需求¶

数据必须真实，例如真实语音、真实聊天记录；
详细打标签：如发言角色、年龄、情绪、专业度、服务态度等；
标签分布要合理，训练集与验证集、测试集要保持标签比例一致；
避免过度偏好，保证模型在各类场景中都能均衡表现；
重点场景加强数据量，尤其是复杂对话、多变细节；
根据模型表现，动态调整、增强数据。

6.Reference¶

【大模型开发】一文搞懂Fine-tuning（大模型微调）

深度理解Fine-Tuning（微调）：从原理到实操

一文搞懂Fine-tuning（大模型微调）

FlashAttention

Tue, 14 Apr 2026 23:03:13 +0000

FlashAttention¶

约 2 个字预计阅读时间不到 1 分钟

FlashAttention

Megatron-LM

Tue, 14 Apr 2026 23:03:13 +0000

Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism¶

约 10 个字预计阅读时间不到 1 分钟

Megatron

ZeRO

Tue, 14 Apr 2026 23:03:13 +0000

ZeRO¶

约 2 个字预计阅读时间不到 1 分钟

ZeRO

Overview

Tue, 14 Apr 2026 22:28:00 +0000

概述¶

约 842 个字预计阅读时间 3 分钟

1.引言¶

2025 是 Agent 元年。从简单的问答对话到自主规划、工具调用、多步推理，AI Agent 正在重新定义人与机器的交互方式。

Agent（智能体）是指能够感知环境、自主决策并采取行动以实现特定目标的 AI 系统。与传统 LLM 被动响应不同，Agent 具备以下核心能力：

规划（Planning）：将复杂任务拆解为可执行的子步骤，制定行动策略
工具使用（Tool Use）：调用外部 API、搜索引擎、代码执行器等扩展自身能力边界
记忆（Memory）：维护短期对话上下文和长期经验积累，实现跨会话学习
反思（Reflection）：评估自身行动结果，纠正错误并优化后续策略

一个完整的 Agent 系统通常由 LLM 作为"大脑"，配合工具集、记忆模块和执行框架协同工作。当前主流的 Agent 框架包括 LangGraph、AutoGen、CrewAI等，它们提供了不同的编排范式和抽象层次。

2.Agent 核心理念¶

2.1 ReAct¶

ReAct（Reasoning + Acting）是最经典的 Agent 范式之一，将推理（Reasoning）与行动（Acting）交替进行。Agent 在每个步骤中先进行"思考"（Thought），再决定采取什么"行动"（Action），然后观察行动"结果"（Observation），如此循环直到得出最终答案。

2.2 Tool Use（工具调用）¶

Tool Use 使 LLM 能够调用外部工具来弥补自身能力的不足。核心流程包括：工具描述 → LLM 选择工具 → 生成调用参数 → 执行工具 → 将结果返回给 LLM → 生成最终回答。常见的工具类型包括搜索引擎、计算器、代码执行器、数据库查询等。

3.Agent 常见题目¶

3.1 Agent 与传统 LLM 对话的区别是什么？¶

传统 LLM 是被动的问答系统，给定输入产生输出。Agent 是主动的，具备规划、工具调用、记忆和反思能力，能够自主执行多步任务。

3.2 什么是 ReAct 模式？¶

ReAct 将推理（Reasoning）和行动（Acting）交替进行，每一步包含 Thought → Action → Observation 三个环节，循环直到得出最终答案。

3.3 Agent 如何解决幻觉问题？¶

通过工具调用获取真实外部数据（如搜索、数据库查询），通过反思机制自我校验，通过多 Agent 交叉验证降低单点错误。

3.4 多 Agent 协作有哪些常见模式？¶

编排模式（中央调度）、对话模式（协商共识）、投票模式（独立决策后聚合）。

3.5 Agent 的记忆机制如何设计？¶

短期记忆维护当前任务的上下文和执行状态，长期记忆存储历史经验和知识，通常借助向量数据库实现语义检索。

3.6 如何防止 Agent 陷入无限循环？¶

设置最大迭代次数、定义明确的终止条件、引入超时机制、通过反思判断是否需要继续执行。

3.7 Agent 的安全风险有哪些？¶

工具调用可能带来注入攻击、数据泄露、越权操作等风险。需要通过 Guardrails、权限控制、输入输出校验等机制进行防护。

3.8 如何评估 Agent 的性能？¶

从任务完成率、执行步数、工具调用准确率、响应延迟、成本等多个维度综合评估。

A2A

Tue, 14 Apr 2026 22:28:00 +0000

A2A¶

约 1378 个字 1 张图片预计阅读时间 4 分钟

1.什么是A2A协议¶

A2A协议是一个开放标准，让AI智能体之间能够无缝通信和协作。A2A让来自不同开发者、基于不同框架、属于不同组织的智能体能够联合起来，共同工作。

2.A2A解决的问题¶

智能体暴露问题：将智能体包装为工具限制了它们的能力。A2A允许智能体以原本的形式暴露。
自定义集成：每个交互都需要自定义的点对点解决方案，造成巨大的工程开销。
创新缓慢：为每个新集成进行定制开发会减缓创新。
可扩展性问题：随着智能体数量和交互的增长，系统变得难以扩展和维护。
互操作性：这种方法限制了互操作性，阻止了复杂AI生态系统的有机形成。
安全漏洞：临时通信通常缺乏一致的安全措施。

3.A2A的核心优势¶

安全协作：没有标准，很难确保智能体之间的安全通信。A2A使用HTTPS进行安全通信，并维护不透明操作，因此智能体在协作期间无法看到其他智能体的内部工作。
互操作性：A2A打破了不同AI智能体生态系统之间的孤岛，使来自各种供应商和框架的智能体能够无缝协作。
智能体自主性：A2A允许智能体保持其个体能力，在与其他智能体协作时作为自主实体行动。
降低集成复杂性：协议标准化智能体通信，使团队能够专注于其智能体提供的独特价值。
支持长时间运行操作：协议支持长时间运行操作（LRO）以及使用服务器发送事件（SSE）和异步执行的流式传输。

4.理解智能体技术栈¶

A2A位于更广泛的智能体技术栈中，包括：

A2A：标准化部署在不同组织并使用不同框架开发的智能体之间的通信。
MCP：将模型连接到数据和外部资源。
框架（如ADK）：提供构建智能体的工具包。
模型：智能体推理的基础，可以是任何大语言模型（LLM）。

5.A2A和MCP¶

A2A与MCP并不是相互排斥的关系，A2A旨在标准化AI智能体之间的通信，MCP的重点是减少智能体与工具和数据连接所涉及的复杂性。两者相互补充。

6.A2A核心概念¶

6.1 A2A交互中的核心参与者¶

用户（User）：最终用户，可以是人类操作员或自动化服务。用户发起需要一个或多个AI智能体协助的请求或定义目标。
A2A客户端（客户端智能体）：代表用户行动的应用程序、服务或另一个AI智能体。客户端使用A2A协议发起通信。
A2A服务器（远程智能体）：实现A2A协议HTTP端点的AI智能体或智能体系统。它接收来自客户端的请求，处理任务，并返回结果或状态更新。从客户端的角度来看，远程智能体作为不透明（黑盒）系统运行，意味着其内部工作、内存或工具不会暴露。

6.2 基本通信元素¶

元素	描述	关键目的
智能体卡片（Agent Card）	描述智能体身份、能力、端点、技能和身份验证要求的JSON元数据文档。	使客户端能够发现智能体并了解如何安全有效地与它们交互。
任务（Task）	由智能体发起的有状态工作单元，具有唯一ID和定义的生命周期。	促进长时间运行操作的跟踪，并支持多轮交互和协作。
消息（Message）	客户端和智能体之间的单轮通信，包含内容和角色（“用户”或“智能体”）。	传递指令、上下文、问题、答案或不一定是正式工作的状态更新。
部分（Part）	消息和工件中使用的基本内容容器（例如TextPart、FilePart、DataPart）。	为智能体在消息和工件中交换各种内容类型提供灵活性。
工件（Artifact）	智能体在任务期间生成的有形输出（例如文档、图像或结构化数据）。	提供智能体工作的具体结果，确保结构化和可检索的输出。

6.3 交互机制¶

A2A协议支持各种交互模式，以适应不同的响应性和持久性需求。这些机制确保智能体能够高效可靠地交换信息，无论任务的复杂性或持续时间如何：

请求/响应（轮询）：客户端发送请求，服务器响应。对于长时间运行的任务，客户端定期轮询服务器以获取更新。
使用服务器发送事件（SSE）的流式传输：客户端发起流以通过开放的HTTP连接从服务器接收实时、增量结果或状态更新。
推送通知：对于非常长时间运行的任务或断开连接的场景，当发生重要任务更新时，服务器可以主动向客户端提供的webhook发送异步通知。

6.4 Agent Card¶

Agent Card是一个JSON文档，作为初始发现和交互设置的数字名片。它提供有关智能体的基本元数据。

7.Reference¶

A2A文档

Agent

Tue, 14 Apr 2026 22:28:00 +0000

Agent¶

约 1157 个字 2 张图片预计阅读时间 4 分钟

1.Agent定义¶

能够感知环境并采取行动以实现目标的智能体。

Agent = LLM+Planning skills+Memory+Tool use

这种系统=LLM（大脑）+Planning skills（规划）+Memory（记忆）+Tool use（工具使用）。

Agenticness是一种程度，不是标签，用来评估一个AI系统agent化的程度，即系统在复杂环境下、有限的直接监督下，灵活实现复杂目标的能力程度。

在产业界，将以Autonomous Agent作为目标但表现强弱不一的所有系统统称为Agentic System，并根据Agenticness的程度加以区分。

2.Agent vs Workflow¶

这是Agentic System内部的两种架构模式：workflow和agent。

workflow：通过预定义代码路径编排LLM和工具的系统,强调的是过程的标准化和自动化,比如软件开发过程中,代码提交->代码审查->测试->部署,每个环节都有前后依赖和触发条件。

Agent：通过LLM动态指导其自身流程和工具使用，保持对任务完成过程控制的系统,强调适应性与自主性,比如一个客服Agent能根据用户输入判断意图,自主选择回复内容,甚至调用工具解决问题,而无需严格遵守固定步骤。

Agentic AI:是Agent概念的另一种表达,Agentic AI指旨在独立作出决策并采取行动以实现特点目标的软件程序,可认为AI Agent = Agentic AI System。

Agentic AI的关键特征:记忆,规划,环境感知,工具使用,自主达成目标。

Agentic AI的常见特征:从环境中学习,制定复杂计划,自主执行任务。

3.Agentic在现阶段的重要性¶

提升企业员工生产效率、优化业务运营、赋能产品服务和商业模式创新等方面发挥着重要作用。

强调Agentic，就是在探索和定义未来人机协作的新范式：人类负责设定目标、提供价值观和进行关键审核；智能体负责执行复杂的操作和探索解决方案。

长期愿景：迈向通用人工智能（AGI）的过渡形态。

智能体被视为迈向AGI的关键中间形态：通过赋予AI“自主行动”的能力，研究者可以探索更高级的认知架构（如目标驱动、多智能体协作），推动AI向更通用、更拟人化的方向演进。

4.Agent技术栈¶

1.模型层

LLM或其他模型：OpenAI(GPT系列), Google(Gemini系列), Anthropic(Claude系列)

推理与规划：CoT, ToT, ReAct框架

2.数据层

存储是对于有状态的 Agent 来说是一个基本构建块——Agent 由其对话历史、记忆以及用于检索增强生成（RAG）的外部数据源等持久化状态来定义。

向量数据库：Chroma, Weaviate, Pinecone, Milvus, pgvector, Faiss, Qdrant

RAG：RAGFlow, GraphRAG, RAGAS（评估）

3.逻辑编排层

MCP协议

Agent框架：Agent 框架协调大语言模型调用并管理 Agent 状态, 如AutoGen, crewAI, LangChain, LangGraph, AutoGPT, LlamaIndex

可观测性：langfuse, langsmith, langwatch, openlit

提示词工程：TypeChat, DSPy, Promptify

4.可视化编排层(低代码,无代码编排能力)

xyflow, Langflow, Flowise

5.应用层

XUI, API, SDK, Application

5.单智能体 vs 多智能体¶

单智能体架构：一个LLM自己完成所有的推理、规划、工具执行。

多智能体架构：涉及两个或多个Agent，可以是同一个LLM或者一组不同的LLM。

多智能体架构可分为2个分类：垂直架构和水平架构。这两种架构是两个极端，大部分现有的架构处于两者之间。

垂直架构：在这种结构中，一个智能体充当领导者，其他智能体直接向其报告。根据架构的不同，报告智能体可能只与领导智能体通信。或者，领导者可以定义为所有智能体之间的共享对话。垂直架构的定义特征包括有一个领导智能体和清晰的分工。

水平架构：在这种结构中，所有智能体都被视为平等的，并且是关于任务的一个群组讨论的一部分。智能体之间的通信发生在一个共享的线程中，每个智能体都可以看到其他智能体的所有消息。智能体也可以自愿完成特定任务或调用工具，这意味着它们不需要由领导者智能体分配。水平架构通常用于协作、反馈和组织讨论对任务总体成功至关重要的任务。

Memory Structure

Tue, 14 Apr 2026 22:28:00 +0000

Agent 记忆框架¶

约 1835 个字 71 行代码预计阅读时间 7 分钟

传统 LLM 是无状态的，每次交互相互独立，无法跨会话学习和适应。Agent 记忆框架通过引入持久化的记忆层，使 Agent 能够记住用户偏好、历史经验和领域知识，从而在多次交互中不断进化和个性化。

一个完整的 Agent 记忆体系通常包含以下层次：

短期记忆（Short-term Memory）：维护当前会话的上下文，如对话历史、消息缓冲区
长期记忆（Long-term Memory）：跨会话持久化的知识，包括语义记忆（事实与偏好）、情景记忆（历史经验）和程序记忆（行为模式）
外部存储（External Storage）：向量数据库、图数据库等，用于存储海量记忆并通过检索召回

1.Mem0¶

Mem0 是一个专为 AI Agent 设计的智能记忆层，其核心理念是"AI 记忆不应只是简单的存储，而应像人类记忆一样具备筛选、遗忘和整合能力"。

1.1 核心架构¶

Mem0 的记忆管理包含四个关键机制：

智能过滤（Intelligent Filtering）：并非所有信息都值得记住。Mem0 通过优先级评分和上下文标签决定哪些信息需要存储，避免记忆膨胀，让 Agent 专注于关键信息。

动态遗忘（Dynamic Forgetting）：Mem0 不会将记忆视为静态数据堆。低相关度的条目会随时间衰减，释放空间和注意力。遗忘不是缺陷，而是智能记忆系统的必要特性。

记忆整合（Memory Consolidation）：根据使用频率、最近性和重要程度，信息在短期记忆和长期记忆之间流动，优化召回速度和存储效率。这模仿了人类将知识内化的过程。

跨会话连续性（Cross-Session Continuity）：大多数 Agent 在会话结束时重置，而 Mem0 的记忆架构能够在不同会话、设备和时间段之间保持相关上下文的连续性。

1.2 记忆类型¶

类型	作用	示例
工作记忆	维持短期对话连贯性	"上一个问题是什么？"
事实记忆	记住用户偏好、沟通风格、领域上下文	"你偏好 Markdown 输出和简短回答"
情景记忆	记住具体的过往交互或结果	"上次部署这个模型时延迟增加了"
语义记忆	存储随时间积累的泛化知识	"涉及 JSON 解析的任务通常让你头疼，需要模板吗？"

1.3 使用方式¶

Mem0 提供简洁的 API，支持多种 LLM 后端和向量存储：

from mem0 import Memory

# 初始化
m = Memory()

# 添加记忆
m.add("I prefer short, concise answers", user_id="alice")

# 检索记忆
memories = m.search("What are my preferences?", user_id="alice")

# 获取所有记忆
all_memories = m.get_all(user_id="alice")

# 更新记忆
m.update(memory_id="xxx", data="I prefer detailed answers")

# 删除记忆
m.delete(memory_id="xxx")

Mem0 支持多维度组织记忆，可通过 user_id、agent_id、app_id 等维度进行隔离和共享，适合多用户、多 Agent 的场景。

2.LangMem¶

LangMem 是 LangChain 推出的长期记忆 SDK，专注于让 Agent 通过记忆学习和改进行为。它与 LangGraph 的深度集成使其成为 LangChain 生态中构建自适应 Agent 的首选方案。

2.1 三种记忆类型¶

LangMem 将记忆分为三种类型，每种服务于不同的自适应需求：

记忆类型	目的	示例	人类类比
语义记忆（Semantic）	事实与知识	用户偏好、知识三元组	知道 Python 是编程语言
情景记忆（Episodic）	过往经验	对话摘要、Few-shot 示例	记得第一天上班的经历
程序记忆（Procedural）	系统行为	核心性格和响应模式	知道如何骑自行车

2.2 语义记忆：事实提取¶

语义记忆存储关键事实及其关系，使 Agent 能够记住不会预训练在模型中、也无法通过搜索获取的信息。LangMem 使用 LLM 自动从对话中提取事实：

from langmem import create_memory_manager

manager = create_memory_manager(
    "anthropic:claude-3-5-sonnet-latest",
    instructions="Extract user preferences and facts",
    enable_inserts=True
)

# 从对话中提取事实
conversation = [
    {"role": "user", "content": "Alice manages the ML team and mentors Bob."}
]
memories = manager.invoke({"messages": conversation})

2.3 程序记忆：行为优化¶

程序记忆是 LangMem 最具特色的能力。它通过分析成功和失败的交互轨迹，自动更新 Agent 的系统 Prompt，使核心行为模式随经验进化：

from langmem import create_prompt_optimizer

trajectories = [
    (
        [{"role": "user", "content": "Tell me about Mars"},
         {"role": "assistant", "content": "Mars is the fourth planet..."},
         {"role": "user", "content": "I wanted more about its moons"}],
        {"score": 0.5, "comment": "Missed key information about moons"}
    )
]

optimizer = create_prompt_optimizer(
    "anthropic:claude-3-5-sonnet-latest",
    kind="metaprompt",
    config={"max_reflection_steps": 3}
)

improved_prompt = optimizer.invoke({
    "trajectories": trajectories,
    "prompt": "You are a planetary science expert"
})

LangMem 提供多种优化算法：

metaprompt：通过反思和额外思考时间研究对话，用元 Prompt 提出更新建议
gradient：将工作分为批评和 Prompt 提案两个独立步骤
prompt_memory：在单步中完成上述操作

2.4 命名空间与隐私¶

LangMem 中所有记忆都有命名空间（Namespace），最常见的是包含 user_id 以防止用户间记忆交叉。记忆可以限定在特定应用路由、单个用户、团队共享，或跨所有用户学习核心程序。

3.Letta¶

Letta（前身为 MemGPT）是一个面向有状态 LLM Agent 的平台，其核心思想是将上下文窗口视为受限的记忆资源，实现类似操作系统的记忆层级管理。

3.1 操作系统式的记忆架构¶

Letta 借鉴操作系统的内存管理理念，将 Agent 记忆分为四个层次：

记忆层	类比	作用
消息缓冲区（Message Buffer）	CPU 寄存器	存储最近的对话消息，提供即时上下文
核心记忆（Core Memory）	RAM	可编辑的上下文内记忆块，如用户画像、Agent 人设、当前任务
回溯记忆（Recall Memory）	磁盘	完整的对话历史，可搜索和检索
存档记忆（Archival Memory）	外部存储	显式结构化的知识，可使用向量数据库或图数据库存储

3.2 核心记忆块¶

核心记忆是 Letta 最具特色的抽象。每个记忆块包含：

标签（Label）：记忆块的名称
描述（Description）：说明存储内容的含义
值（Value）：实际放入上下文的 Token
字符限制（Character Limit）：分配的上下文空间

Agent 可通过工具调用自主编辑记忆块，实现自我记忆管理。其他专门的 Agent（如"睡眠时 Agent"）也可异步优化这些记忆块。

3.3 消息驱逐与递归摘要¶

当上下文窗口达到容量时，Letta 采用智能驱逐策略：

仅驱逐部分消息（如 70%），确保连续性
被驱逐的消息经过递归摘要处理，与已有摘要合并
较旧的消息对摘要的影响力逐渐降低

3.4 Sleep-Time Compute¶

Letta 引入异步记忆管理的范式：

非阻塞操作：记忆管理在空闲时段异步执行，不影响对话响应速度
主动记忆精炼：在 Agent 空闲时重组和优化记忆，而非在对话中进行增量更新
更高质量的记忆形成：有更多时间进行深度思考和记忆整合

3.5 使用方式¶

Letta 提供 API 和 CLI 两种使用方式：

from letta import create_client

client = create_client()

# 创建 Agent
agent = client.create_agent(
    name="my_agent",
    memory={
        "human": {"name": "Alice", "preferences": "concise answers"},
        "persona": {"role": "helpful assistant"}
    }
)

# 发送消息
response = client.send_message(
    agent_id=agent.id,
    message="What do you know about me?"
)

Letta 支持多种 LLM 后端，完全模型无关（Model-Agnostic），并提供 Agent File（.af）格式用于序列化有状态 Agent。

4.三者对比¶

维度	Mem0	LangMem	Letta
定位	通用 AI 记忆层	LangChain 生态记忆 SDK	有状态 Agent 平台
核心特色	智能过滤 + 动态遗忘	程序记忆（Prompt 优化）	OS 式记忆层级管理
记忆类型	工作/事实/情景/语义	语义/情景/程序	消息缓冲/核心/回溯/存档
生态集成	独立，多框架兼容	深度集成 LangGraph	自有平台 + API
适用场景	多用户个性化记忆	Agent 行为自适应优化	长期有状态 Agent
部署方式	SDK + 云服务	SDK（自带或托管）	本地 CLI + 云服务

5.Reference¶

Mem0

LangMem

Letta

Memory

Tue, 14 Apr 2026 22:28:00 +0000

Memory¶

约 2308 个字 2 张图片预计阅读时间 7 分钟

1.为什么需要记忆¶

有了记忆，Agent才能：

记住用户喜欢喝美式咖啡而不是拿铁
在多轮任务中保持目标一致性
从失败中总结经验，实现自我进化

2.什么是记忆¶

LLM Memory（大语言模型记忆）：指的是LLM自身内部或其架构中实现的记忆机制，主要解决上下文长度限制和长期依赖建模问题。

RAG：指的是通过外部数据库检索相关信息，并将其注入到LLM上下文中，从而增强生成质量的方法。

Agent Memory（智能体记忆）：指的是Agent作为一个独立的“个体”所拥有的、可管理、可演化、可跨任务复用的外部记忆系统。

Context Engineering：是所有记忆与信息处理方式的统一入口和核心协调模块。它决定了哪些信息被选中、何时使用、如何组织成上下文输入给LLM。上下文工程是桥梁——所有记忆技术最终都要通过它整合进LLM的推理流程。

3.记忆分类¶

3.1 短期记忆/工作记忆¶

短期记忆（Short-term Memory, STM）是智能体维护当前对话和任务的即时上下文系统，主要包括：

会话缓冲（Context）记忆：保留最近对话历史的滚动窗口，确保回答上下文相关性；
工作记忆：存储当前任务的临时信息，如中间结果、变量值等。

短期记忆实际上并不是真正让模型记住对话，而是将完整的对话历史作为 prompt 的一部分，和当前问题一起输入进大模型中，来让大模型获取到之前的对话。如果对话历史的 token < LLM 的 Content Window，那么就可以有效模拟记忆。

3.2 长期记忆¶

长期记忆（Long-term Memory, LTM）是智能体用于跨会话、跨任务长期保存知识的记忆形式。它对应于人类的大脑中持久保存的记忆，例如事实知识、过去经历等。长期记忆的实现通常依赖于外部存储或知识库，包括但不限于：

摘要记忆：将长对话内容提炼为关键摘要存储；
结构化知识库：使用数据库或知识图谱存储结构化信息；
向量化存储：通过向量数据库实现基于语义的记忆检索。

长期记忆使智能体能够随着时间累积经验和知识，它特别适用于知识密集型应用和需要长期个性化的场景。

4.记忆来源¶

试验内信息：在同一个任务里多次尝试的经验。
跨试验信息：即跨任务/跨尝试的历史经验。
外部知识：来自工具、API、知识库等。

前两类是在智能体——环境交互过程中动态生成的，而后者是交互循环之外的静态信息。

5.形式¶

目前主要有三种形式：词元级文本形式、参数形式以及潜在形式。

词元级文本形式中：把记忆存成自然语言或结构化文本，放在向量库、日志、图谱里，需要用时再检索召回。是目前比较主流的记忆实现方式。（如RAG、对话日志等）
参数形式：记忆信息被编码进模型的参数权重中，从而隐式地影响智能体的行为。
潜在形式：记忆信息被存在于某些内部的非参数化表征空间中，通过动态生成、复用或变换内部激活状态来实现高效推理。

5.1 词元级文本形式¶

词元级文本形式可以采用非结构化表示（如自然语言，1D），也可采用结构化形式（如图结构2D，树结构2D，多层级结构3D），通常具有更好的可解释性、更简单的实现方式以及更快的读写效率。

根据存储策略又分四类：

完整交互记录：基于长上下文策略，将所有智能体——环境交互历史完整存储。
近期交互记录：基于局部性原理。
检索式交互记忆：基于相关性、重要性或主题选择记忆内容，确保远期但关键的记忆能参与决策，从而克服仅依赖近期信息的局限。
外部知识：为获取更多信息，部分智能体通过调用工具将外部知识转化为自身记忆。常见做法是通过API调用、MCP工具访问公开资源。

5.2 参数形式¶

另一种方式是将记忆表示为参数形式，存储在模型权重里。它不占用上下文长度，因此不受LLM上下文长度限制。主要分为微调方法和记忆编辑方法。

微调方法：通过监督微调将领域知识注入LLM参数，使其具备专家级记忆。
记忆编辑方法：直接针对特定事实进行精准修改，不影响其他知识，更适合小规模、在线更新。

5.3 潜在形式¶

潜在形式隐式地存储于模型内部表征空间（例如KV缓存、激活值、隐藏状态、潜在嵌入向量）中，在推理时随着输入逐步生成，是当前上下文的动态编码结果。

5.4 总结¶

对于需频繁回忆近期上下文的任务（如对话、个人助手），文本记忆更有效。
对于需要固化隐式、抽象且可泛化的领域知识的场景（如领域角色扮演、数学解题等），参数记忆更合适。
对于需要在单次交互中动态跟踪状态、实时整合多模态或复杂上下文的任务（如长视频理解、具身导航、多模态记忆），潜在记忆更具优势。

6.操作¶

记忆是一个动态系统。Agent和环境交互时，涉及三个关键操作阶段：记忆形成、记忆管理和记忆检索。

6.1 记忆形成¶

记忆形成就是把原始上下文（比如对话或图像）压缩成紧凑知识的过程。基于信息压缩的粒度和编码逻辑，可分为：语义摘要、知识蒸馏、结构化构建、潜在表征、参数内化。

6.2 记忆管理¶

一旦形成了新的记忆，下一步就是将其与现有记忆库整合，确保长期知识的紧凑性、一致性和相关性。

记忆管理机制就是来整合新旧记忆，从而实现生成更高层次的记忆，遗忘不重要或者过时的信息，并解决逻辑冲突。

6.3 记忆检索¶

记忆检索就是在恰当的时机，从特定记忆库中提取相关且简洁的知识片段，以支持当前推理任务的过程。

该过程可分为四个阶段：

检索时机与意图：这是整个检索流程的起点，“何时”以及“为何”触发记忆检索。
查询构建：用户输入往往模糊、不完整或语义复杂，难以直接用于高效检索。因此，必须对原始查询进行语义增强与重构，以生成高质量的检索信号。
检索策略：此阶段执行实际搜索操作，根据记忆存储形式与任务需求，采用不同的检索范式。
检索后处理：检索返回的结果往往是冗余、不一致或不相关的原始片段。为此，需进行后处理以优化最终输入。如重排序和过滤、聚合与压缩。

7.评估¶

那么如何评估记忆模块的效果呢？一是直接评估：独立衡量记忆模块本身的能力。二是间接评估：通过端到端的智能体任务表现来评估记忆模块。

7.1 直接评估¶

此类方法将智能体的记忆视为一个独立组件，并对其有效性进行单独评估。现有研究可分为两类：主观评估与客观评估。

主观评估：依赖人工判断，在缺乏客观标准答案的场景中尤为常用。

主观评估

主观评估涉及两个关键问题：（1）评估哪些维度（2）如何执行评估过程。

评估维度可以是连贯性、合理性。

客观评估：基于数值指标，便于不同记忆模块之间的量化比较。主流指标有：结果正确性、引用准确性、时间与硬件开销。

7.2 间接评估¶

通过任务完成效果间接评估记忆模块。核心逻辑就是：如果任务高度依赖记忆，而Agent又做成了——那记忆模块大概率是OK的。

常见的任务有对话任务、多源问答任务、长上下文应用场景任务。

8.Reference¶

AI Agent 入门指南（四）：Memory 记忆机制综述

Agent 的三大模块（一）——记忆 Memory

万字解析 Agent Memory 实现

Agentic AI基础设施实践经验系列（三）：Agent记忆模块的最佳实践

Skills

Tue, 14 Apr 2026 22:28:00 +0000

Skills¶

约 1275 个字预计阅读时间 4 分钟

1.什么是Skills¶

1.1 定义¶

Skills是模块化的能力包，包含指令、脚本和资源，让Claude在需要时自动加载和使用。

模块化：Skills是一个个独立的文件夹，每个Skill做一件事。

能力包：每个Skill文件夹里包含：

SKILL.md（核心指令文件，必需）
scripts/（可执行脚本，可选）
references/（参考文档，可选）
assets/（模块和资源，可选）

自动加载：你不需要手动告诉Claude现在用XX Skill。Claude会根据你的任务描述，自动判断需要哪个Skill，然后加载。

1.2 核心价值：把重复的指令打包，按需加载¶

渐进式披露：分阶段、按需加载。

一个Skill包含很多内容：核心指令、参考文档、执行脚本、模块资源。但Claude不会一次性把所有内容都加载进上下文。采用三层加载机制：

第一层：元数据——总是加载

SKILL.md开头的YAML部分，就两个字段：name和description

第二层：指令——触发时加载

SKILL.md的主体部分，详细的操作指南

第三层：*资源——引用时加载

scripts/目录里的脚本、references/目录里的参考文档、assets/目录里的模板

优势：

节省tokens开销
Skills可以包含可执行脚本，脚本在本地执行，返回结果给Claude，可以封装确定性的执行能力

2.Skills vs MCP¶

MCP(Model Context Protocol)：一个连接协议，让Claude能够访问外部系统：数据库、API、文件系统、各种SaaS服务。当需要连接外部系统时使用。它的核心目标是为AI模型与外部数据源及工具之间建立一个标准化、安全、高效的通信桥梁。类比于USB。

Skills是使用手册。当有重复性的工作流程时使用。

两者互补，在一个复杂的场景下需要同时使用。

MCP让Claude能碰到外部系统，Skills告诉Claude碰到之后怎么用。MCP 负责“连通外部世界”， Skills 负责“干具体的事”。

Skills比MCP更简洁（只需markdown+YAML元数据和一些脚本），tokens消耗更少，跨平台兼容，且门槛低生态好。

Skills的设计符合LLM的本质：用文本描述能力，让模型理解并执行。可以用Skills封装专业知识和工作流程。

MCP则像是传统软件工程的思路：定义接口、实现服务、处理通信。

3.Skill开发¶

3.1 适合Skills的情况¶

有固定工作流
团队协作
token消耗大的

3.2 创建Skill¶

Skill封装了你的工作流程、你的经验沉淀、你的SOP，将这些东西写成SKILL.md，让AI来做即可。

想清楚你要解决什么问题
把你的工作流说清楚
提供足够的context和参考资料

SKILL.md的关键字段：

YAML Frontmatter:文件必须以YAML Frontmatter开头，包含两个必需字段：

name:
最多64个字符
只能用小写字母、数字、连字符
不能以连字符开头或结尾
不能有连续的连字符
description：
最多1024个字符
要包含做什么和什么时候用
触发关键词很重要

Markdown主体:(可选但建议有)包含：

核心目标
执行步骤
示例输入/输出
注意事项

一个更完整的Skill结构：

my-skill/
├── SKILL.md                 # 核心指令
├── scripts/
│   └── process.py           # 可执行脚本
├── references/
│   └── DETAILED_GUIDE.md    # 详细参考文档
└── assets/
    └── template.md          # 模板资源

Skills拆解：Skills要精准简洁，按需加载省token，触发更精准，且Skills可组合。

Skills也可分优先级。

3.3 Skills设计的五个最佳实践¶

description决定一切：做什么（核心功能）+什么时候用（触发场景）+触发关键词
单一职责：每个Skill只做一件事
渐进式披露：核心内容放SKILL.md，详细内容放references/
脚本优于生成代码
从简单开始，逐步迭代：从最小可行版本开始：写一个简单的SKILL.md，用几次，发现问题，添加遗漏的规则，添加常见错误的处理，逐步完善

3.4 Skills分类体系：Skills库的构建¶

按来源分

Skills来源
├── 官方Skills（Anthropic提供）
│   ├── 文档处理：docx, pdf, pptx, xlsx
│   ├── 医疗健康：FHIR开发, 临床试验协议
│   └── 生命科学：scVI-tools, Nextflow
├── 合作伙伴Skills
│   └── Notion, Atlassian, Figma, Canva, Stripe, Zapier...
└── 自定义Skills
    ├── 社区开源
    └── 个人/团队创建

按功能分：

Skills功能分类
├── 文档与创意
│   ├── 文档生成（PDF/Word/PPT/Excel）
│   ├── 视觉设计（插画、动图）
│   └── 内容创作（品牌指南、风格指南）
├── 开发与工程
│   ├── 前端开发
│   ├── 后端架构
│   ├── 测试质量
│   ├── DevOps
│   └── 代码审查
├── 工作流与自动化
│   ├── 协作流程
│   ├── 知识管理
│   └── 项目管理
└── 垂直领域
    ├── 财务分析
    ├── 法律合规
    ├── 医疗健康
    └── 安全审计

按作用域分：

Skills作用域
├── 个人级（~/.claude/skills/）
│   └── 个人偏好、通用能力
├── 项目级（.claude/skills/）
│   └── 项目规范、团队约定
└── 组织级（API统一管理）
    └── 企业标准、合规要求

4.Reference¶

Overview

Tue, 14 Apr 2026 22:28:00 +0000

上下文工程¶

约 1153 个字 2 张图片预计阅读时间 4 分钟

1.如何定义Context¶

很多人会认为上下文就是用户的历史聊天记录，显然这是不对的。上下文的内容涵盖了这一部分，从本质上说，上下文是提供给LLM的、用于完成下一步推理或生成任务的全部信息集合。即上图所示。

我们可以将上下文分成三类：

引导型上下文：这类上下文主要是明确指示模型的行为规范和操作指南，为模型执行任务提供方向性指引。
知识型上下文：这类上下文的核心价值在于向模型传递必要的认知基础，为解决问题提供事实依据和信息支撑。
操作型上下文：这类上下文的本质功能是赋予模型外部交互能力并反馈执行结果，使模型具备现实世界行动力。

如下图所示：

2.理解上下文工程¶

上下文工程是一门系统性学科，专注于设计、构建并维护一个动态系统，该系统负责在Agent执行任务的每一步，为其智能地组装出最优的上下文组合，以确保任务能够被可靠、高效地完成。

若把LLMs（或者更广泛的Agentic System）类比为新一代OS，那么LLM处于CPU的位置，上下文窗口则是RAM。

提示词工程本质是上下文工程的子模块，专注于精炼指导性上下文的构建；而RAG技术则承担动态生成信息性上下文的基础设施角色。

3.为什么需要上下文工程¶

降低AI失败率：大多数Agent失败不是模型问题，而是上下文不全。
保证一致性：AI能遵循你的项目模式和规范。
支持复杂特性：有了完整上下文，AI能处理多步实现。
自我修正：验证循环让AI能自动修正错误。

4.长上下文的Context-Rot问题¶

随着上下文长度的增加，模型的注意力机制可能会出现“腐蚀”现象，导致对关键信息的关注度下降。

问题表现：

产生幻觉后，会被持续带偏。
模糊性导致信息冲突，模型的行为会变得不可预测。
关键信息被稀释，随着上下文的增长，模型的注意力会被分散。
大量重复文本导致的 "行动瘫痪"。

影响因素：

上下文长度超过训练时的常见长度。
模型能力的限制。 LLM 现在就像在一间封闭的屋子中，我们通过发短信和它交流，未来它需要更完善的五感。
信息密度不均匀分布。
自然语言的模糊性。

长上下文带来成本与协同压力，更易暴露四类上下文失效: 污染、干扰、混淆、冲突。它们常彼此耦合，并直接损害推理稳定性与跨代理传递。

上下文污染(Context Poisoning)，主要是幻觉进入 Context 导致异常结果。
上下文干扰(Context Distraction)，当 Context 接近溢出时，模型训练中获得的知识会被“覆盖"导致模型降智。
上下文混淆(Context Confusion)，冗余且不相关的 Context 让输出结果偏离期望。
上下文冲突(Context Clash)，当上下文中的信息互相矛盾时，比如上下文存在过去错误的答案。

5.未来展望：从上下文工程到环境工程¶

LLM 现在就像在一间封闭的屋子中，我们通过发短信和它交流，未来它需要更完善的五感。

上下文工程仍是中间态，环境工程是终极目标。

为什么环境工程是终极目标？

环境不仅包含上下文，还包括动态变化的世界状态、规则、交互历史、反馈机制等。
AI Agent 不再只是 "被动" 接受上下文，而是 "主动" 感知、探索、影响环境。
环境工程强调 AI 与环境的双向作用，支持持续学习、自适应、协作等更复杂的智能行为。
在环境工程中，AI 的输入输出不再局限于文本或结构化数据，而是包括真实世界的感知、动作和长期影响。

6.Reference¶

上下文工程Context Engineering，看这一篇就够了！

【LLM研究综述】《大语言模型上下文工程综述（全文）》

浅谈上下文工程｜从 Claude Code 、Manus 和 Kiro 看提示工程到上下文工程的转变

Deep Research Product

Tue, 14 Apr 2026 22:28:00 +0000

Deep Research 产品¶

约 16 个字预计阅读时间不到 1 分钟

1.OpenAI Deep Research¶

2.Gemini Deep Research¶

3.Tongyi Deep Research¶

4.Perplexity Deep Research¶

Overview

Tue, 14 Apr 2026 22:28:00 +0000

提示词工程¶

约 87 个字预计阅读时间不到 1 分钟

掌握了提示工程相关技能将有助于用户更好地了解大型语言模型的能力和局限性。提示工程不仅仅是关于设计和研发提示词。它包含了与大语言模型交互和研发的各种技能和技术。

提示工程指南

Overview

Tue, 14 Apr 2026 22:28:00 +0000

AI WorkFlow¶

约 696 个字预计阅读时间 2 分钟

你的专属AI工作流和工作方法

1.AI工具分类推荐¶

1.代码开发类

Claude Code - 你当前使用的工具，适合代码开发、调试、重构
GitHub Copilot - 代码自动补全，适合日常编码
Cursor - AI原生代码编辑器

2.写作与文档类

Claude/ChatGPT - 长文本写作、逻辑推理
Notion AI - 笔记与文档辅助
Jasper - 营销文案创作

3.设计与创意类

Midjourney - 图像生成
DALL-E 3 - OpenAI图像生成
Figma AI - 设计辅助
Runway - 视频编辑

4.数据与分析类

ChatGPT Code Interpreter - 数据分析
Julius AI - 数据可视化
PandasAI - Python数据分析助手

2.推荐的AI工作流¶

1.「渐进式提示」工作流

初始想法 → 细化需求 → 迭代优化 → 最终输出

从模糊想法开始
让AI帮助细化需求
多轮对话迭代

2.「AI先行，人工校验」工作流

AI生成初稿 → 人工审查 → AI修改 → 最终确认

让AI完成80%的基础工作
人工专注20%的关键决策
适用于文档、代码、邮件等

3.「分治协作」工作流

任务分解 → 多个AI并行处理 → 人工整合 → 质量检查

复杂任务拆解为子任务
用不同AI工具处理各自擅长部分
人工统筹整合结果

3.AI工作方法¶

1.提示工程核心原则

具体化：明确输入、输出、约束条件
上下文先行：先给背景，再提要求
迭代优化：不要指望一次完美输出

2.编写有效提示的框架

角色设定 + 任务描述 + 输入数据 + 输出格式 + 约束条件 + 示例

示例：

你是一位资深Python工程师（角色）

请优化以下函数的性能（任务）

输入代码：[代码]（输入数据）

要求输出：优化后的代码 + 时间复杂度分析（输出格式）

不要改变函数接口（约束条件）

3.避免 AI 常见陷阱

❌ 过度依赖AI，失去独立思考能力
❌ 不验证AI输出的准确性
❌ 提示过于笼统
❌ 忽略AI的安全和隐私限制
✅ AI作为副驾驶，人类保持主导
✅ 批判性思维审查AI输出
✅ 保护敏感数据

4.实用工作流模板¶

学习新技术

让AI生成学习大纲
让AI解释核心概念
让AI提供实践练习
用AI解答疑问
让AI测试你的理解

编写技术文档

让AI生成文档结构
逐章填充内容（AI辅助）
让AI检查一致性和完整性
让AI优化表达清晰度

解决编程问题

向AI清晰描述问题
让AI提供多种解决方案
讨论各方案优劣
选择方案并让AI生成代码
让AI进行代码审查

AI Product Demand

Tue, 14 Apr 2026 22:28:00 +0000

约 6278 个字预计阅读时间 20 分钟

在进行AI产品分析时，需要从多个维度进行系统性思考，包括：市场需求分析、用户需求分析、数据可行性分析、技术可行性分析、AI模型评估、伦理合规分析、竞品分析、商业模型分析、成本结构分析以及竞争护城河分析。AI产品与传统软件产品的核心区别在于其"数据驱动"和"概率性输出"的特性，因此需求分析需要特别关注数据质量、模型表现、伦理风险等AI特有维度。

1.市场需求分析¶

市场需求分析是AI产品需求分析的第一步，它帮助企业了解当前市场的需求和发展趋势。市场需求分析包括以下几个方面：

市场规模和增长趋势：了解市场的规模和增长趋势是进行市场需求分析的基础。通过市场调研和数据分析，可以确定目标市场的规模和未来的增长潜力。例如，AI在医疗、金融、零售等领域的应用前景广阔，通过分析这些领域的市场规模，可以评估AI产品的市场潜力。
市场细分：市场细分是将市场划分为不同的细分市场，以便更好地满足不同客户群体的需求。通过市场细分，可以确定目标客户群体，了解他们的需求和偏好。例如，AI产品可以针对不同的行业、企业规模、地理位置等进行市场细分，从而制定更加精准的营销策略。

2.用户需求分析¶

用户需求分析是AI产品需求分析的核心，通过了解用户的需求和痛点，可以设计出更符合用户需求的产品。用户需求分析包括以下几个方面：

用户画像：是对目标用户进行详细描述，包括用户的基本信息、行为习惯、需求和痛点等。通过用户画像，可以了解目标用户的特点和需求，从而设计出更加符合用户需求的AI产品。
用户调研：是通过问卷调查、访谈等方式，了解用户的需求和反馈。用户调研可以帮助企业了解用户对AI产品的期望和使用体验，从而改进产品设计和功能。例如，通过用户调研可以了解用户对AI产品的功能需求、使用场景、性能要求等，从而优化产品设计。

3.数据可行性分析¶

数据是AI产品的核心燃料，数据可行性分析是评估AI产品能否成功的关键环节。与传统软件产品不同，AI产品的性能直接依赖于数据的质量和数量。数据可行性分析包括以下几个方面：

1.数据可用性评估是确定目标场景下是否存在足够的数据来训练和优化AI模型。包括：

数据存量：现有数据规模是否满足模型训练的基本要求（通常需要数千至数百万条数据）
数据质量：数据的完整性、准确性、一致性是否达标
数据多样性：数据是否覆盖了目标场景的各种情况，避免样本偏差
数据时效性：数据是否足够新鲜，能否反映当前的业务环境

例如，开发医疗影像AI产品时，需要评估是否拥有足够数量和质量的标注医学影像数据，且数据需要覆盖不同年龄、性别、设备类型的患者。

2.数据获取成本评估是衡量数据收集、标注和维护的经济可行性。包括：

数据采购成本：购买第三方数据集的费用
数据标注成本：人工标注的单价和总量，是否需要专业领域专家
数据清洗成本：去重、去噪、格式转换的投入
数据存储成本：海量数据的存储基础设施费用

对于创业公司而言，如果数据标注成本过高（如需要医学专家标注），可能需要考虑其他技术路径或降低需求。

3.数据隐私与合规是AI产品必须面对的法律和伦理要求。包括：

个人信息保护：是否满足GDPR、个人信息保护法等法规要求
数据授权：数据使用是否获得用户授权，授权范围是否清晰
数据跨境：涉及跨境传输时的合规处理
敏感数据处理：医疗、金融等敏感数据的安全措施

4.数据持续更新机制：AI模型需要持续的数据反馈和迭代，因此需要设计数据持续更新机制：

数据回流设计：如何将用户使用过程中的反馈转化为新的训练数据
标注流程优化：如何降低后续标注的成本和时间
数据版本管理：如何管理不同版本的数据集
数据质量监控：如何持续监控新数据的质量

4.技术可行性分析¶

技术可行性分析是评估AI产品技术实现的可行性和难度。技术可行性分析包括以下几个方面：

技术架构设计是AI产品开发的基础，通过设计合理的技术架构，可以确保产品的稳定性和扩展性。技术架构设计包括选择合适的编程语言、数据库、服务器等技术组件，以及设计合理的系统架构和数据流。
技术实现难度是评估AI产品技术实现的难度和成本。通过分析技术实现难度，可以确定产品开发的可行性和时间成本。例如，某些AI算法和模型的实现难度较大，需要投入大量的研发资源和时间，因此需要评估其可行性和成本。

5.AI模型评估维度¶

AI产品的核心是模型，但与传统软件不同，AI模型的行为具有概率性和不确定性。因此需要建立专门的模型评估维度，确保AI产品满足业务需求且风险可控。AI模型评估维度包括以下几个方面：

1.准确性指标与阈值：准确性是AI模型的基本要求，但不同场景下对准确性的要求差异很大：

精确率（Precision）：预测为正的样本中真正为正的比例，适用于误报成本高的场景（如垃圾邮件过滤）
召回率（Recall）：真正为正的样本中被预测为正的比例，适用于漏报成本高的场景（如疾病筛查）
F1分数：精确率和召回率的调和平均，综合评估指标
准确率（Accuracy）：所有预测正确的样本占总样本的比例
AUC-ROC：衡量二分类模型整体性能的指标

例如，医疗诊断类AI产品对召回率要求极高（宁可误报不能漏诊），而推荐系统更关注精确率（推荐内容必须准确）。

2.模型可靠性是AI产品能否规模化应用的关键：

鲁棒性：模型对输入噪声、异常值的容忍能力
一致性：相同输入多次调用是否得到稳定输出
边界情况处理：极端或异常输入下的表现
长尾分布表现：对罕见样本的处理能力

例如，自动驾驶AI必须能够在各种极端天气和路况下保持稳定表现。

3.推理延迟与成本：AI产品的用户体验和商业可行性直接受推理性能影响：

响应时间：用户发起请求到获得结果的时间（实时应用通常要求<200ms）
并发能力：系统支持的并发请求数量
计算资源消耗：推理所需CPU/GPU资源
API调用成本：使用第三方模型服务的费用

例如，实时语音翻译产品对延迟要求极高，而后台数据分析任务可以容忍较长的处理时间。

4.模型可解释性决定了用户对AI的信任程度和产品的可接受度：

决策透明度：能否解释模型为何做出特定判断
特征重要性：哪些因素对决策影响最大
置信度展示：能否向用户展示AI的判断信心
错误归因：能否追溯错误产生的原因

金融风控、医疗诊断等高风险领域对可解释性有严格要求，而推荐系统等娱乐类应用要求相对较低。

6.AI伦理与合规性分析¶

AI伦理与合规是AI产品必须面对的社会责任和法律要求。AI技术的快速迭代带来了独特的伦理挑战，需要在产品设计阶段就予以充分考虑。AI伦理与合规性分析包括以下几个方面：

1.算法偏见检测与缓解：算法偏见是指AI模型对特定群体产生系统性歧视的风险：

数据偏差：训练数据中样本分布不均衡导致模型偏好某些群体
标签偏差：标注过程中的人为主观偏见传递到模型
算法偏差：模型架构或优化目标本身导致的偏好
偏见检测方法：使用公平性指标（如统计均等、机会均等）进行检测
偏见缓解策略：重采样、重新加权、对抗学习等技术手段

例如，招聘AI如果训练数据历史中存在性别歧视，模型可能会继承并放大这种偏见，导致不公平的招聘决策。

2.数据隐私是AI产品合规的核心要求：

匿名化处理：去除或模糊化个人标识信息
差分隐私：在数据中加入随机噪声，保护个体隐私
联邦学习：在不共享原始数据的情况下训练模型
最小化原则：只收集和使用必要的数据

3.内容安全与审核：生成式AI产品需要特别注意内容安全：

有害内容过滤：自动识别和过滤暴力、色情、仇恨言论等内容
虚假信息防控：防止AI生成或传播虚假、误导性信息
版权保护：确保生成内容不侵犯他人知识产权
人工审核机制：建立人机结合的内容审核流程

4.透明度与可追溯性：AI决策过程需要具备可审计性：

算法披露：向用户和监管机构说明产品使用的技术
决策记录：保存关键决策的完整日志
影响评估：定期评估AI产品对社会和环境的影响
申诉机制：为用户提供对AI决策提出异议的渠道

7.竞争对手分析¶

竞争对手分析是了解市场上的竞争对手及其产品情况，帮助企业制定竞争策略。竞争对手分析包括以下几个方面：

竞争对手产品分析是了解竞争对手的产品特点、功能、价格等信息。通过竞争对手产品分析，可以了解市场上现有产品的优缺点，从而制定出更加差异化和竞争力的产品。例如，通过分析竞争对手的AI产品，可以了解其技术特点、用户体验、市场定位等，从而优化自己的产品设计和功能。
竞争对手市场策略分析是了解竞争对手的市场推广和销售策略。通过竞争对手市场策略分析，可以了解竞争对手的市场定位、定价策略、渠道策略等，从而制定出更加有效的市场推广和销售策略。例如，通过分析竞争对手的市场推广策略，可以了解其广告投放、品牌建设、渠道合作等，从而优化自己的市场推广策略。

8.信任与用户体验设计¶

AI产品的用户与传统软件产品不同，他们需要理解、接受并信任一个可能"犯错"的智能系统。因此，信任与用户体验设计是AI产品成功的关键要素。信任与用户体验设计包括以下几个方面：

1.信任建立机制：信任是用户使用AI产品的前提，需要通过多种方式建立：

不确定性表达：坦诚地展示AI的判断置信度，让用户了解结果的可信程度
透明度设计：向用户解释AI的工作原理和决策依据
渐进式信任建立：从低风险场景开始，逐步建立用户信任
一致性行为：确保AI的输出符合用户预期和常识

例如，医疗诊断AI会同时输出诊断结果和置信度，高置信度时直接给出结论，低置信度时建议人工复核。

2.人工干预设计：AI不是万能的，合理设计人工干预机制可以提升整体体验：

人机协作模式：确定哪些场景由AI主导，哪些需要人工介入
人工接管触发条件：当置信度低于阈值、检测到异常输入时自动触发
用户反馈通道：允许用户纠正AI的错误，形成数据回流
专家辅助功能：为专业用户提供AI建议的调整和定制能力

例如，客服AI可以处理80%的常规问题，复杂问题自动转接人工客服，同时AI为人工客服提供上下文和建议。

3.错误处理与降级策略：AI不可避免会犯错，需要设计优雅的降级方案：

错误检测机制：识别AI可能出错的情况
降级方案：AI失效时的替代方案（如切换到规则引擎）
错误恢复：帮助用户从错误状态恢复
容错设计：设计对错误有一定容忍度的用户流程

4.用户教育与预期管理：帮助用户正确理解AI的能力边界：

能力说明：清晰说明AI能做什么、不能做什么
使用指南：指导用户如何获得最佳体验
预期设定：避免过度承诺，管理用户期望
案例展示：通过成功案例建立信心

9.AI产品成本结构分析¶

AI产品的成本结构与传统软件产品有显著差异，准确评估成本是商业模式设计的基础。AI产品成本结构分析包括以下几个方面：

1.训练成本：模型训练是AI产品最大的前期投入：

算力成本：GPU/TPU训练时间和云服务费用
数据标注成本：人工标注或半自动标注的费用
研发人力成本：算法工程师、数据科学家的投入
实验成本：多次模型迭代和超参数调优的资源消耗

例如，训练一个大语言模型可能需要数百张GPU连续运行数周，成本可能高达数百万美元。

2.推理成本是AI产品的持续运营成本，直接影响盈利能力：

API调用费用：使用OpenAI等第三方模型服务的Token费用
自建推理成本：自托管模型的GPU/服务器资源费用
并发成本：随着用户增长，推理成本线性或指数增长
模型大小与性能权衡：模型越大成本越高，需要寻找平衡点

例如，一个每天处理100万次请求的对话产品，使用GPT-4 API的月费用可能达到数十万美元。

3.持续运维成本：AI模型需要持续维护和优化：

模型监控成本：性能衰减检测、异常监控的系统投入
数据维护成本：数据清洗、标注、存储的持续投入
再训练成本：定期用新数据重新训练模型的资源消耗
技术支持成本：用户问题解答和故障处理的投入

4.成本优化策略：为提高产品经济性，需要设计成本优化策略：

模型压缩：使用蒸馏、量化等技术减小模型体积
推理优化：缓存常见结果、批处理请求以降低成本
混合模型策略：简单任务用小模型，复杂任务用大模型
成本配额管理：为不同用户设置使用限额

10.竞争护城河分析¶

AI技术的快速进步意味着技术壁垒可能很快被突破，因此需要深入分析AI产品的竞争护城河。竞争护城河分析包括以下几个方面：

1.数据壁垒：数据是AI产品最核心的护城河：

独有数据：拥有竞争对手无法获取的专属数据源
数据网络效应：用户越多 → 数据越多 → 模型越强 → 吸引更多用户
数据飞轮：产品使用产生新数据，新数据提升模型，更好模型吸引更多使用
数据质量壁垒：长期积累的高质量标注数据难以被快速复制

例如，特斯拉拥有数百万辆汽车收集的真实驾驶数据，这是传统车企难以在短期内获得的。

2.模型壁垒：模型能力是产品差异化的基础：

自研模型：拥有独家算法或模型架构
领域专用模型：在特定垂直领域深度优化的模型
模型组合能力：多个模型协同工作的系统能力
模型部署能力：将复杂模型高效部署到生产环境的能力

需要注意，随着通用大模型能力的提升，纯模型壁垒的可持续性在减弱。

3.场景壁垒：对特定场景的深度理解是差异化竞争的关键：

行业知识积累：对特定行业业务流程和痛点的深入理解
客户关系：与行业头部客户的深度绑定
场景适配能力：将AI技术与具体场景需求深度结合的能力
服务能力：提供咨询、实施、培训等配套服务的能力

例如，医疗AI产品不仅需要好的模型，还需要与医院流程深度整合，这需要长期的行业积累。

4.网络效应与生态壁垒：生态系统的网络效应是最强的护城河：

平台网络效应：开发者与用户的互相吸引
数据网络效应：用户越多，数据越多，产品越好
协同网络效应：多个产品之间的互相增强
转换成本：用户切换到竞争产品的成本

例如，ChatGPT不仅是一个AI助手，还形成了插件生态、API生态，用户离开的转换成本很高。

5.品牌与信任壁垒：在AI领域，品牌和信任尤为重要：

品牌认知度：用户对品牌的熟悉和认可
合规资质：相关行业认证和资质
安全记录：长期稳定运行的安全保障
客户口碑：现有客户的推荐和背书

11.商业模式分析¶

商业模式分析是评估AI产品的盈利模式和商业价值。商业模式分析包括以下几个方面：

1.盈利模式是AI产品的收入来源和盈利方式。通过分析盈利模式，可以确定产品的商业价值和市场潜力。AI产品常见的盈利模式包括：

SaaS订阅：按月/年收取固定费用，如Midjourney、Notion AI
按量计费：根据API调用次数或Token数量计费，如OpenAI API
增值服务：基础功能免费，高级功能收费，如部分文档AI
企业定制：为大型企业提供定制化解决方案
混合模式：结合多种方式，如基础订阅+超量计费

2.商业价值是AI产品为客户和企业带来的价值。AI产品的主要价值来源包括：

效率提升：自动化重复性工作，节省人力成本
质量提升：AI辅助决策，提高工作质量和准确性
新能力解锁：实现之前不可能完成的功能（如自动生成内容）
体验改善：个性化推荐、智能搜索等提升用户体验
成本降低：通过优化流程降低运营成本

12.需求评估与优先级划分¶

在完成上述分析后，需要对需求进行评估和优先级划分，以确定哪些需求是最重要和最紧急的。需求评估与优先级划分包括以下几个方面：

需求重要性评估是评估各个需求的重要性和优先级。通过需求重要性评估，可以确定哪些需求是最重要和最紧急的，从而优先满足这些需求。例如，通过评估用户需求、市场需求和技术可行性，可以确定哪些需求是最重要和最紧急的，从而优先满足这些需求。
需求优先级划分是将需求按重要性和紧急程度进行划分，以便更好地管理和满足需求。通过需求优先级划分，可以确定哪些需求是最重要和最紧急的，从而优先满足这些需求。例如，通过需求优先级划分，可以将需求分为高优先级、中优先级和低优先级，从而更好地管理和满足需求。

13.需求实施与管理¶

需求实施与管理是确保需求得到有效管理和满足的关键环节，涵盖了从需求文档编写、变更管理到沟通协作的全流程。需求实施与管理包括以下几个方面：

需求文档编写是将需求进行详细描述和记录的过程，包括需求的背景、目标、功能、性能等。通过需求描述，可以确保需求得到详细和准确的描述，从而更好地满足需求。例如，通过需求描述，可以详细描述AI产品的功能需求、性能要求、使用场景等。需求审核是对需求文档进行审核和确认的过程，通过审核确保需求文档的准确性和完整性。
需求管理工具是管理和跟踪需求的工具和方法。通过使用需求管理工具，可以更好地管理和跟踪需求，确保需求得到有效满足。例如，研发项目管理系统PingCode和通用项目协作软件Worktile是常用的需求管理工具，可以帮助企业更好地管理和跟踪需求。
需求监控和反馈是监控需求的进展和满足情况，并及时反馈和调整。通过需求监控和反馈，可以及时发现和解决问题，确保需求得到有效满足。例如，通过需求监控和反馈，可以及时发现需求的变化和问题，并及时调整和优化需求管理策略。
需求变更管理是应对需求变化和调整的关键。需求变更流程是对需求变更进行管理和控制的流程，可以对需求变更进行评估、审批、实施和监控。需求变更记录是对需求变更进行记录和跟踪的过程，详细记录需求变更的原因、内容、影响和结果。
需求沟通与协作是确保需求得到有效沟通和协作的关键。通过使用通用项目协作软件Worktile等工具，可以建立有效的需求沟通渠道，确保需求得到有效沟通和协作。建立需求协作机制可以确保需求得到有效沟通和协作。
需求评估是对需求的实现效果和满足情况进行评估和分析。通过需求评估，可以了解需求的实现效果和满足情况，从而优化需求管理策略。需求优化是对需求进行改进和优化的过程，可以提高需求的满足效果和质量。
需求总结是对需求的实现效果和满足情况进行总结和分析，了解需求的实现效果和满足情况。需求报告是向管理层、团队成员、客户等汇报需求的实现效果和满足情况的过程。

Coze

Tue, 14 Apr 2026 22:28:00 +0000

Coze¶

约 1 个字预计阅读时间不到 1 分钟

Dify

Tue, 14 Apr 2026 22:28:00 +0000

Dify¶

约 1 个字预计阅读时间不到 1 分钟

Manus

Tue, 14 Apr 2026 22:28:00 +0000

Manus¶

约 1 个字预计阅读时间不到 1 分钟

n8n

Tue, 14 Apr 2026 22:28:00 +0000

n8n¶

约 1 个字预计阅读时间不到 1 分钟

OpenClaw

Tue, 14 Apr 2026 22:28:00 +0000

OpenClaw¶

约 1333 个字 3 张图片预计阅读时间 4 分钟

1.什么是 OpenClaw¶

一个开源免费、本地运行的个人AI智能体（Agent）。

2.Manus or Cowork？¶

Manus: 云端远程型

工作方式是：给Agent一台“远程电脑”，它在云端点网页、调工具、跑脚本，最后产出文本或文件。

Cowork: 本地协作型

工作方式是：把自己的电脑“共享”给它，设定一个“工作区”。它在一定的权限控制与人类监督下完成工作任务。

从形态上看，OpenClaw的确更接近Cowork，而非Manus——属于“本地优先+外部/本地模型+本地资源访问”的路线。

3.独特性¶

入口形态：OpenClaw的入口不限定在某个官方工作台，而是在你日常使用的工作聊天入口，比如WhatsApp/Telegram/Discord/飞书/钉钉等。
主动性：OpenClaw可以根据你的预设条件（比如定时）或者数据变化主动联系你。例如，每天早晨发送简报、待办事项提醒，或者在监测到某项数据异常时第一事件启动Agent并发消息告知。这让交互体验从“工具”变成了真正的“协作”。
长期记忆能力：OpenClaw内置了完善的长期记忆机制。会自动总结每次对话的关键信息并存入长期记忆库。你甚至可以调整其检索机制——比如向量与关键词检索的权重比。OpenClaw 的透明记忆系统：基于纯 Markdown 文件 + SQLite 向量索引的混合搜索，实现持久化、可搜索、完全可控的 AI Agent 记忆——不同于 ChatGPT/Claude 的云端黑盒，所有数据本地存储，用户拥有完全所有权。
高可扩展性：OpenClaw采用核心精简、边缘丰富的插件化架构。消息渠道（Channels）、工具（Tools）、技能（Skills）、自动化钩子（Hooks）、模型（Providers）、命令行（CLI）均可通过插件等方式扩展，并遵循零侵入、热更新、安装简单。你甚至可以让它自行编写插件，自行安装，扩展自己的能力！

除了软件模块扩展，OpenClaw一个强大的功能在于：可以把多个电脑或手机设备变成OpenClaw的能力节点（Nodes），用来扩展摄像头、屏幕录制、地理位置、交互式UI等额外能力。

高权限边界：这是OpenClaw强大也最备受争议的地方。相对Cowork的以“指定工作区/文件夹授权”控制访问边界，OpenClaw则被赋予了更高的操作电脑的权限。它能执行Shell命令、读写文件、运行脚本、控制浏览器，调用第三方API、甚至控制你家里的设备。

4.使用场景¶

收件箱清理（Gmail插件）
会议日常安排（Calendar API）
日常提醒（定时任务+聊天渠道）
设备控制（本地状态+IoT API）
更高阶的自主应变

5.如何运转¶

OpenClaw本身的架构是比较复杂的，涉及较多的层次与模块，加上偏”分布式“的设计以及扩展性、安全性的众多考虑，已经远远超出一个普通 Agent 的范畴。

Gateway/Routers(中央网关)：“大脑中枢+交通枢纽”，也是整个系统的核心。

它负责管理会话、调度Agent任务、维持与各个聊天渠道的消息连接、管理配对设备与权限、协调其他Nodes能力等。几乎所有的用户消息与控制命令都需要从这里经过。

Agent(智能体)：“任务执行者”，也就是实际干活的主体。

Agent在接收到消息与任务后，动用自己的脑袋（LLM/大模型）、手脚（Tools）、专业知识（Skills），尽可能的完成任务，其中可能会访问Web、运行命令、读写文件、编写代码，调用其他Nodes能力（比如摄像头）。

OpenClaw支持多Agent模式，可以互不干扰，或者相互协作。

每个Agent有自己的工作区，也就是自己的“办公桌”，放置专属配置与产物。

Nodes（远程能节点）：“分布式触手”，与运行Gateway的主机协作的设备。

Nodes 就是在主机之外的其他“能力”节点。你的旧手机、闲置电脑都可以作为 Node 加入网络，以提供更多的能力，比如摄像头、屏幕录制、系统控制、屏幕共享、显示可交互式的“富”界面等。Nodes 需要在远程设备上运行相应的Node 客户端 App。

借助 Nodes，你可以要求Agent：

调用某个 iPhone 的摄像头拍照，然后做后续处理
搜集服务器的数据，生成仪表盘界面（A2UI描述），然后推送到你的 iPad 上做展示（WhatsApp 等消息客户端无法支持复杂UI）
Clients（客户端）：“管理与控制者”，用来给 Gateway 下达“指令”。

OpenClaw 提供了多种形式的管理 UI，其功能类似，但使用形式不同。如果你喜爱命令行，使用OpenClaw CLI 最方便；如果想可视化，可以用 Web UI；此外Mac用户还有一个常驻菜单栏的“管家”。

除了以上的核心组件与机制之外，OpenClaw的Plugins机制、基于事件的Hooks、多智能体协作、长期记忆机制、分层安全机制等设计，我们将在后续做更深入的探讨与演示。

SDD

Tue, 14 Apr 2026 22:28:00 +0000

规范驱动开发：从Vibe Coding到SDD¶

约 1437 个字预计阅读时间 4 分钟

1.什么是SDD¶

规范驱动开发 (Specification-Driven Development, SDD) 是一种软件开发方法，强调在编写任何实际代码之前，必须首先编写一份详尽、精确、可执行的规范。

SDD的核心理念是文档先行——确保开发者与AI之间有共同的事实来源，以便更好地协作和验证代码的正确性。这种方法通过形式化规范引导AI生成生产级代码，从而显著提升代码质量与开发效率。

2.SDD的核心理念¶

2.1 文档先行¶

传统软件开发中，文档往往是在代码之后才撰写的，或者根本不写。SDD则彻底颠覆这一流程：

传统流程: 需求 → 代码 → 测试 → 文档 (可选)
SDD流程:    需求 → 规范 → 代码 → 测试 → 验证

2.2 共同的事实来源¶

SDD创建了一个单一的事实来源 (Single Source of Truth)，确保：

开发者对需求的理解与AI一致
规范可作为契约，约束代码生成
便于后续维护和迭代

2.3 可执行的规范¶

SDD的规范不是简单的需求描述，而是：

精确的：消除歧义，明确边界条件
结构化的：便于AI解析和理解
可验证的：可用于自动验证生成的代码

3.为什么要用SDD¶

3.1 传统AI代码生成的局限性¶

当直接让AI"写一个用户登录功能"时，往往面临以下问题：

问题	描述
需求不明确	AI不知道需要哪些字段、验证规则、错误处理
上下文缺失	AI不了解整体架构、数据模型、依赖关系
代码不一致	不同轮对话生成的代码风格和结构差异大
难以验证	没有明确的标准来判断代码是否符合需求
维护困难	后续修改时需要重新解释整个需求

3.2 SDD的优势¶

通过SDD，这些问题可以得到有效解决：

SDD 带来的价值	具体描述
提升代码质量	规范作为约束条件，确保生成的代码符合预期
提高开发效率	减少反复沟通，一次性生成可用的代码
降低维护成本	规范即文档，便于理解和修改
增强可测试性	规范可直接转换为测试用例
支持团队协作	共同的规范确保团队成员理解一致

和TDD或BDD相比，SDD将视角进一步前移，先明确“做什么、为什么做”，再进入实现环节。

与MDD相比，SDD更加灵活：它常用自然语言或结构化Markdown来描述需求，同时借助LLM将文本映射为代码与系统配置，减少格式化模型与具体实现之间的摩擦。

4.SDD的实践（代表性工具与项目）¶

4.1 Kiro¶

Kiro 是轻量级 VS Code 插件，遵循 Requirements → Design → Tasks 流程。其特点是直观但繁琐，适合一次性任务。

4.2 Spec-kit¶

Spec-kit 是 GitHub 出品的 CLI 套件。其核心概念为 Constitution（宪章）——定义架构原则。流程为 Constitution → Specify → Plan → Tasks。该工具仍偏向 spec-first，但为团队协作提供模板化结构。

4.3 Tessl Framework¶

Tessl Framework 是实验性框架，支持从代码反推规范（tessl document --code）。生成的代码带有 // GENERATED FROM SPEC – DO NOT EDIT 标记。支持 @generate, @test 等标签控制生成逻辑，是向 spec-as-source 迈进的早期形态。

4.4 Qoder¶

Qoder 是一个专为 SDD 场景设计的 AI 编程助手，强调“规范即代码”的理念。它支持以结构化 Markdown 编写规范，自动生成项目结构、代码和测试用例，并通过多轮对话协助开发者完善和演进规范。Qoder 集成了 LLM、代码生成、测试与部署等能力，适合团队协作和复杂工程场景，致力于让 AI 成为规范驱动开发流程中的主动参与者和执行者。

4.5 LangChain Expression Language (LCEL)¶

LCEL 为 LangChain 提供了一种声明式 DSL，允许用管道语法描述 LLM 工作流——“说明要发生什么”而非细节如何实现。它在微观层面提供了声明式的规格驱动方法，使 LLM 工具的编排更直观和可维护。

4.6 OpenDevin¶

OpenDevin 致力于构建能够读写代码、运行命令、访问网页的自主 AI 工程师。其框架强调任务规划、沙箱执行与权限控制，体现了 SDD 对可控性与治理的要求。目前仍在早期，但演示了端到端自动构建应用的可能性。

4.7 AgentScript¶

AgentScript 的特色在于让 LLM 输出一段“计划代码”（类似 JavaScript），将其解析成 AST，由运行时逐步执行。计划显式化、可审查、可暂停、可序列化，从而提高 Agent 的可解释性与可控性。这是一种让“规范驱动代理行为”的设计。

4.8 CodePlan¶

CodePlan 是学术界提出的框架，将大规模代码变更视作规划问题：AI 产出一个带依赖关系的计划图，逐步修改并在每步后用构建/测试/静态检查等验证。如果验证失败，反馈回 AI 重新规划。这种“先计划再行动”策略提高了在复杂代码库中改动的成功率，是 SDD 在研究领域的前沿探索之一。

5.Reference¶

规范驱动开发（SDD）简介：从氛围编程到 SDD

一文带你深入理解AI时代软件开发新范式-SDD(规范驱动开发）和对应的开发框架开源框架SPEC KIT

Specification-Driven Development (SDD) - 规范驱动开发

SSE

Tue, 14 Apr 2026 22:28:00 +0000

SSE¶

约 35 个字预计阅读时间不到 1 分钟

1.介绍¶

2.SSE vs WebSocket¶

3.Reference¶

AI大模型爆火的SSE技术到底是什么？万字长文，一篇读懂SSE！

Server-Sent Events 教程

Transformer

Tue, 14 Apr 2026 17:27:33 +0000

Transformer¶

约 3657 个字 10 张图片预计阅读时间 11 分钟

论文地址：https://arxiv.org/abs/1706.03762

1.Transformer 整体架构¶

Transformer 由Encoder和Decoder两个部分组成，都分别包含6个block。Transformer的工作流程如下：

Step1: 获取输入句子的每一个单词的表示向量$ X $, $ X $由单词的Embedding和单词位置的Embedding相加得到。
Step2: 将得到的单词表示向量矩阵传入Encoder中，经过6个Encoder block后可以得到句子所有单词的编码信息矩阵$ C $，单词向量矩阵用$ X_{n\times d} $ 表示，$ n $是句子单词个数，$ d $是表示向量的维度（论文中$ d $ = 512）。每个Encoder block输出的矩阵维度与输入完全一致。
Step3: 将Encoder输出的编码信息矩阵$ C $传递给Decoder中，Decoder依次会根据当前翻译过的单词$1\sim i$翻译下一个单词$i + 1$，在使用过程中，翻译到单词$i + 1$的时候需要通过Mask（掩码）操作遮盖住$i + 1$之后的单词。

如何理解Transformer中的编码器-解码器注意力机制？

编码器-解码器注意力机制允许解码器的每个位置都能够访问编码器的全部输出，使得解码器能够根据输入序列的不同部分生成输出。

2.Transformer 的输入¶

Transformer中单词的输入表示$ X $ 由单词Embedding和位置Embedding相加得到。

input embedding和output embedding 是通过token embedding matrix 得到的，需要先构建token embedding matrix，维度是vocab_size乘d_model（vocab_size是词汇量的大小，d_model是词向量的长度，也就是说每一个词都用一个d_model维的向量表示，所有的词合起来就构成了这个矩阵），然后用tf.nn.embeddinglookup函数在matrix里按照x查询得到input embedding，x是由词的id构成的向量，设x的长度为T1，那么最终得到的input embedding的维数就是T1乘d_model。output embedding和input embedding的得到方式相同，不同的地方在于把x换成decoder_inputs，以机器翻译为例，要把T1长的英文翻译成T2长的中文，那么x是T1长的英文词id，decoder inputs就是对应T2长的中文词id，所以最终得到的output embedding是T2乘d_model维。

2.1 单词 Embedding¶

单词的Embedding有很多方式可以获取，例如Word2Vec、Glove等算法预训练得到，也可以在Transformer中训练得到。

2.2 位置 Embedding¶

因为Transformer不采用RNN结构，而是使用全局信息，不能利用单词的顺序信息，而这部分信息对于NLP来说非常重要。所以Transformer中使用位置Embedding保存单词在sequence中的相对或绝对位置。

Positional Embedding的维度与单词Embedding是一样的，PE可以通过训练得到，也可以用公式得到，Transformer中使用如下公式：

其中，$pos$表示单词在句子中的位置，$d_{model}$表示PE的维度，$2i$表示偶数的维度，$2i + 1$表示奇数维度。该公式的优点是：

使PE能够使用比训练集里面所以句子更长的句子，即使用已有的$n$长度的句子可以算出$n + 1$的Embedding。
可以让模型容易地计算出相对位置，对于固定长度的间距$k$,$PE(pos + k)$可以用$PE(pos)$计算得到。可以用两角和的正弦余弦公式展开。

3.Self-Attention（自注意力机制）¶

3.1 Self-Attention 结构¶

上图是Self-Attention的结构，在计算时需要用到矩阵$Q$（查询）、$K$（键值）、$V$（值）。在实际中，Self-Attention接收的是输入（单词的表示向量$x$组成的矩阵$X$）或者上一个Encoder block的输出，而$Q,K,V$正是通过Self-Attention的输入进行线性变换得到的。

3.2 Q、K、V 的计算¶

Self-Attention的输入用矩阵$X$表示，可以分别用权重矩阵$W_q,W_k,W_v$计算得到$Q,K,V$。

$Q$:表示我想要关注什么信息。
$K$:表示我是什么样的信息。
$V$:表示我携带的信息内容。

这三个矩阵其实是同一个输入投影出来的三种视角，这一步的作用就是让模型在不同子空间中理解token之间的关系。

3.3 Self-Attention 的输出¶

自注意力机制的数学表达式如下：

公式中计算矩阵$Q$和$K$每一行的内积，为了防止内积过大，因此除以$d_k$的平方根。$Q$乘以$K$的转置后，得到的矩阵行列数都为$n$,$n$为句子单词数，这个矩阵可以表示单词之间的$attention$强度。

为什么要除以$d_k$的平方根？

除以$d_k$的平方根是为了防止点积结果在维度$d_k$较大时过大，这会导致Softmax函数处于饱和区，使得梯度变得非常小，难以通过反向传播有效地训练。缩放有助于维持点积的稳定性，确保梯度在一个合适的范围内。

得到$QK^T$之后，使用Softmax计算每一个单词对于其他单词的attention系数，公式中的Softmax是对矩阵的每一行进行Softmax，即每一行的和都变为1。

为什么要进行Softmax?

点积结果可以是任意实数，而Softmax会把它们压缩到[0, 1]区间，并且所有权重之和为1。这让注意力分数能被解释为概率分布，即模型在关注谁、关注多少。

Softmax有指数特性，会让大的分数更大，小的分数更小，从而突出主导注意力。

如果直接用点积做加权，分数可能过大或过小，导致梯度不稳定。Softmax保证了数值范围可控，梯度传播更平滑。

因此总结来说Softmax的作用就是把相似度分数转成稳定的注意力分布，突出重点并保证梯度可训练。

得到Softmax矩阵之后可以和$V$相乘，得到最终的输出$Z$。

Softmax矩阵的第一行表示单词1和其他所有单词的attention系数，最终单词1的输出$Z_1$等于所有单词$i$的值$V_i$根据attention系数的比例加权求和得到的。

3.4 Multi-Head Attention(MHA)¶

MHA是由多个Self-Attention组成的，从上图可以看到首先将输入$X$分别传递到$h$个不同的Self-Attention中，计算得到$h$个输出矩阵$Z$。论文中$h=8$，得到8个输出矩阵$Z_1$到$Z_8$之后，MHA将它们拼接在一起，然后传入一个Linear层（$W^O$用来进行变换），得到MHA最终的输出$Z$。可以看到MHA输出的矩阵$Z$与其输入的矩阵$X$的维度是一样的。

4.Encoder 结构¶

Encoder是由MHA，Add&Norm，FFN，Add&Norm组成的。

4.1 Add & Norm¶

Add&Norm层由Add和Norm两部分组成，其中$X$表示MHA或者FFN的输入，$MultiHeadAttention(X)$和 $FeedForward(X)$表示输出（输入与输出维度相同所以可以直接相加）。

Add指$X + MultiHeadAttention(X)$，是一种残差连接，通常用于解决多层网络训练的问题，可以让网络只关注当前差异的部分，在ResNet中经常用到。残差连接有助于解决深度模型中的梯度消失问题，使得更深层次的模型训练成为可能。

Norm指Layer Normalization，通常用于RNN结构，Layer Normalization会将每一层神经元的输入都转成均值方差一样的，这样可以加快收敛。

什么是Layer Normalization？

Layer Normalization的目的是对每个样本的所有特征进行归一化，公式为：$LN(x) = \displaystyle{\frac{x-\mu}{\sigma}}\gamma + \beta$,其中，$x$是输入特征，$\mu$和$\sigma$分别是特征的均值和标准差，$\gamma$和$\beta$是可学习的参数。这一归一化有助于加快训练速度，减少训练过程中的协方差偏移。

为什么不用 BatchNorm 呢？

BN和LN的出发点其实是一样的——稳定训练，防止梯度爆炸或消失。

BN是在一个batch内计算均值和方差，对同一层的所有样本的每个通道做标准化，换句话说，BN关心的是这一批数据的统计特征。

LN则是在同一个样本内部计算均值和方差，对该样本的所有特征维度一起归一化，换句话说，LN关心的是单个样本内部的特征分布。‘

Transformer不用BN的原因：（1）Transformer是序列模型，batch维度不稳定：Transformer的输入往往是变成序列，不同样本长度不同。（2）自注意力机制破坏了空间独立性：在卷积中，BN对通道归一化是合理的，因为每个通道特征相对独立。但在Transformer的Self-Attention中，每个token都与其他token有关联。（3）推理阶段BN的统计特征难以复用：BN在推理时会使用训练阶段的滑动均值来做归一化，但Transformer的输入分布在推理阶段往往与训练时不同（比如变长文本、不同语言或领域），这会导致分布漂移（distribution shift），从而引入偏差。而LN则能够适应上述情况。

总的来说，不用BN的原因即：（1）BN依赖batch统计量，不适合边长、分布差异大的序列数据。（2）Attention机制导致样本间特征强耦合，BN会破坏这种结构。（3）LN与batch size无关，推理阶段也稳定一致。

4.2 Feed Forward(FFN)¶

FFN比较简单，是一个两层的全连接层（FC），第一层的激活函数为$ReLU$，第二层不使用激活函数，公式如下：

$X$是输入，FFN最终得到的输出矩阵的维度与$X$一致。

FFN的作用：实际上就是一个线性变换层，用来完成输入数据到输出数据的维度变换。通过第一个FC层将输入词向量的512维变换到2048维，随后通过第二个FC层再将2048维变换回512维，从而保证FFN的输入输出维度一致。因此作用可以总结为：

增强特征提取能力：变换到高维空间。
提高计算效率：FC层的计算可以并行。
防止模型退化：FFN引入了$ReLU$这种非线性激活函数，保证了模型能够保持其表达能力，有效捕捉到输入数据中的复杂特征。

为什么用$ReLU$激活函数？

$ReLU$激活函数的作用是为模型施加非线性因素，从而可以使模型拟合出更加复杂的关系，这样子可以增加模型的表达能力，使模型能够捕获到复杂的特征和模式。

4.3 组成 Encoder¶

通过上面描述的 Multi-Head Attention, Feed Forward, Add & Norm 就可以构造出一个 Encoder block，Encoder block 接收输入矩阵$X_{(n\times d)}$，并输出一个矩阵$O_{(n\times d)}$。通过多个 Encoder block 叠加就可以组成 Encoder。

第一个 Encoder block 的输入为句子单词的表示向量矩阵，后续 Encoder block 的输入是前一个 Encoder block 的输出，最后一个 Encoder block 输出的矩阵就是编码信息矩阵$C$，这一矩阵后续会用到 Decoder 中。

5.Decoder 结构¶

Decoder block的结构与Encoder block的结构相似，但是有一些区别：

包含两个MHA层。
第一个MHA层采用了Masked操作。
第二个MHA层的$K,V$矩阵使用Encoder的编码信息矩阵$C$进行计算，而$Q$使用上一个Decoder block的输出计算。
最后有一个Softmax层计算下一个翻译单词的概率。

5.1 第一个 Multi-Head Attention¶

第一个MHA采用了Masked操作，因为在翻译的过程中是顺序翻译的，即翻译完第$i$个单词，才可以翻译第$i + 1$个单词。通过Masked操作可以防止第$i$个单词知道$i + 1$个单词之后的信息。

Masked操作是在Self-Attention的Softmax之前使用的。

如何理解Transformer中的自回归属性？

在Transformer的解码器中，自回归属性指模型在生成每个输出时，只能依赖于先前生成的输出，确保在生成序列时的顺序性和一致性。

首先是根据输入矩阵$X$得到Mask矩阵$M$，然后接下来的操作和之前的Self-Attention一样，通过输入矩阵$X$和对于的权重矩阵计算得到$Q,K,V$矩阵，然后计算$QK^T$。在得到$QK^T$之后需要进行Softmax，计算attention score，我们在Softmax之前需要使用$M$遮挡住每一个单词之后的信息得到Mask $QK^T$矩阵。之后在Mask $QK^T$上进行Softmax，每一行的和都为1，但是单词0在其他单词上的attention score都为0。最后使用Mask $QK^T$与矩阵$V$相乘，得到输出$Z$，则单词1的输出向量$Z_1$是只包含单词1的信息的。

通过上述步骤就可以得到一个Mask Self-Attention的输出矩阵$Z_i$，然后和Encoder类似，通过MHA拼接多个输出$Z_i$然后计算得到第一个MHA的输出$Z$，$Z$和输入$X$维度一样。

5.2 第二个 Multi-Head Attention¶

Decoder block第二个Multi-Head Attention变化不大，主要的区别在于其中Self-Attention的$K,V$矩阵不是使用上一个Decoder block的输出计算的，而是使用Encoder的编码信息矩阵$C$计算的。

根据Encoder的输出$C$计算得到$K,V$，根据上一个Decoder block的输出$Z$计算$Q$（如果是第一个Decoder block则用输入矩阵$X$计算），后续的计算方法与之前一样。

这样做的好处是在Decoder时，每一位单词都可以利用到Encoder所有单词的信息（这些信息无需Mask）。

5.3 Softmax 预测输出单词¶

Decoder block最后的部分是利用Softmax预测下一个单词，Softmax根据输出矩阵的每一行预测下一个单词，这就是Decoder block的结构，和Encoder一样，Decoder由多个Decoder block组成。

6.总结¶

Transformer与RNN不同，可以并行训练。
Transformer本身不能利用单词的顺序信息，因此需要加入位置。
Transformer的重点是Self-Attention结构。
Transformer中的MHA中有多个Self-Attention，可以捕获单词之间多种维度上的相关系数attention score。

7.Reference¶

Transformer模型详解（图解最完整版）

Transformer 论文通俗解读：FFN 的作用

Hermes

Tue, 14 Apr 2026 17:27:33 +0000

Hermes¶

约 1 个字预计阅读时间不到 1 分钟

LLM Structure

Sat, 11 Apr 2026 14:19:02 +0000

LLM架构¶

约 1372 个字 1 张图片预计阅读时间 4 分钟

在Transformer中，编码器负责理解和提取输入文本中的相关信息，用Self-Attention来理解文本中的上下文关系。

编码器的输出是输入文本的连续表示，通常被称为嵌入Embedding，这个Embedding然后被传递给解码器，解码器的任务是根据从编码器接收到的Embedding来生成翻译后的文本。解码器也使用自注意力机制，以及编码器-解码器注意力机制。

分类依据：

模型类别	核心模块组合	核心特征	典型任务场景	代表模型
自编码模型	仅使用 Encoder	双向注意力，擅长捕捉上下文语义关联，聚焦“语言理解”	文本分类、情感分析、问答	BERT、RoBERTa、ALBERT、DeBERTa
自回归模型	仅使用 Decoder	单向注意力，从左到右生成文本，聚焦“语言生成”	长文本生成、摘要、对话	GPT系列（GPT-1、2、3、4）、OPT
序列到序列模型	同时使用 Encoder+Decoder	结合双向理解与单向生成能力，聚焦“序列转换”	机器翻译、文本摘要（生成式）	T5、BART

自回归指输出的内容是根据已生成的token做上下文理解后逐token输出的。

总的来说：

encoder-only类型的更擅长做分类
encoder-decoder类型的擅长输出强烈依赖输入的，比如翻译和文本总结
其他类型的就用decoder-only，如各种Q&A

发展时间线：

2018年：自编码模型代表BERT、自回归模型代表GPT-1先后推出，分别奠定NLU（自然语言理解）和NLG（自然语言生成）的技术基础。
2019年：序列到序列模型T5、BART推出，尝试用“文本到文本”统一所有NLP任务。
2020-2023年：自回归模型（GPT-3、4、OPT）凭借强大的生成能力成为LLM主流。Encoder-Decoder模型则在特定任务中保持优势（如翻译）。

1.Encoder-Only¶

encoder-decoder的LLMs更擅长对文本内容进行分析、分类，专注自然语言理解，包括文本分类、情感分析、命名实体识别。如BERT，BERT的训练基于MLM（mask language modeling，掩码语言模型）、NSP（next sentence prediction）。

MLM是在大量的文本语料库中将数据中的某部分遮住mask，让BERT根据上下文内容来预测mask的内容，一般随机遮挡15%，80%的时间用[MASK]取代，10%时间用随机token，10%时间不变。

NSP是将原句子打乱成不同顺序的句子，让BERT找出正确语序的原句。

2.Decoder-Only¶

Decoder主要是为了预测下一个输出的内容/token是什么，并把之前输出的内容/token作为上下文学习，在长文本生成、对话任务中表现突出。代表是GPT（Generative Pre-trained Transformer）系列。

Decoder-only的decoder和encoder相似，只不过使用了Mask Self-Atttention，阻止模型关注后面位置的信息。

自回归模型任务适配灵活，通过提示学习可支持zero-shot和few-shot任务；缺点是单向注意力局限，无法利用后文信息，可能导致生成内容逻辑矛盾，且早期模型依赖微调，成本较高，文本需逐token生成，生成速度慢。

3.Encoder-Decoder¶

这种架构的LLMs主要用于NLP，即理解输入的内容，又能处理并生成内容，尤其擅长处理输入和输出序列之间存在复杂映射关系的任务，以及捕获两个序列元素之间关系重要性的任务，代表有BART和T5（Text-to-Text Transfer Transformer）。

但是序列到序列架构参数量大，训练成本高，且Decodr逐token生成，需与Encoder交互，效率低于Decoder-Only模型，推理速度慢。

4.总结¶

核心问题	答案
1. LLM 主要类别架构有哪些？	三类：Encoder-Only（自编码模型）、Decoder-Only（自回归模型）、Encoder-Decoder（序列到序列模型）。
2. 自编码模型的基本原理是什么？	在输入中随机 MASK 部分单词，模型通过双向上下文预测被 MASK 的词，聚焦语言理解任务。
3. 自回归模型的基本原理是什么？	从左到右学习文本，仅利用上文信息预测下一个 token，聚焦语言生成任务。
4. 序列到序列模型的基本原理是什么？	同时使用 Encoder（理解输入）和 Decoder（生成输出），将每个任务视作“序列到序列的转换”，聚焦转换任务。
5. LLM 为何主流选择 Decoder-Only 架构？	1. 训练 / 推理效率高（同等参数量下成本更低）；2. 无双向注意力的低秩问题，表达能力更强；3. 任务适配灵活（支持零样本 / 少样本学习）。

LLM 的三类架构（Encoder-Only、Decoder-Only、Encoder-Decoder）分别对应 “理解、生成、转换” 三大核心任务，共同构成了 NLP 技术的完整版图。自编码模型（如 BERT）奠定了语言理解的基础，序列到序列模型（如 T5）在转换任务中保持优势，而 Decoder-Only 架构（如 GPT 系列）凭借 “效率、能力、灵活度” 的三重优势，成为当前 LLM 的主流选择。

未来，随着多模态技术的发展（如 GPT-4V、Gemini），Decoder-Only 架构可能进一步融合图像、音频等模态的理解能力，而 Encoder-Decoder 模型则可能在特定垂直领域（如专业机器翻译）持续优化。

5.Reference¶

LLM的3种架构：Encoder-only、Decoder-only、encoder-decoder

LLM 主要类别与架构全景解析

Overview

Sun, 05 Apr 2026 09:44:27 +0000

AIGC¶

约 1 个字预计阅读时间不到 1 分钟

DALL-E

Sun, 05 Apr 2026 09:44:27 +0000

DALL-E¶

约 1 个字预计阅读时间不到 1 分钟

Midjourney

Sun, 05 Apr 2026 09:44:27 +0000

Midjourney¶

约 1 个字预计阅读时间不到 1 分钟

Stable Diffusion

Sun, 05 Apr 2026 09:44:27 +0000

Stable Diffusion¶

约 2 个字预计阅读时间不到 1 分钟

Suno

Sun, 05 Apr 2026 09:44:27 +0000

Suno¶

约 1 个字预计阅读时间不到 1 分钟

Overview

Sun, 05 Apr 2026 09:44:27 +0000

Deep Research¶

约 2 个字预计阅读时间不到 1 分钟

DeerFlow

Sun, 05 Apr 2026 09:44:27 +0000

deerflow¶

约 1 个字预计阅读时间不到 1 分钟

Overview

Sun, 05 Apr 2026 09:44:27 +0000

LLM Distributed Training and Inference¶

约 16 个字预计阅读时间不到 1 分钟

大模型分布式训练与推理

Overview

Sat, 04 Apr 2026 17:36:18 +0000

RAG¶

约 2754 个字预计阅读时间 9 分钟

1.引言¶

检索增强生成（Retrieval-Augmented Generation）通过在生成阶段引入外部知识检索，有效缓解了模型幻觉问题，成为当前LLM应用落地的主流架构。

一个RAG系统性能的好坏涉及多个技术环节的配合，其中Embedding模型决定了语义理解的深度，检索策略影响召回的全面性，而rerank重排序则直接关系到最终答案的准确性。

2.Embedding模型¶

Embedding（嵌入）是一种将离散的文本数据映射到连续高维向量空间的技术。在RAG系统中，它将用户查询和知识库文档统一转化成稠密向量表示，使得语义相似的文本在向量空间中彼此接近，从而支持高效的相似度检索。

Embedding模型的质量直接决定了RAG系统的检索精度。一个优秀的Embedding模型需要具备以下能力：准确捕捉文本的语义信息而非仅仅关注表面词汇；在不同领域和语言上保持稳定的表现；具备处理长文本和复杂语境的能力。目前，Embedding模型的发展呈现出商业API与开源模型双轨并行的格局，为不同需求场景提供了丰富的选择空间。

3.RAG核心工作流程¶

RAG系统的核心原理是通过检索模块从外部知识库提取相关信息，并将其作为上下文传递给生成模块，从而产生有据可依的准确回答。完整的RAG工作流程包含以下四个阶段：

数据准备阶段：将原始文档进行分块处理（Chunking），通过Embedding模型转换为向量表示，最后存入向量数据库建立索引。这一阶段的分块策略直接影响后续检索的粒度和质量。

检索阶段：用户输入查询后，系统首先将查询文本向量化，然后在向量数据库中执行相似度搜索，召回Top-K个最相关的文档块。这是RAG系统的核心环节，检索质量决定了最终回答的上限。

增强阶段：将召回的文档块与原始用户查询进行拼接，构建增强后的Prompt。这一步需要合理组织检索结果的顺序和格式，避免"中间迷失"问题。

生成阶段：LLM基于增强后的Prompt生成最终回答。模型会参考检索到的上下文信息，减少幻觉的产生。

4.向量搜索与Rerank重排序¶

4.1 Bi-encoder与Cross-encoder¶

理解向量搜索与Rerank的区别，首先需要深入了解它们背后的两种核心架构：Bi-encoder（双编码器）和Cross-encoder（交叉编码器）。

Bi-encoder架构采用双塔结构：Query和Document分别通过独立的编码器（通常共享参数）生成各自的向量表示，然后通过余弦相似度或点积计算两者的相关性分数。这种架构的核心优势在于Document可以预先离线编码并建立索引，在线查询时只需编码Query并执行向量检索，计算复杂度从O(n)降至O(1)。Bi-encoder是当前主流Embedding模型的标准架构，适合大规模语料的初筛召回。

Cross-encoder架构则采用完全不同的策略：它将Query和Document拼接为单一输入序列（通常以 [CLS]Query[SEP]Document[SEP]的格式），送入BERT等Transformer模型进行联合编码。模型内部的自注意力机制能够捕捉Query与Document之间的细粒度语义交互，最终输出一个精确的相关性分数，适合小规模精细排序。这种架构的精度显著高于Bi-encoder，但由于每对Query-Document都需要实时计算，无法进行预索引，计算成本极高。

4.2 为什么向量搜索后还需要Rerank？¶

向量搜索（粗排）与Rerank（精排）形成的两阶段检索架构并非冗余设计，而是在效率与精度之间取得平衡的工程最优解。Rerank的必要性源于以下三个核心原因：

原因一：解决向量压缩的信息损失

Embedding模型将任意长度的文本压缩为固定维度的向量（如768维或1024维），这一过程不可避免地会丢失部分语义信息。尤其是当Query与Document的相关性依赖于特定短语、实体名称或细微的语境差异时，向量相似度可能无法准确捕捉。例如，"苹果公司的股票"和"苹果的营养价值"在向量空间中可能距离较近（因为都包含"苹果"这一核心概念），但实际上语义完全不同。Cross-encoder通过对Query-Document对进行逐词级别的注意力交互，能够识别这些细粒度的语义差异。

原因二：统一多路召回的分数标准

在混合检索架构中，系统通常同时采用向量检索和BM25关键词检索两条路径，以兼顾语义理解和精确匹配。然而，这两种检索方法返回的分数处于完全不同的数值空间：向量检索的余弦相似度范围是[-1, 1]，而BM25分数则是无上界的正数。简单的分数融合（如加权求和）难以取得理想效果。Rerank模型提供了一个统一的评分框架：无论文档来自哪条检索路径，都通过同一个模型计算其与Query的相关性分数，从而实现不同来源结果的公平排序。

原因三：优化LLM的输入质量

LLM的上下文窗口是有限且昂贵的资源。如果将粗排阶段召回的所有文档（如Top-100）全部传递给LLM，不仅会消耗大量Token（增加成本），还可能引入无关信息干扰模型的判断（降低质量）。研究表明，LLM对输入文档的顺序敏感，存在"中间迷失"现象——位于中间位置的相关文档容易被忽略。Rerank的作用是从粗排结果中精选出最相关的Top-N文档（如Top-3到Top-5），确保传递给LLM的上下文信息精准、紧凑，最大化生成质量的同时控制成本。

两阶段架构的设计哲学可以概括为"先广后精"：向量搜索负责从海量文档中快速筛选出一个较大的候选集，保证不遗漏潜在相关内容（高召回率）；Rerank则对这个候选集进行精细化排序，确保最终呈现给用户或LLM的是真正最相关的结果（高精确率）。

5.RAG调优策略¶

分块与索引优化：推荐设置 chunk_size=384、 chunk_overlap=64的分块参数，确保语义单元的完整性。同时可采用多级索引架构，摘要索引用于粗筛，详情索引用于精排。

检索增强策略：元数据过滤可在检索时利用时间、类别等结构化字段缩小搜索范围。多向量检索为每个文档块同时生成标题向量和内容向量，提高匹配的准确性。查询重写将用户的模糊表述转化为更适合检索的规范描述。

上下文优化：句子窗口检索以小块为单位进行匹配，返回结果时扩展到周围的完整段落。父文档检索则是检索细粒度子块后，返回其所属的完整父文档。Prompt压缩移除检索结果中的冗余信息，精简LLM的输入长度。

模型与系统优化：混合检索权重调优需要根据具体场景动态调整向量检索与关键词检索的权重比例。针对垂直领域可进行负采样微调，提升Embedding模型在专业术语上的表现。输出格式约束使用JSON Schema确保生成结果的结构化和可解析性。

6.RAG面试题¶

6.1 RAG如何缓解模型幻觉？¶

通过提供外部事实依据，强制模型基于检索上下文回答而非凭空生成。

6.2 RAG的核心组件有哪些？¶

向量数据库、Embedding模型、检索器、LLM生成器。

6.3 什么是稠密检索和稀疏检索？¶

稠密指基于向量的语义检索，稀疏指BM25等基于关键词的词频检索。

6.4 检索内容缺失怎么办？¶

优化分块策略、扩展数据源、在Prompt中声明“不知道则告知”。

6.5 正确答案排名靠后怎么解决？¶

引入Rerank重排序机制，对召回结果进行精细化排序。

6.6 如何处理长文档检索？¶

采用父子块检索或句子窗口检索，平衡检索粒度与上下文完整性。

6.7 分块大小如何选择？¶

问答场景建议300-500字符，摘要场景可适当增大。

6.8 混合检索的原理是什么？¶

结合向量语义检索和BM25关键词匹配，通过RRF算法融合分数。

RRF（Reciprocal Rank Fusion，倒数排序融合）是一种简单而强大的融合排序方法，用于合并多个检索系统的排序结果。它通过排名倒数加权的方式，将不同检索器返回的文档列表合并成一个统一的排序，不需要依赖分数归一化或调参。

RRF 最初在信息检索领域被提出，因其无需调参、对分数尺度不敏感、鲁棒性强而成为混合检索中的常用策略。

6.9 如何评估RAG效果？¶

使用Hit Rate、MRR、Faithfulness、Answer Relevance等指标。

6.10 多轮对话检索怎么处理？¶

需进行Query重写，补全代词指代和上下文信息。

6.11 向量数据库如何选型？¶

综合考虑数据规模、查询延迟、QPS需求和水平扩展能力。

6.12 GraphRAG的优势是什么？¶

擅长处理实体关系和全局性问题，弥补向量检索的局部性。

6.13 RAG系统如何降本增效？¶

向量量化压缩、Prompt精简、小模型蒸馏。

6.14 Chunking时有哪些考虑因素？¶

块大小（Chunk Size）：需要权衡。块太大会包含过多无关信息，干扰LLM；块太小会丢失上下文语义。通常尝试512、1024等尺寸。

块重叠（Chunk Overlap）：相邻块之间保留一部分重叠文本，有助于防止上下文在分割点被切断，保持语义完整性。

分割方式：按字符、按标记（Token）、按句子、按段落或按递归分割。递归分割（先按\n\n，再按\n，再按空格）是常见且有效的方法。

元数据关联：为每个块附加元数据，如标题、页码、URL等，便于追溯答案来源。

Vector Database

Sat, 04 Apr 2026 17:34:39 +0000

向量数据库¶

约 2845 个字预计阅读时间 9 分钟

1.定义¶

向量数据库是一种专门用于存储、索引和查询高维向量数据的数据库。其核心能力是高效执行近似最近邻（ANN）搜索，即快速找到与目标向量最相似的 Top-K 个向量。

1.1 向量的来源¶

向量数据库中的向量并非手动录入，而是通过 Embedding 模型将非结构化数据（文本、图片、音频、视频）转换为稠密向量：

文本向量：如 OpenAI text-embedding-ada-002（1536 维）、BGE、M3E 等模型将句子或段落编码为向量
图像向量：如 CLIP、ResNet 等模型将图像编码为向量
多模态向量：如 CLIP 同时支持文本和图像编码到同一语义空间

1.2 核心概念¶

Embedding（嵌入）：将高维稀疏的原始数据映射到低维稠密向量空间的过程
维度（Dimension）：向量的长度，常见为 768、1024、1536 等
相似度：两个向量在空间中的接近程度，语义越相似的数据其向量距离越近

2.相似度度量¶

在向量检索中，衡量两个向量"有多像"是核心操作。常用的度量方式有以下几种：

2.1 欧氏距离（L2 Distance）¶

计算两个向量在空间中的直线距离。距离越小越相似。适用于需要衡量绝对位置差异的场景。

2.2 余弦相似度（Cosine Similarity）¶

计算两个向量夹角的余弦值，取值范围为 [-1, 1]。值越大越相似。它只关注方向不关注大小，是文本向量检索中最常用的度量方式。

2.3 内积（Inner Product / Dot Product）¶

两个向量对应分量乘积之和。当向量经过归一化处理后，内积等价于余弦相似度。在推荐系统中广泛使用。

2.4 汉明距离（Hamming Distance）¶

计算两个等长二进制串不同位的数量。主要用于二值化向量（如经过二值量化的向量），计算速度极快。

3.ANN 搜索¶

3.1 为什么需要 ANN¶

精确 KNN 搜索需要计算查询向量与数据库中每一个向量的距离，其计算复杂度为 O(Nd)，其中 N 是数据量，d 是向量维度。当数据量达到百万、十亿级别时，这种暴力计算的方式延迟极高，无法满足在线应用的实时性要求。

ANN（Approximate Nearest Neighbor）搜索通过牺牲少量精度（召回率）来换取几个数量级的速度提升。它采用预先构建索引的方式，避免了全局计算。

3.2 两阶段流程¶

向量检索分为两个阶段：

索引构建阶段（离线）：对全量向量数据构建索引结构，如聚类中心、图结构或量化码本。此阶段耗时较长但只需执行一次。
搜索阶段（在线）：查询向量利用已构建的索引快速定位候选集，在候选集内计算精确距离并返回 Top-K 结果。此阶段延迟极低。

4.常见的 ANN 算法¶

4.1 基于树的方法¶

将向量空间递归划分为多个子空间，形成树形结构。搜索时只遍历与查询向量相关的分支。代表算法有 KD-Tree、Ball Tree。适用于低维数据（通常 d < 20），在高维向量场景下性能退化严重（维度灾难）。

4.2 IVF¶

IVF（Inverted File Index）：先对数据集进行聚类（如 k-means），形成 nlist 个聚类中心。搜索时，先找到距离查询向量最近的 nprobe 个聚类中心，然后只在这些中心包含的向量里进行精确搜索。

优点：内存占用相对小，适合大规模数据
缺点：需要训练聚类中心，nprobe 参数对性能和精度影响大

4.3 HNSW¶

HNSW（Hierarchical Navigable Small World）：构建多层图结构，上层稀疏便于快速导航，下层稠密保证精度。查询时从顶层入口节点出发，逐层向下贪心搜索。

优点：查询延迟极低，召回率高，支持动态增删
缺点：内存占用大（通常是原始数据的数倍），构建索引耗时较长

4.4 PQ¶

PQ（Product Quantization）：一种向量压缩技术。将高维向量切分成多个子段，对每个子段进行量化（聚类），用聚类中心的 ID 代表原始子向量。大大减少内存占用和距离计算成本。

通常与 IVF 结合使用，即 IVF-PQ，是内存受限和十亿级数据规模的常用方案。

4.5 ScaNN¶

ScaNN（Scalable Nearest Neighbors）由 Google 提出，结合了 ANQ（Asymmetric Non-Quantization）和树搜索两种技术。在精度和速度之间取得了良好的平衡，是 Google 内部大规模检索的核心算法。

4.6 DiskANN¶

DiskANN 由 Microsoft 提出，核心思想是将图索引的大部分数据存储在磁盘上，仅将少量导航数据保留在内存中。通过高效的磁盘 I/O 调度实现十亿级向量的单机检索，大幅降低内存成本。

5.评估指标¶

召回率（Recall）：返回的 K 个结果中包含真实最近邻的比例，衡量检索精度
QPS（Queries Per Second）：每秒处理的查询数，衡量系统吞吐量
延迟（Latency）：单次查询的耗时，通常关注 P50、P95、P99 分位值
内存占用：索引占用的内存大小，直接影响硬件成本

6.向量数据库的典型架构¶

一个完整的向量数据库通常包含以下核心组件：

6.1 存储层¶

负责向量和元数据的持久化。常见的存储方案包括本地文件系统、对象存储（如 S3、MinIO）以及内嵌的轻量级数据库（如 SQLite、RocksDB）。

6.2 索引引擎¶

核心检索组件，负责构建和维护 ANN 索引（HNSW、IVF、PQ 等），执行向量相似度计算。

6.3 查询引擎¶

接收查询请求，解析过滤条件，协调索引引擎执行检索，对结果进行排序和裁剪后返回。

6.4 分布式协调层（集群模式）¶

在分布式部署中，负责数据分片（Sharding）、副本管理、负载均衡和故障恢复。通常借助 etcd、Kubernetes 等基础设施实现。

6.5 工作流程¶

1. 数据写入 → 向量 + 元数据(Payload) → 持久化存储
2. 索引构建 → 从存储读取向量 → 构建 ANN 索引
3. 查询请求 → 解析过滤条件 → 索引检索候选集 → 精确距离计算 → 过滤 + 排序 → 返回 Top-K

7.向量数据库在 RAG 中的应用¶

在 RAG（Retrieval-Augmented Generation）架构中，向量数据库是检索层的核心组件：

7.1 知识入库¶

将文档切分为 Chunk → 通过 Embedding 模型向量化 → 连同元数据（来源、标题、段落编号等）写入向量数据库 → 后台异步构建索引。

7.2 检索增强¶

用户提问 → 问题向量化 → 在向量数据库中检索 Top-K 相关 Chunk → 将检索结果作为上下文拼接到 Prompt → 交由 LLM 生成回答。

7.3 关键考量¶

Chunk 大小：影响检索精度和上下文窗口利用率
元数据过滤：支持按文档来源、时间范围等条件过滤后再检索
混合检索：向量检索 + BM25 关键词检索融合，提升召回质量
重排序（Rerank）：检索结果经过精排模型二次排序

8.常见的向量数据库¶

8.1 FAISS¶

FAISS（Facebook AI Similarity Search）由 Meta 开源，是一个用于高效向量检索的 C++ 库，提供 Python 接口。它不是一个独立的数据库服务，而是一个底层检索引擎。支持 IVF、PQ、HNSW 等多种 ANN 算法，支持 GPU 加速。适合需要将向量检索能力嵌入自有系统的场景，但需要自行处理数据持久化、分布式和高可用等问题。

8.2 Milvus¶

Milvus 由 Zilliz 开发，是一款开源的云原生分布式向量数据库。支持多种 ANN 索引（IVF、HNSW、SCANN 等），支持标量过滤、混合检索、多租户、数据分片和副本。提供独立的 standalone 和分布式集群部署模式，适合大规模生产环境。Zilliz Cloud 是其全托管云服务版本。

8.3 Qdrant¶

Qdrant 用 Rust 编写，是一款开源向量数据库，以高性能和低延迟著称。支持 HNSW 作为默认索引，内置丰富的过滤查询和 payload 管理功能。提供 gRPC 和 REST API，支持 Docker 部署和 Qdrant Cloud 托管服务。其独特的量化机制（标量量化、二进制量化、乘积量化）可在保证召回率的同时显著降低内存占用。

8.4 Weaviate¶

Weaviate 是一款开源向量数据库，特点是内置向量化模块，可以直接在数据库内调用多种 Embedding 模型（如 OpenAI、Cohere、HuggingFace 等），无需外部生成向量再导入。支持 HNSW 索引，提供 GraphQL 查询接口和 RESTful API。适合希望简化 Embedding + 存储 + 检索全链路的场景。

8.5 Chroma¶

Chroma 定位为 AI 原生嵌入式向量数据库，主打轻量级和开发者友好。默认使用 HNSW 索引，支持本地持久化和内存模式，pip install 即可使用。与 LangChain、LlamaIndex 等框架集成良好，非常适合原型开发、本地实验和中小规模应用。但在大规模分布式和高可用方面能力较弱。

8.6 Pinecone¶

Pinecone 是全托管的闭源向量数据库服务，无需运维，开箱即用。支持元数据过滤、命名空间隔离和稀疏-稠密混合检索。其特点是完全托管、自动扩缩容、SLA 保障，适合不想投入运维资源的团队。缺点是数据存储在 Pinecone 云端，存在供应商锁定和数据合规方面的考量。

8.7 pgvector¶

pgvector 是 PostgreSQL 的一个扩展，让传统关系型数据库具备向量存储和检索能力。支持 HNSW 和 IVFFlat 索引，支持将向量数据与业务数据放在同一数据库中，便于关联查询和事务一致性。适合已有 PostgreSQL 基础设施、向量规模不大且希望减少技术栈复杂度的团队。

8.8 对比总结¶

数据库	类型	主要索引	分布式	适用场景
FAISS	库	IVF/PQ/HNSW	否	底层引擎嵌入
Milvus	数据库	IVF/HNSW/SCANN	是	大规模生产
Qdrant	数据库	HNSW	是	高性能低延迟
Weaviate	数据库	HNSW	是	内置 Embedding
Chroma	嵌入式	HNSW	否	原型开发
Pinecone	托管服务	专有	是	零运维
pgvector	扩展	HNSW/IVFFlat	依赖 PG	已有 PG 基础设施

9.如何选择合适的向量数据库¶

选择向量数据库时需要综合考虑以下因素：

9.1 数据规模¶

万到百万级：Chroma、pgvector、Qdrant 单机版即可满足
千万到亿级：Milvus、Qdrant 集群版、Weaviate
十亿级以上：Milvus 分布式、DiskANN 方案

9.2 运维能力¶

零运维：Pinecone、Zilliz Cloud 等全托管服务
有运维能力：Milvus、Qdrant、Weaviate 自建集群
极简部署：Chroma、pgvector（已有 PG 时）

9.3 功能需求¶

需要标量过滤：Milvus、Qdrant、Weaviate、pgvector
需要混合检索：Milvus、Weaviate、Pinecone
需要内置 Embedding：Weaviate
需要 GPU 加速：FAISS、Milvus

9.4 数据合规¶

数据必须本地存储：FAISS、Milvus、Qdrant、Chroma、pgvector（均支持自建）
可接受云端存储：Pinecone、Zilliz Cloud、Qdrant Cloud

Overview

Sat, 04 Apr 2026 10:36:36 +0000

Reading¶

约 5 个字预计阅读时间不到 1 分钟

书籍阅读

Bayesian-TTA

Sat, 04 Apr 2026 10:36:36 +0000

基于贝叶斯理论的测试时动态自适应方法研究¶

约 20 个字预计阅读时间不到 1 分钟

RAG-based Financial Q&A Platform

Sat, 04 Apr 2026 10:36:36 +0000

基于RAG的金融问答平台¶

约 10 个字预计阅读时间不到 1 分钟

Salescoach Agent Built with LangGraph and Agentickit

Sat, 04 Apr 2026 10:36:36 +0000

基于LangGraph的销售智能体¶

约 9 个字预计阅读时间不到 1 分钟

Programming Language Trending

Sat, 04 Apr 2026 10:36:36 +0000

编程语言概览¶

约 13 个字预计阅读时间不到 1 分钟

C++¶

Python¶

Java¶

Go¶

Rust¶

JS¶

TS¶

Overview

Tue, 03 Mar 2026 15:00:28 +0000

MLLM¶

约 9 个字预计阅读时间不到 1 分钟

多模态大语言模型

VLM

Tue, 03 Mar 2026 15:00:28 +0000

VLM¶

约 11 个字预计阅读时间不到 1 分钟

视觉语言模型（VLM）多模态

System Prompt

Sat, 07 Feb 2026 10:23:26 +0000

约 326 个字预计阅读时间 1 分钟

System Prompt vs User Prompt¶

类型	作用	范围	遵循优先级	类比	示例
System prompt	定义AI的人设、行为准则和长期记忆	全局、持久（整个会话或应用）	P0（最高）	公司章程、角色剧本、操作系统	“你是一位严谨的法律顾问。所有回答必须引用具体发条，并以‘免责声明’结尾”
User Prompt	下达具体、临时的任务指令	局部、即时（单词问答）	P1（次高）	领导分配的当日任务	“帮我分析一下这份租赁合同中潜在风险”

System Prompt就是演员的角色剧本和导演的总纲。它规定了演员的性格（是霸道总裁还是邻家小妹儿）、背景（是来自火星还是来自中世纪）、知识领域（是懂代码还是懂历史）和表演风格（是严肃还是搞笑）。

User Prompt 则是导演在每一幕给出的具体指令，比如“现在，给我一个愤怒的表情”、“跟观众解释一下你为什么这么做”。

System Prompt给AI搭了一个框架，让它有了一个稳定的“人格”。而User Prompt则是在这个框架里，驱动AI去完成一个个具体的任务。

Reference¶

万字说透提示词工程：User Prompt 与 System Prompt

行列式

Sun, 01 Feb 2026 10:55:59 +0000

约 0 个字预计阅读时间不到 1 分钟

代数系统

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

图论

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

群论

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

归纳与递归

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

数论初步

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

谓词逻辑

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

命题逻辑

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

关系

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

集合

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

树

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

特征值

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

线性方程组

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

二次型

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

相似

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

向量组

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

大数定律与中心极限定理

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

假设检验

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

多维随机变量及其分布

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

数字特征

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

参数估计

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

随机事件及其概率

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

一维随机变量及其分布

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

统计基本概念

Sat, 31 Jan 2026 21:07:19 +0000

约 0 个字预计阅读时间不到 1 分钟

矩阵

Wed, 28 Jan 2026 14:20:06 +0000

约 0 个字预计阅读时间不到 1 分钟