Posts by Tags

AlexNet

重读经典: ImageNet Classification with Deep Convolutional Neural Networks

6 minute read

Published: November 03, 2024

读 CACM17 ｜ AlexNet 使用深度卷积神经网络进行 ImageNet 分类

BERT

论文阅读: BERT

2 minute read

Published: April 19, 2025

读 BERT ｜针对语言理解任务预训练的深度双向 Transformer

BPE

LLMs: Tokenlizer - BPE

17 minute read

Published: March 11, 2025

Byte-pair encoding (BPE)

CNN

卷积计算

1 minute read

Published: November 05, 2024

卷积计算

重读经典: ImageNet Classification with Deep Convolutional Neural Networks

6 minute read

Published: November 03, 2024

读 CACM17 ｜ AlexNet 使用深度卷积神经网络进行 ImageNet 分类

论文阅读: Dual-Path Convolutional Image-Text Embedding

less than 1 minute read

Published: November 01, 2024

读 CVPR17 ｜ TOMM 用CNN分100,000类图像

CV

卷积计算

1 minute read

Published: November 05, 2024

卷积计算

ConvNet

cs231n_cnn_3

less than 1 minute read

Published: March 02, 2025

CS231n_cnn: 3. Transfer Learning

cs231n_cnn_2

less than 1 minute read

Published: March 01, 2025

CS231n_cnn: 2. Visualizing what ConvNets learn

cs231n_cnn_1

7 minute read

Published: February 17, 2025

CS231n_cnn: 1. Convolutional Neural Network

Data Preprocessing

cs231n_6

5 minute read

Published: December 14, 2024

CS231n: 6. Setting up the data and the model

Deep Learning

MoE 原理及实现

less than 1 minute read

Published: May 21, 2025

MoE：mix of experts

专家 stack 起来，计算 token 经过每个专家的输出，对结果加权。

反向传播计算

less than 1 minute read

Published: May 14, 2025

反向传播计算

论文阅读: AlexNet

1 minute read

Published: April 23, 2025

读 AlexNet ｜

论文阅读: BERT

2 minute read

Published: April 19, 2025

读 BERT ｜针对语言理解任务预训练的深度双向 Transformer

论文阅读: CCV

less than 1 minute read

Published: April 19, 2025

读 CCV ｜用于情景医学图像分割的循环上下文验证

LoRA 原理及实现

1 minute read

Published: April 10, 2025

LoRA：low rank adaptation

用两个小矩阵相乘，去表示全量微调后权重矩阵的这个变化量

论文阅读: GPT-2.0

1 minute read

Published: April 09, 2025

读 GPT-2.0 ｜语言模型是无监督的多任务学习

LLMs: CS324

1 minute read

Published: March 14, 2025

CS324

论文阅读: DeepSeek-R1

2 minute read

Published: March 14, 2025

读 DeepSeek-R1 ｜通过强化学习激励大语言模型的推理能力

论文阅读: GPT-1.0

22 minute read

Published: March 14, 2025

读 GPT-1.0 ｜通过生成式预训练来提高语言理解

cs231n_1

2 minute read

Published: November 15, 2024

CS231n: 1. Introduction & KNN & Data Split

卷积计算

1 minute read

Published: November 05, 2024

卷积计算

重读经典: ImageNet Classification with Deep Convolutional Neural Networks

6 minute read

Published: November 03, 2024

读 CACM17 ｜ AlexNet 使用深度卷积神经网络进行 ImageNet 分类

论文阅读: Dual-Path Convolutional Image-Text Embedding

less than 1 minute read

Published: November 01, 2024

读 CVPR17 ｜ TOMM 用CNN分100,000类图像

论文阅读：Towards VQA Models That Can Read

4 minute read

Published: October 29, 2024

迈向具有阅读能力的 VQA 模型

CVPR 2019

Vaniila Transformer

8 minute read

Published: October 07, 2024

手撕 Transformer

GPT-1.0

论文阅读: GPT-1.0

22 minute read

Published: March 14, 2025

读 GPT-1.0 ｜通过生成式预训练来提高语言理解

GPT-2.0

论文阅读: GPT-2.0

1 minute read

Published: April 09, 2025

读 GPT-2.0 ｜语言模型是无监督的多任务学习

Hyperparameter search

cs231n_7

6 minute read

Published: January 01, 2025

CS231n: 7. Learning the parameters

Image Classification

cs231n_1

2 minute read

Published: November 15, 2024

CS231n: 1. Introduction & KNN & Data Split

LLMs

MoE 原理及实现

less than 1 minute read

Published: May 21, 2025

MoE：mix of experts

专家 stack 起来，计算 token 经过每个专家的输出，对结果加权。

LoRA 原理及实现

1 minute read

Published: April 10, 2025

LoRA：low rank adaptation

用两个小矩阵相乘，去表示全量微调后权重矩阵的这个变化量

论文阅读: GPT-2.0

1 minute read

Published: April 09, 2025

读 GPT-2.0 ｜语言模型是无监督的多任务学习

论文阅读: GPT-1.0

22 minute read

Published: March 14, 2025

读 GPT-1.0 ｜通过生成式预训练来提高语言理解

LLMs: Seq2seq

5 minute read

Published: March 13, 2025

Sequence to Sequence Learning with Neural Networks

LLMs: Tokenlizer

7 minute read

Published: March 12, 2025

Tokenlizer

LLMs: Tokenlizer - BPE

17 minute read

Published: March 11, 2025

Byte-pair encoding (BPE)

Linear Classification

cs231n_2

3 minute read

Published: November 20, 2024

CS231n: 2. 线性分类器, SVM loss, Softmax

LoRA

LoRA 原理及实现

1 minute read

Published: April 10, 2025

LoRA：low rank adaptation

用两个小矩阵相乘，去表示全量微调后权重矩阵的这个变化量

MLP

论文阅读: Transformer

5 minute read

Published: April 30, 2025

读 Transformer ｜集中一下注意力

MoE

MoE 原理及实现

less than 1 minute read

Published: May 21, 2025

MoE：mix of experts

专家 stack 起来，计算 token 经过每个专家的输出，对结果加权。

论文阅读: Dual-Path Convolutional Image-Text Embedding

less than 1 minute read

Published: November 01, 2024

读 CVPR17 ｜ TOMM 用CNN分100,000类图像

论文阅读：Towards VQA Models That Can Read

4 minute read

Published: October 29, 2024

迈向具有阅读能力的 VQA 模型

CVPR 2019

NLP

论文阅读: BERT

2 minute read

Published: April 19, 2025

读 BERT ｜针对语言理解任务预训练的深度双向 Transformer

Vaniila Transformer

8 minute read

Published: October 07, 2024

手撕 Transformer

Neural Network

cs231n_8

3 minute read

Published: February 14, 2025

CS231n: 8. Minimal Neural Network Case

Neural Networks

cs231n_5

3 minute read

Published: November 28, 2024

CS231n: 5. Architecture, ReLU, overfitting

Optimization

cs231n_3

2 minute read

Published: November 20, 2024

CS231n: 3. Optimization: Stochastic Gradient Descent

cs231n_cnn_1

7 minute read

Published: February 17, 2025

CS231n_cnn: 1. Convolutional Neural Network

Parameter updates

cs231n_7

6 minute read

Published: January 01, 2025

CS231n: 7. Learning the parameters

Pooling

cs231n_cnn_1

7 minute read

Published: February 17, 2025

CS231n_cnn: 1. Convolutional Neural Network

ReLU

cs231n_5

3 minute read

Published: November 28, 2024

CS231n: 5. Architecture, ReLU, overfitting

Regularization

cs231n_6

5 minute read

Published: December 14, 2024

CS231n: 6. Setting up the data and the model

ResNet

论文阅读: ResNet

1 minute read

Published: April 24, 2025

读 ResNet ｜图像识别的深度残差学习

SGD

cs231n_3

2 minute read

Published: November 20, 2024

CS231n: 3. Optimization: Stochastic Gradient Descent

SVM

cs231n_2

3 minute read

Published: November 20, 2024

CS231n: 2. 线性分类器, SVM loss, Softmax

Seq2seq

Vaniila Transformer

8 minute read

Published: October 07, 2024

手撕 Transformer

Softmax

cs231n_2

3 minute read

Published: November 20, 2024

CS231n: 2. 线性分类器, SVM loss, Softmax

Temperature

采样

1 minute read

Published: May 22, 2025

sample

采样目的：生成文本时，从预测结果中选出高概率的候选词，避免随机选到低概率词导致的语句不合理，同时保留一定多样性。
先用temperature 调整分布平滑度，然后 top-k + top-p 控制候选范围

Tokenlizer

LLMs: Tokenlizer

7 minute read

Published: March 12, 2025

Tokenlizer

LLMs: Tokenlizer - BPE

17 minute read

Published: March 11, 2025

Byte-pair encoding (BPE)

Top-k

采样

1 minute read

Published: May 22, 2025

sample

采样目的：生成文本时，从预测结果中选出高概率的候选词，避免随机选到低概率词导致的语句不合理，同时保留一定多样性。
先用temperature 调整分布平滑度，然后 top-k + top-p 控制候选范围

Top-p

采样

1 minute read

Published: May 22, 2025

sample

采样目的：生成文本时，从预测结果中选出高概率的候选词，避免随机选到低概率词导致的语句不合理，同时保留一定多样性。
先用temperature 调整分布平滑度，然后 top-k + top-p 控制候选范围

VQA

论文阅读：Towards VQA Models That Can Read

4 minute read

Published: October 29, 2024

迈向具有阅读能力的 VQA 模型

CVPR 2019

Visualization

cs231n_cnn_2

less than 1 minute read

Published: March 01, 2025

CS231n_cnn: 2. Visualizing what ConvNets learn

Weight Initialization

cs231n_6

5 minute read

Published: December 14, 2024

CS231n: 6. Setting up the data and the model

backpropagation

cs231n_4

2 minute read

Published: November 23, 2024

CS231n: 4. Backpropagation

chain role

cs231n_4

2 minute read

Published: November 23, 2024

CS231n: 4. Backpropagation

cs231n

cs231n_1

2 minute read

Published: November 15, 2024

CS231n: 1. Introduction & KNN & Data Split

filter

如何读论文

less than 1 minute read

Published: April 23, 2025

如何读论文

fine-tuning

cs231n_cnn_3

less than 1 minute read

Published: March 02, 2025

CS231n_cnn: 3. Transfer Learning

gradient

论文阅读: ResNet

1 minute read

Published: April 24, 2025

读 ResNet ｜图像识别的深度残差学习

linear classifier

cs231n_8

3 minute read

Published: February 14, 2025

CS231n: 8. Minimal Neural Network Case

loss/acc monitor

cs231n_7

6 minute read

Published: January 01, 2025

CS231n: 7. Learning the parameters

mini-batch

cs231n_3

2 minute read

Published: November 20, 2024

CS231n: 3. Optimization: Stochastic Gradient Descent

multi-head

论文阅读: Transformer

5 minute read

Published: April 30, 2025

读 Transformer ｜集中一下注意力

overfitting

论文阅读: ResNet

1 minute read

Published: April 24, 2025

读 ResNet ｜图像识别的深度残差学习

cs231n_5

3 minute read

Published: November 28, 2024

CS231n: 5. Architecture, ReLU, overfitting

pretrain

cs231n_cnn_3

less than 1 minute read

Published: March 02, 2025

CS231n_cnn: 3. Transfer Learning

research

如何读论文

less than 1 minute read

Published: April 23, 2025

如何读论文

scaled dot-product attention

论文阅读: Transformer

5 minute read

Published: April 30, 2025

读 Transformer ｜集中一下注意力

select

如何读论文

less than 1 minute read

Published: April 23, 2025

如何读论文

seq2seq

LLMs: Seq2seq

5 minute read

Published: March 13, 2025

Sequence to Sequence Learning with Neural Networks

sigmoid

cs231n_4

2 minute read

Published: November 23, 2024

CS231n: 4. Backpropagation

spiral dataset

cs231n_8

3 minute read

Published: February 14, 2025

CS231n: 8. Minimal Neural Network Case

t-SNE

cs231n_cnn_2

less than 1 minute read

Published: March 01, 2025

CS231n_cnn: 2. Visualizing what ConvNets learn

Celeste

Posts by Tags

AlexNet

读 CACM17 ｜ AlexNet 使用深度卷积神经网络进行 ImageNet 分类

BERT

读 BERT ｜ 针对语言理解任务预训练的深度双向 Transformer

BPE

Byte-pair encoding (BPE)

CNN

卷积计算

读 CACM17 ｜ AlexNet 使用深度卷积神经网络进行 ImageNet 分类

读 CVPR17 ｜ TOMM 用CNN分100,000类图像

CV

卷积计算

ConvNet

CS231n_cnn: 3. Transfer Learning

CS231n_cnn: 2. Visualizing what ConvNets learn

CS231n_cnn: 1. Convolutional Neural Network

Data Preprocessing

CS231n: 6. Setting up the data and the model

Deep Learning

MoE：mix of experts

反向传播计算

读 AlexNet ｜

读 BERT ｜ 针对语言理解任务预训练的深度双向 Transformer

读 CCV ｜ 用于情景医学图像分割的循环上下文验证

LoRA：low rank adaptation

读 GPT-2.0 ｜ 语言模型是无监督的多任务学习

CS324

读 DeepSeek-R1 ｜ 通过强化学习激励大语言模型的推理能力

读 GPT-1.0 ｜ 通过生成式预训练来提高语言理解

CS231n: 1. Introduction & KNN & Data Split

卷积计算

读 CACM17 ｜ AlexNet 使用深度卷积神经网络进行 ImageNet 分类

读 CVPR17 ｜ TOMM 用CNN分100,000类图像

迈向具有阅读能力的 VQA 模型

手撕 Transformer

GPT-1.0

读 GPT-1.0 ｜ 通过生成式预训练来提高语言理解

GPT-2.0

读 GPT-2.0 ｜ 语言模型是无监督的多任务学习

Hyperparameter search

CS231n: 7. Learning the parameters

Image Classification

CS231n: 1. Introduction & KNN & Data Split

LLMs

MoE：mix of experts

LoRA：low rank adaptation

读 GPT-2.0 ｜ 语言模型是无监督的多任务学习

读 GPT-1.0 ｜ 通过生成式预训练来提高语言理解

Sequence to Sequence Learning with Neural Networks

Tokenlizer

Byte-pair encoding (BPE)

Linear Classification

CS231n: 2. 线性分类器, SVM loss, Softmax

LoRA

LoRA：low rank adaptation

MLP

读 Transformer ｜ 集中一下注意力

MoE

MoE：mix of experts

Multi-Modal

读 CVPR17 ｜ TOMM 用CNN分100,000类图像

迈向具有阅读能力的 VQA 模型

NLP

读 BERT ｜ 针对语言理解任务预训练的深度双向 Transformer

手撕 Transformer

Neural Network

CS231n: 8. Minimal Neural Network Case

Neural Networks

CS231n: 5. Architecture, ReLU, overfitting

Optimization

CS231n: 3. Optimization: Stochastic Gradient Descent

Parameter Sharing

CS231n_cnn: 1. Convolutional Neural Network

Parameter updates

CS231n: 7. Learning the parameters

Pooling

CS231n_cnn: 1. Convolutional Neural Network

ReLU

读 BERT ｜针对语言理解任务预训练的深度双向 Transformer

读 BERT ｜针对语言理解任务预训练的深度双向 Transformer

读 CCV ｜用于情景医学图像分割的循环上下文验证

读 GPT-2.0 ｜语言模型是无监督的多任务学习

读 DeepSeek-R1 ｜通过强化学习激励大语言模型的推理能力

读 GPT-1.0 ｜通过生成式预训练来提高语言理解

读 GPT-1.0 ｜通过生成式预训练来提高语言理解

读 GPT-2.0 ｜语言模型是无监督的多任务学习

读 GPT-2.0 ｜语言模型是无监督的多任务学习

读 GPT-1.0 ｜通过生成式预训练来提高语言理解

读 Transformer ｜集中一下注意力

读 BERT ｜针对语言理解任务预训练的深度双向 Transformer

读 ResNet ｜图像识别的深度残差学习