从ResNet到ResNeSt：手把手带你用PyTorch复现核心模块（附代码与可视化）

张

张建站

2026/6/11 10:59:05

10分钟阅读

从ResNet到ResNeSt手把手带你用PyTorch复现核心模块附代码与可视化在计算机视觉领域残差网络ResNet的出现彻底改变了深度神经网络的训练方式。但鲜为人知的是ResNet家族中隐藏着多个性能更优的变体结构。本文将带您从零开始用PyTorch实现ResNet-B的下采样优化、Res2Net的多尺度特征提取、ResNeXt的分组卷积以及ResNeSt的注意力融合机制。通过代码实现和特征可视化您将直观感受每个改进背后的设计智慧。1. 环境准备与基础ResNet回顾在开始构建各种变体之前我们需要准备好开发环境。建议使用Python 3.8和PyTorch 1.10版本这些版本在兼容性和性能方面都有良好表现。安装命令如下pip install torch torchvision matplotlib numpyResNet的核心创新在于残差连接skip connection它解决了深层网络梯度消失的问题。标准的ResNet块由两个3×3卷积组成中间通过BatchNorm和ReLU激活函数连接。让我们先定义一个基础的残差块import torch import torch.nn as nn class BasicBlock(nn.Module): expansion 1 def __init__(self, in_channels, out_channels, stride1): super().__init__() self.conv1 nn.Conv2d(in_channels, out_channels, kernel_size3, stridestride, padding1, biasFalse) self.bn1 nn.BatchNorm2d(out_channels) self.conv2 nn.Conv2d(out_channels, out_channels, kernel_size3, stride1, padding1, biasFalse) self.bn2 nn.BatchNorm2d(out_channels) self.shortcut nn.Sequential() if stride ! 1 or in_channels ! self.expansion * out_channels: self.shortcut nn.Sequential( nn.Conv2d(in_channels, self.expansion * out_channels, kernel_size1, stridestride, biasFalse), nn.BatchNorm2d(self.expansion * out_channels) ) def forward(self, x): out torch.relu(self.bn1(self.conv1(x))) out self.bn2(self.conv2(out)) out self.shortcut(x) return torch.relu(out)这个基础块将成为我们后续所有改进的起点。注意其中的shortcut连接处理了通道数不匹配和空间下采样的情况。2. ResNet-B/C/D的改进实现2.1 ResNet-B的下采样优化原始ResNet在进行下采样时残差分支使用1×1卷积同时完成通道变换和空间下采样这会导致信息丢失。ResNet-B的改进思路是将下采样操作移至第二个3×3卷积中class ResNetBBlock(nn.Module): expansion 1 def __init__(self, in_channels, out_channels, stride1): super().__init__() # 第一个卷积保持stride1 self.conv1 nn.Conv2d(in_channels, out_channels, kernel_size3, stride1, padding1, biasFalse) self.bn1 nn.BatchNorm2d(out_channels) # 下采样移至第二个卷积 self.conv2 nn.Conv2d(out_channels, out_channels, kernel_size3, stridestride, padding1, biasFalse) self.bn2 nn.BatchNorm2d(out_channels) self.shortcut nn.Sequential() if stride ! 1 or in_channels ! self.expansion * out_channels: self.shortcut nn.Sequential( nn.Conv2d(in_channels, self.expansion * out_channels, kernel_size1, stride1, biasFalse), # 注意stride1 nn.BatchNorm2d(self.expansion * out_channels), nn.AvgPool2d(kernel_size2, stride2) # 使用平均池化下采样 ) def forward(self, x): out torch.relu(self.bn1(self.conv1(x))) out self.bn2(self.conv2(out)) out self.shortcut(x) return torch.relu(out)这种改进减少了信息丢失特别是在处理高分辨率特征图时效果更明显。我们可以通过特征可视化来观察改进前后的差异def visualize_features(model, input_tensor, layer_name): # 注册hook捕获指定层的输出 features {} def get_features(name): def hook(model, input, output): features[name] output.detach() return hook layer dict([*model.named_modules()])[layer_name] handle layer.register_forward_hook(get_features(layer_name)) with torch.no_grad(): model(input_tensor) handle.remove() return features[layer_name]2.2 ResNet-C的输入层优化ResNet-C将输入部分的7×7卷积替换为三个3×3卷积这种设计有两个优势参数量减少7×7卷积有49个参数而三个3×3卷积只有27个参数增加了非线性表达能力实现代码如下class ResNetCStem(nn.Module): def __init__(self, in_channels3, out_channels64): super().__init__() self.conv1 nn.Conv2d(in_channels, out_channels//2, kernel_size3, stride2, padding1, biasFalse) self.bn1 nn.BatchNorm2d(out_channels//2) self.conv2 nn.Conv2d(out_channels//2, out_channels//2, kernel_size3, stride1, padding1, biasFalse) self.bn2 nn.BatchNorm2d(out_channels//2) self.conv3 nn.Conv2d(out_channels//2, out_channels, kernel_size3, stride1, padding1, biasFalse) self.bn3 nn.BatchNorm2d(out_channels) self.relu nn.ReLU(inplaceTrue) self.maxpool nn.MaxPool2d(kernel_size3, stride2, padding1) def forward(self, x): x self.relu(self.bn1(self.conv1(x))) x self.relu(self.bn2(self.conv2(x))) x self.relu(self.bn3(self.conv3(x))) x self.maxpool(x) return x2.3 ResNet-D的完整实现ResNet-D在ResNet-B的基础上进一步优化了shortcut路径的下采样方式class ResNetDBlock(nn.Module): expansion 4 def __init__(self, in_channels, out_channels, stride1): super().__init__() self.conv1 nn.Conv2d(in_channels, out_channels, kernel_size1, stride1, biasFalse) self.bn1 nn.BatchNorm2d(out_channels) self.conv2 nn.Conv2d(out_channels, out_channels, kernel_size3, stridestride, padding1, biasFalse) self.bn2 nn.BatchNorm2d(out_channels) self.conv3 nn.Conv2d(out_channels, out_channels * self.expansion, kernel_size1, stride1, biasFalse) self.bn3 nn.BatchNorm2d(out_channels * self.expansion) self.shortcut nn.Sequential() if stride ! 1 or in_channels ! out_channels * self.expansion: self.shortcut nn.Sequential( nn.Conv2d(in_channels, out_channels * self.expansion, kernel_size1, stride1, biasFalse), nn.BatchNorm2d(out_channels * self.expansion), nn.AvgPool2d(kernel_size2, stridestride) # 使用平均池化下采样 ) def forward(self, x): out torch.relu(self.bn1(self.conv1(x))) out torch.relu(self.bn2(self.conv2(out))) out self.bn3(self.conv3(out)) out self.shortcut(x) return torch.relu(out)这三种改进版本的性能对比结果如下表所示模型变体Top-1准确率提升参数量变化计算量变化ResNet-B0.5%基本不变基本不变ResNet-C0.2%-15%-10%ResNet-D0.7%基本不变基本不变3. Res2Net的多尺度特征提取Res2Net的核心创新是在单个残差块内实现了多尺度特征提取。它通过将特征图分组并在不同感受野下处理最后融合结果class Res2NetBlock(nn.Module): expansion 4 def __init__(self, in_channels, out_channels, stride1, scales4): super().__init__() self.scales scales width out_channels // scales self.conv1 nn.Conv2d(in_channels, out_channels, kernel_size1, stride1, biasFalse) self.bn1 nn.BatchNorm2d(out_channels) # 多尺度卷积组 self.convs nn.ModuleList([ nn.Conv2d(width, width, kernel_size3, stridestride if i0 else 1, padding1, biasFalse) for i in range(scales-1) ]) self.bns nn.ModuleList([ nn.BatchNorm2d(width) for _ in range(scales-1) ]) self.conv3 nn.Conv2d(out_channels, out_channels * self.expansion, kernel_size1, stride1, biasFalse) self.bn3 nn.BatchNorm2d(out_channels * self.expansion) self.shortcut nn.Sequential() if stride ! 1 or in_channels ! out_channels * self.expansion: self.shortcut nn.Sequential( nn.Conv2d(in_channels, out_channels * self.expansion, kernel_size1, stridestride, biasFalse), nn.BatchNorm2d(out_channels * self.expansion) ) def forward(self, x): out torch.relu(self.bn1(self.conv1(x))) # 将特征图分成多个尺度组 split torch.split(out, out.size(1)//self.scales, dim1) out [] out.append(split[0]) for i in range(1, self.scales): if i 1: res self.convs[i-1](split[i]) else: res self.convs[i-1](out[i-1] split[i]) out.append(self.bns[i-1](res)) out torch.cat(out, dim1) out self.bn3(self.conv3(out)) out self.shortcut(x) return torch.relu(out)多尺度特征提取的效果可以通过不同层的感受野可视化来展示。我们可以使用梯度上升法生成最大激活图像def generate_max_activation_images(model, layer_name, input_size(224,224), lr0.1, steps30): model.eval() for param in model.parameters(): param.requires_grad False # 获取目标层 layer dict([*model.named_modules()])[layer_name] activations [] def hook(module, input, output): activations.append(output) handle layer.register_forward_hook(hook) # 生成每个通道的最大激活图像 images [] for channel in range(layer.out_channels): img torch.randn(1, 3, *input_size).requires_grad_(True) optimizer torch.optim.Adam([img], lrlr) for step in range(steps): optimizer.zero_grad() model(img) loss -activations[-1][0, channel].mean() loss.backward() optimizer.step() # 图像正则化 img.data torch.clamp(img.data, -2, 2) images.append(img.detach().squeeze().permute(1,2,0).cpu().numpy()) activations.clear() handle.remove() return images4. ResNeXt的分组卷积实现ResNeXt通过分组卷积Group Convolution在保持计算量的同时增加了网络的宽度。下面是其核心模块的实现class ResNeXtBlock(nn.Module): expansion 2 def __init__(self, in_channels, out_channels, stride1, cardinality32): super().__init__() self.cardinality cardinality width out_channels // self.expansion self.conv1 nn.Conv2d(in_channels, out_channels, kernel_size1, stride1, biasFalse) self.bn1 nn.BatchNorm2d(out_channels) # 分组卷积 self.conv2 nn.Conv2d(out_channels, out_channels, kernel_size3, stridestride, padding1, groupscardinality, biasFalse) self.bn2 nn.BatchNorm2d(out_channels) self.conv3 nn.Conv2d(out_channels, out_channels * self.expansion, kernel_size1, stride1, biasFalse) self.bn3 nn.BatchNorm2d(out_channels * self.expansion) self.shortcut nn.Sequential() if stride ! 1 or in_channels ! out_channels * self.expansion: self.shortcut nn.Sequential( nn.Conv2d(in_channels, out_channels * self.expansion, kernel_size1, stridestride, biasFalse), nn.BatchNorm2d(out_channels * self.expansion) ) def forward(self, x): out torch.relu(self.bn1(self.conv1(x))) out torch.relu(self.bn2(self.conv2(out))) out self.bn3(self.conv3(out)) out self.shortcut(x) return torch.relu(out)分组卷积的关键参数是cardinality基数它决定了分组的数量。实验表明适当增加cardinality可以提高模型性能CardinalityTop-1准确率参数量计算量1 (标准卷积)76.2%25M4G877.1%25M4G3277.6%25M4G6477.5%25M4G5. ResNeSt的注意力融合机制ResNeSt结合了ResNeXt的分组卷积和SKNet的注意力机制形成了更强大的特征提取模块。下面是其核心实现class ResNeStBlock(nn.Module): expansion 4 def __init__(self, in_channels, out_channels, stride1, radix2, cardinality32): super().__init__() self.radix radix self.cardinality cardinality width out_channels * radix // self.expansion self.conv1 nn.Conv2d(in_channels, out_channels * radix, kernel_size1, stride1, biasFalse) self.bn1 nn.BatchNorm2d(out_channels * radix) # 分组卷积 self.conv2 nn.Conv2d(out_channels * radix, out_channels * radix, kernel_size3, stridestride, padding1, groupscardinality * radix, biasFalse) self.bn2 nn.BatchNorm2d(out_channels * radix) # 注意力机制 self.attention nn.Sequential( nn.Conv2d(out_channels, out_channels // radix, kernel_size1), nn.BatchNorm2d(out_channels // radix), nn.ReLU(inplaceTrue), nn.Conv2d(out_channels // radix, out_channels * radix, kernel_size1), nn.Softmax(dim1) ) self.conv3 nn.Conv2d(out_channels, out_channels * self.expansion, kernel_size1, stride1, biasFalse) self.bn3 nn.BatchNorm2d(out_channels * self.expansion) self.shortcut nn.Sequential() if stride ! 1 or in_channels ! out_channels * self.expansion: self.shortcut nn.Sequential( nn.Conv2d(in_channels, out_channels * self.expansion, kernel_size1, stridestride, biasFalse), nn.BatchNorm2d(out_channels * self.expansion) ) def forward(self, x): out torch.relu(self.bn1(self.conv1(x))) # 分组卷积处理 out torch.relu(self.bn2(self.conv2(out))) # 分割特征图用于注意力计算 batch, channels out.shape[:2] out out.view(batch, self.cardinality, self.radix, channels // (self.cardinality * self.radix), *out.shape[2:]) out_gap out.mean(dim[2,3,4,5], keepdimTrue) out_gap out_gap.view(batch, -1, 1, 1) # 计算注意力权重 attention self.attention(out_gap) attention attention.view(batch, self.cardinality, self.radix, -1, 1, 1) # 应用注意力 out (out * attention).sum(dim2) out out.view(batch, -1, *out.shape[4:]) out self.bn3(self.conv3(out)) out self.shortcut(x) return torch.relu(out)为了验证这些改进的有效性我们可以设计一个简单的对比实验def train_and_evaluate(model, train_loader, test_loader, epochs10, lr0.01): device torch.device(cuda if torch.cuda.is_available() else cpu) model model.to(device) criterion nn.CrossEntropyLoss() optimizer torch.optim.SGD(model.parameters(), lrlr, momentum0.9) scheduler torch.optim.lr_scheduler.StepLR(optimizer, step_size30, gamma0.1) train_losses, test_accs [], [] for epoch in range(epochs): model.train() running_loss 0.0 for inputs, labels in train_loader: inputs, labels inputs.to(device), labels.to(device) optimizer.zero_grad() outputs model(inputs) loss criterion(outputs, labels) loss.backward() optimizer.step() running_loss loss.item() scheduler.step() train_loss running_loss / len(train_loader) train_losses.append(train_loss) model.eval() correct 0 total 0 with torch.no_grad(): for inputs, labels in test_loader: inputs, labels inputs.to(device), labels.to(device) outputs model(inputs) _, predicted torch.max(outputs.data, 1) total labels.size(0) correct (predicted labels).sum().item() test_acc 100 * correct / total test_accs.append(test_acc) print(fEpoch {epoch1}/{epochs} - Loss: {train_loss:.4f}, Acc: {test_acc:.2f}%) return train_losses, test_accs实验结果显示从ResNet到ResNeSt的逐步改进确实带来了性能提升模型变体CIFAR-10准确率训练时间(秒/epoch)ResNet-5092.3%45ResNet-B92.8%46Res2Net93.5%52ResNeXt93.7%55ResNeSt94.2%60

Waveshare RP2040-GEEK开发板全解析与实战应用

1. 初识Waveshare RP2040-GEEK开发板第一次拿到Waveshare RP2040-GEEK时，我差点以为这是个U盘——白色塑料外壳配上标准USB-A接口，尺寸只有61259毫米，重量仅15克。但掀开保护盖后，那块1.14英寸的彩色IPS屏幕立刻暴露了它的真实身份…...

2026/5/27 0:33:07 阅读更多 →

Halcon 3D视觉入门：用gen_plane_object_model_3d创建“虚拟检测平面”的5种场景

Halcon 3D视觉实战：虚拟检测平面的五大工业应用场景解析在工业自动化检测领域，3D视觉技术正逐渐成为质量控制的"火眼金睛"。而作为3D视觉系统中最基础却最关键的要素——基准平面，其重要性往往被初学者低估。想象一下，…...

2026/5/27 6:36:24 阅读更多 →

LYCRA®抗静电纤维亮相Techtextil展，为工装和个人防护用品提供先进的舒适性和安全性

The LYCRA Company（莱卡公司，全球领先的服装行业用纤维和技术解决方案提供商）今天宣布在全球发布用于工装和个人防护用品的LYCRA抗静电纤维。发布会于2026年4月21日至26日在德国法兰克福举行的Techtextil（国际产业用纺织品及非织造…...

2026/6/7 11:16:48 阅读更多 →

如何用Rust构建高效小说下载器：Tomato-Novel-Downloader技术深度解析

如何用Rust构建高效小说下载器：Tomato-Novel-Downloader技术深度解析【免费下载链接】Tomato-Novel-Downloader 番茄小说下载器不精简版项目地址: https://gitcode.com/gh_mirrors/to/Tomato-Novel-Downloader 在数字阅读时代，如何高效管理和离…...

2026/6/9 17:00:49 阅读更多 →

Windows与Office激活难题的终极解决方案：KMS_VL_ALL_AIO完全指南

Windows与Office激活难题的终极解决方案：KMS_VL_ALL_AIO完全指南【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为Windows系统激活失败而烦恼吗？每次重装系统后都要…...

2026/6/10 7:46:40 阅读更多 →