AI-Agent 面试题汇总 - 计算机视觉篇(图像分类)
1. GoogleNet 采用了什么结构?Inception V1/V2/V3/V4 的演进是什么?
GoogLeNet 的核心是 Inception 模块:在同一层并行使用不同尺度卷积核(1×1、3×3、5×5)与池化,再拼接输出,提升多尺度特征提取能力。演进思路:
- V1:提出 Inception,1×1 降维减少计算量。
- V2:加入 BatchNorm,训练更稳定。
- V3:卷积分解(如 3×3→1×3+3×1),进一步降算力。
- V4:更深更宽,并结合 Inception-ResNet 思路提升性能。
2. 池化分为哪几种?特点和作用是什么?
常见池化:
- 最大池化(Max Pooling):保留最强响应,突出纹理/边缘。
- 平均池化(Average Pooling):平滑特征,保留整体统计。
- 全局平均池化(GAP):每个通道压成1个值,减少参数、防过拟合。
作用:降采样、减少计算、增强平移不变性、抑制噪声。
import torch.nn as nn max_pool = nn.MaxPool2d(kernel_size=2, stride=2) avg_pool = nn.AvgPool2d(kernel_size=2, stride=2) gap = nn.AdaptiveAvgPool2d((1, 1))
3. 卷积神经网络的组成
典型 CNN 由以下部分构成:
- 卷积层(提取局部特征)
- 激活函数(引入非线性)
- 池化层(降采样)
- 归一化层(稳定训练,如BN)
- 全连接层或分类头(输出类别概率)
import torch.nn as nn
model = nn.Sequential(
nn.Conv2d(3, 32, 3, padding=1),
nn.ReLU(),
nn.MaxPool2d(2),
nn.Conv2d(32, 64, 3, padding=1),
nn.ReLU(),
nn.AdaptiveAvgPool2d((1,1)),
nn.Flatten(),
nn.Linear(64, 10)
)
4. 为什么 CNN 对像素级别的分类很难?
CNN 的高层特征经过多次下采样,空间分辨率降低,细粒度像素位置信息丢失;而像素级分类(如语义分割)需要精确边界定位。因此要结合上采样、跳连(s
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
AI-Agent面试实战专栏 文章被收录于专栏
本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.