Vision Transformer 中,输入图像被切成等大的小块(patch),每个 patch 线性映射到 embedding,前面再加一个“分类 token”。已知图像边长 img_size、patch 边长 patch_size、通道数 channels、embedding 维度 embedding_dim。计算并输出 patch embedding 的形状: token_count = (img_size patch_size)² + 1(含分类 token) 输出两列:token_count 和 embedding_dim 说明:保证 img_size 可以被 patch_size 整除;不得使用任何深度学习框架。
输入描述:
一行四个整数:img_size patch_size channels embedding_dim


输出描述:
一行两个整数:token_count embedding_dim
示例1

输入

384 32 3 512

输出

145 512

说明

384/32=12,每边 12 个 patch,共 12×12=144,加上分类 token 得 145,embedding 维度保持 512。
加载中...