2022-02-18 22:19 吉林大学自动化

关注

用PyTorch实现GRU网络的三个层次

通过GRU层实现

通过PyTorch提供的集成好的GRU层进行实现，简单快捷，但丧失了一些灵活性。

class GRUModel(nn.Module): def __init__(self, input_num, hidden_num, output_num): super(GRUModel, self).__init__() self.hidden_size = hidden_num # 这里设置了 batch_first=True, 所以应该 inputs = inputs.view(inputs.shape[0], -1, inputs.shape[1]) # 针对时间序列预测问题，相当于将时间步（seq_len）设置为 1。 self.GRU_layer = nn.GRU(input_size=input_num, hidden_size=hidden_num, batch_first=True) self.output_linear = nn.Linear(hidden_num, output_num) self.hidden = None def forward(self, x): # h_n of shape (num_layers * num_directions, batch, hidden_size) # 这里不用显式地传入隐层状态 self.hidden x, self.hidden = self.GRU_layer(x) x = self.output_linear(x) return x, self.hidden

通过GRUCell实现

这种实现方法与方法一的不同之处主要有两点：

GRUCell需要显式地传入隐藏层状态。
方法一当中GRU层要求输入数据(x)具有三个维度，即(seq_len, batch, input_size)，分别代表序列长度/时间步、batch size、输入特征维数；而GRUCell的输入形状则和一般的神经网络相同，为(batch, input_size)。

class GRUModel(nn.Module): def __init__(self, input_num, hidden_num, output_num): super(GRUModel, self).__init__() self.hidden_size = hidden_num self.grucell = nn.GRUCell(input_num, hidden_num) self.out_linear = nn.Linear(hidden_num, output_num) def forward(self, x, hid): if hid is None: hid = torch.randn(x.shape[0], self.hidden_size) next_hid = self.grucell(x, hid) # 需要传入隐藏层状态 y = self.out_linear(next_hid) return y, next_hid.detach() # detach()和detach_()都可以使用

这里需要对forward() 函数的第二个返回值 next_hid.detach()做一些说明。首先看一下PyTorch官方文档当中对于detach()和detach_()方法的介绍，

detach():
Returns a new Tensor, detached from the current graph. The result will never require gradient.

detach_():
Detaches the Tensor from the graph that created it, making it a leaf. Views cannot be detached in-place.

这两种方法有一个相似的作用，就是将张量从创造它的计算图当中分离出来。下图是一个在不对返回值中隐层状态进行detach()操作时GRU网络计算过程的示意图。

从图中可以比较清晰地看出，不同于X是在每一步前向传播（图中黑线）开始时由外部提供的（称为计算图的一个叶子），隐层状态H是通过上一步的前向传播产生的。在这种情况下，在进行反向传播时，梯度计算就会一直追溯到该网络的初始状态

和

。而正确的情况应当是反向传播过程到达上一隐藏层状态H后即停止，将H和X同等地作为叶子节点。如下图所示。

通过自定义Cell实现

GRUCell的内部实际上是实现了以下计算过程：

所以我们可以通过自定义的方式来实现GRUCell，并根据自己的想法来定义新的循环网络单元。

class GRUCell(nn.Module): """自定义GRUCell""" def __init__(self, input_size, hidden_size): super(TestGRUCell, self).__init__() # 输入变量的线性变换过程是 x @ W.T + b (@代表矩阵乘法， .T代表矩阵转置)  # in2hid_w 的原始形状应是 (hidden_size, input_size), 为了编程的方便, 这里改成(input_size, hidden_size) lb, ub = -sqrt(1/hidden_size), sqrt(1/hidden_size) self.in2hid_w = nn.ParameterList([self.__init(lb, ub, input_size, hidden_size) for _ in range(3)]) self.hid2hid_w = nn.ParameterList([self.__init(lb, ub, hidden_size, hidden_size) for _ in range(3)]) self.in2hid_b = nn.ParameterList([self.__init(lb, ub, hidden_size) for _ in range(3)]) self.hid2hid_b = nn.ParameterList([self.__init(lb, ub, hidden_size) for _ in range(3)]) @staticmethod def __init(low, upper, dim1, dim2=None): if dim2 is None: return nn.Parameter(torch.rand(dim1) * (upper - low) + low) # 按照官方的初始化方法来初始化网络参数 else: return nn.Parameter(torch.rand(dim1, dim2) * (upper - low) + low) def forward(self, x, hid): r = torch.sigmoid(torch.mm(x, self.in2hid_w[0]) + self.in2hid_b[0] + torch.mm(hid, self.hid2hid_w[0]) + self.hid2hid_b[0]) z = torch.sigmoid(torch.mm(x, self.in2hid_w[1]) + self.in2hid_b[1] + torch.mm(hid, self.hid2hid_w[1]) + self.hid2hid_b[1]) n = torch.tanh(torch.mm(x, self.in2hid_w[2]) + self.in2hid_b[2] + torch.mul(r, (torch.mm(hid, self.hid2hid_w[2]) + self.hid2hid_b[2]))) next_hid = torch.mul((1 - z), n) + torch.mul(z, hid) return next_hid

定义好GRUCell后，结合方法二就可以定义出GRU网络了。

全部评论

推荐最新楼层

辽宁大学运营

感谢楼主分享！！！

点赞回复分享

发布于 2022-02-22 12:49

04-01 15:06

已编辑

湖南大学 Java

Boss直聘java二面社招（两年）

1、简单自我介绍2、项目介绍，你认为项目最能体现你技术的一块是哪部分，详细讲讲3、在原公司的分工以及团队4、分库分表，分表的时候怎么保证业务不受影响 答：（这个不会，直接照抄的另一位老哥的面经答案）全量迁移+增量监听+双写+灰度切读。 ps：面试官应该不是很满意5、对服务做过哪些优化 答：在数据库查询时做优化，尽量避免多表查询、避免select*、in和exists的区别等。6、怎么设计表来避免你说的那些问题 没答上来7、你认为spring boot 有什么优点，解决了你哪些问题，如果没有spring boot你的问题如何解决 答：解决了依赖管理和配置管理的问题，可以让我们简化依赖和配置管理，...

查看9道真题和解析

点赞评论收藏

分享

03-31 00:18

广西大学算法工程师

小鹏大模型算法一面

1. 介绍一下你做的这个项目2. LoRA 的基本原理是什么LoRA 的核心思路是，微调大模型时没有必要把整个权重矩阵都更新掉，而是只学习一个低秩的增量。原始权重记作 (W)，微调后的权重写成：其中 (A) 和 (B) 的秩都很低，参数量远小于直接更新整个 (W)。训练时冻结原模型参数，只训练这两个小矩阵，这样显存占用、优化器状态和保存体积都会小很多。它适合做领域适配、指令微调这类任务，因为很多任务对模型的改动并不需要覆盖完整参数空间。LoRA 常见会插在 attention 的 q_proj、v_proj 上，有时也会加在 k_proj、o_proj 或 MLP 层。选哪些层，本质上是在表达...

AI-Agent面试实战...

点赞评论收藏

分享

03-31 17:43

重庆大学 Java

java后端改简历

有什么需要改的吗

点赞评论收藏

分享

03-31 10:53

蚌埠坦克学院嵌入式软件开发

星星充电嵌入式软件开发一面面经

1. 自我介绍，说说你的项目经历和技术方向。答：按"背景 → 技术栈 → 代表项目 → 求职意向"四段走，控制在2分钟星星充电是充电桩方向，如果有IoT、通信协议、嵌入式Linux相关经验要重点提结尾说一句为什么对充电桩/新能源方向感兴趣，体现你做过功课2. 你的项目有没有实际落地，落地过程中遇到了哪些和开发阶段不一样的问题？答：考察项目真实性和工程化思维，不是考你功能实现了多少落地和开发的典型差异：实验室环境和真实环境的差异（电磁干扰、温度、电源质量）、用户使用方式和预期不一致、硬件批次差异导致的兼容性问题如果项目没有落地，要说清楚做到了哪个阶段，测试验证了哪些场景，不要...

嵌入式面试八股文全集

点赞评论收藏

分享

评论

点赞

收藏

招聘动态

蚂蚁集团

2026春季校园招聘

阿里巴巴集团

2027届实习生校园招聘

正浩创新EcoFlow

2026届春季校园招聘

AI网申助手

网申字段一键填写

招商银行数字金融训练营

火热报名中

新华三

2026届春季校园招聘

联想

27届暑期实习

厦门银行

2026届春季校园招聘

联想

26届补录

携程集团

2026年春季校园招聘

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 学历VS实习，哪个更重要？ #

3567次浏览 74人参与

# AI替代不了什么？ #

730次浏览 25人参与

# 厦门银行科技岗值不值得投 #

16312次浏览 359人参与

# 烂工作和没工作哪个更痛苦？ #

593次浏览 19人参与

# uu们，春招你还来吗？ #

67113次浏览 851人参与

# 面试中，你被问过哪些奇葩问题？ #

98386次浏览 1368人参与

# 春招至今，你收到几个面试了？ #

2973次浏览 17人参与

# 一人分享一道面试手撕题 #

112093次浏览 2677人参与

# 工作上你捅过哪些篓子？ #

68711次浏览 318人参与

# 发工资后，你做的第一件事是什么 #

99910次浏览 320人参与

# 面试紧张时你会有什么表现？ #

35119次浏览 230人参与

# 关于春招你都做了哪些准备？ #

145538次浏览 768人参与

# 牛油的搬砖plog #

188791次浏览 1254人参与

# 90后北漂现状 #

36242次浏览 214人参与

# 面试被问到不会的问题，你怎么应对？ #

28693次浏览 748人参与

# 你的实习什么时候入职 #

367607次浏览 2362人参与

# 网申一定要掌握的小技巧 #

20675次浏览 87人参与

# 你都用vibe coding做过什么？ #

25076次浏览 949人参与

# 牛友的志愿填报指南 #

63421次浏览 487人参与

# 哔哩哔哩笔试 #

35414次浏览 143人参与

# 分享一个让你热爱工作的瞬间 #

67478次浏览 500人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务