啥都不懂的小菜菜

09-09 12:55 中国人民大学 Java 发布于浙江

关注

大一双非新生要学什么，到了大三才好找工作？

本文节选自：https://mp.jobleap4u.com/discover/1757294902564-ji-suan-ji-xi-da-san-xue-sheng-ru-he-ru-men-qiang-hua-xue-xi-ling-yu-xu-yao-zi-xue-li-jie-na-xie-suan-fa

关键词: 强化学习, 深度学习, 马尔可夫决策过程, Q学习, 策略梯度

随着人工智能的快速发展，强化学习（Reinforcement Learning, RL）已成为机器学习领域的重要方向。作为计算机系大三学生，掌握强化学习不仅可以拓宽技术视野，还为未来深度学习应用打下坚实基础。本文将介绍入门强化学习的关键算法、学习路径及相关理论，帮助你系统了解这一领域。

一、强化学习基础概念

1. 什么是强化学习？

强化学习是一种让智能体通过与环境交互，学习最优策略以最大化累积奖励的方法。它强调的是“试错”过程，智能体在不同状态下采取行动，逐步优化行为策略。

2. 核心元素

环境（Environment）：智能体所处的场景。
状态（State）：描述环境当前情况。
动作（Action）：智能体可以采取的行为。
奖励（Reward）：行动后环境反馈的价值。
策略（Policy）：指导智能体在状态下应采取的行动。

二、强化学习的核心模型

1. 马尔可夫决策过程（Markov Decision Process, MDP）

MDP是强化学习的数学基础，它定义了状态空间、动作空间、转移概率和奖励函数。理解MDP是学习RL算法的前提。

2. 值函数与策略

值函数（Value Function）：衡量状态或状态-行动对的价值。
策略（Policy）：决定智能体行为的规则。

三、入门必学的强化学习算法

1. Q学习（Q-Learning）

概述：一种离线学习算法，通过学习动作价值函数Q(s,a)，实现策略优化。
特点：无需模型环境，适合离线训练。
核心公式：[ Q(s, a) \leftarrow Q(s, a) + \alpha \left[ r + \gamma \max_{a'} Q(s', a') - Q(s, a) \right] ]
学习建议：理解Q值更新机制，掌握ε-贪婪策略。

2. 策略梯度（Policy Gradient）

概述：直接优化策略参数，通过梯度上升找到最优策略。
特点：适用于连续动作空间，能处理复杂策略。
常用算法：REINFORCE、Actor-Critic。

3. 深度强化学习（Deep Reinforcement Learning）

结合深度学习与RL，利用神经网络逼近值函数或策略。

代表算法：Deep Q-Network（DQN）、Deep Deterministic Policy Gradient（DDPG）。

四、自学路径建议

1. 理论学习

基础数学：概率论、线性代数、优化算法。
核心概念：MDP、贝尔曼方程、值函数、策略梯度。

#一起聊字节##实习必须要去大厂吗？##最难的技术面是哪家公司？##我的秋招日记##秋招有哪些公司要求提前实习#

jobleapcn每日新机会文章被收录于专栏

每天精选新工作机会，大家可以看一看

全部评论

推荐最新楼层

09-13 10:03

门头沟学院产品经理

字节项目经理一面

一面1.    上来自我介绍，询问确认是中文。（7 分钟）2.    描述一个最近的项目经历，结合该项目的整个流程，去体现项目管理的方法。（撤了挺久，后面好像被该情商回复废话有点多）3.    询问了项目开发过程中，遇到的问题，如何解决的。4.    英文能力测试（麻了，当时紧张的脑子里蹦不出一个英文单词，支支吾吾的 I I I 半天。。。 服了自己），英文问的未来规划和三年计划（感觉好好思考能完美发挥的，难受）。5.    后面支支吾吾半天，面试官让中文回答，然后扯了一下个人的思考和三年规划。...

查看6道真题和解析

点赞评论收藏

分享

08-31 14:53

广东工业大学测试工程师

三子棋练习

点赞评论收藏

分享

09-09 17:58

中国科学技术大学 Java

一面实习经历和项目AI问答助手的数据集如何构建AI评测怎么做的java中，数组和ArrayList的区别介绍一下HashMap垃圾回收时的四种引用介绍一下CAS抽象类和接口的区别重载和重写java内存模型垃圾回收算法synchronized和lock的区别线程池的核心参数设计模式有哪些TCP协议是怎么保证可靠性的在浏览器中输入一个网址，其过程是什么样的缓存穿透和缓存雪崩mysql索引的数据结构当用户的问题和模型的回答占用了很多上下文空间，如何避免agent变傻或受上下文的影响短期记忆和长期记忆的区别以及使用场景做题：32位无符号整型数字，请将其倒序输出，如果溢出，输出0，不能使用64位二面问实...

查看24道真题和解析

点赞评论收藏

分享

09-02 16:56

已编辑

字节跳动_研发(实习员工)

都说实习打杂，可为什么我们部门全是高价值需求??!

哈哈哈哈哈，做个标题党，实际上是因为我们部门缺人，想要招实习生，不过我们部门确实不会打杂，会给实习生很大的权限去做高价值的需求。✨ 来我们组实习，你将收获什么？答应我，千万别觉得实习就是打杂！我们这儿绝对让你深度参与，怒刷经验值！📈- 🤯 亲手操刀亿级流量： 你的代码会直接影响全球亿万用户的体验！什么“双列推荐”、“搜后推”，说白了就是让你刷到的图文更好看、更懂你！这种成就感，谁懂？！- 🧑‍💻 告别打杂，不做螺丝钉： 你会直接参与核心业务，从 0 到 1 参与新功能的设计和开发。脑洞大开的想法？我们欢迎！想搞点事情？我们支持！- 👨‍🏫 大神带飞，成长Max： 组里的大牛多到数不清！来了就有专属 Mentor 一对一带你，从写代码到解决问题，全程保驾护航。技术成长速度绝对起飞！✈️- 💖 团队氛围超Nice： 哥哥姐姐们都超好，氛围轻松到起飞！随时可以battle技术问题，也随时可以一起约饭约游戏。来了就是一家人！---🤔 我们希望你...别紧张！我们不要求你样样精通，只要你：- 💻 基础扎实： 计算机基础知识要牢固呀，至少会一门主流语言 (Python/Go/C++/Java 都可)。- 🔥 有热情，爱学习： 对技术有那么一股子钻研劲儿，愿意主动学习新东西。- 🤝 是个好的 Team Player： 乐于沟通，善于合作，毕竟我们是要一起并肩作战的！---福利待遇？必须拉满！🎉- 💰 业界超有竞争力的实习薪资- ☕️ 下午茶、零食、咖啡无限畅饮- 🏠 房补、免费三餐，帮你省下一大笔钱！- ... 更多隐藏福利等你来解锁！---📮 心动了吗？简历快砸过来！私信我，我给你发内推链接！！！！真的很缺人！！！！

你觉得实习只能是打杂吗？

点赞评论收藏

分享

09-15 10:21

腾讯_后台开发

杀死那个一条腿的人——北漂实录

来到北京的第三个月，我的焦虑与抑郁，比以往任何时候都更加剧烈。人的精神与物质世界，宛若行走世间所不可缺的两条腿。当物质生活稍得安顿，我的精神世界却显出前所未有的贫瘠。“小镇做题家”离开了校园，才逐渐看清绩优主义带来的副作用——几乎令我病入膏肓：持续疲惫、意义感凋零，快乐也成了一种无能。我明白，周围的环境其实并不糟糕，甚至很体面了，问题出在我的内心。许多中式家庭把爱与成绩捆绑在一起，这是一种司空见惯的激励。它确实推着我走到了今天，让我免于忍受日晒风吹的艰辛，却也在我心中埋下一个有毒的信条：“人必须有外在的、可量化的成就，才值得被爱与认可。”回望过去的二十年，我仿佛被环境过度训练出了一身“吃苦”的...

你有哪些缓解焦虑的方法？

点赞评论收藏

分享

评论

点赞

收藏

招聘动态

字节跳动火山引擎

2026校园招聘

新华三

2026秋招校园招聘

厦门银行

2026届秋季校园招聘

滴滴

2026届秋季校招

联想

2026届校园招聘

字节跳动

2026校园招聘

平安产险科技中心

2026届校园招聘

联想

26届AI专项｜内推码NK2026

快手

2026届校园招聘

联想

2026届校园招聘

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 如果秋招能重来，我会____ #

10037次浏览 100人参与

# 苦尽甘来时，再讲来时路 #

9841次浏览 178人参与

# 快手技术岗信息交流阵地 #

12151次浏览 74人参与

# 如果上班像打游戏，你最想解锁什么技能 #

2182次浏览 32人参与

# 我是面试官，请用一句话让我破防 #

1731次浏览 19人参与

# 为了实习逃课值吗？ #

11456次浏览 96人参与

# “vivo”个offer #

18747次浏览 148人参与

# 校招生月薪1W算什么水平 #

2560次浏览 22人参与

# 机械求职避坑tips #

71083次浏览 485人参与

# 一份好的简历长什么样？ #

6267次浏览 168人参与

# 选完offer后，你后悔学机械吗？ #

42786次浏览 249人参与

# 秋招许愿，本周能____ #

13768次浏览 92人参与

# 选择和努力，哪个更重要？ #

134302次浏览 1033人参与

# 班味很重的人是啥样的？ #

3950次浏览 30人参与

# 应届生第一份工资要多少合适 #

3314次浏览 36人参与

# 投递无反馈，如何优化求职策略？ #

2126次浏览 26人参与

# 材料专业可以靠半导体脱坑吗？ #

26641次浏览 138人参与

# 机械制造秋招总结 #

82261次浏览 817人参与

# 大学最后一个寒假，我想…… #

60235次浏览 654人参与

# 职场新人体验 #

119880次浏览 824人参与

# 你觉得实习能学到东西吗 #

114344次浏览 1248人参与

# 新凯来求职进展汇总 #

57800次浏览 150人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务