决战2022届秋招：TCP 协议一百问

版权声明：本文为博主原创文章，遵循 CC 4.0 by-sa 版权协议，转载请附上原文出处链接和本声明。
本文链接：https://blog.csdn.net/yanglingwell/article/details/99685979
————————————————

号外~ 号外~

字节跳动 2022 届校招提前批开始啦~

如何加入我们：

字节跳动校招内推码: UQAYUMY
投递链接: https://jobs.toutiao.com/s/eGx5Pv4

或直接发送简历到邮件：yangling.leo@bytedance.com

我们是谁：

字节跳动基础架构团队主要负责公司私有云建设，支撑着今日头条、抖音、西瓜视频等多款明星产品。

我们积极拥抱开源和创新的软硬件架构，构建一系列基础设施引导研发活动的最佳实践，为整个公司的发展保驾护航。

我们在找谁：

2022届获得本科及以上学历，计算机相关专业

热爱计算机科学和互联网技术

掌握扎实的计算机基础知识，深入理解数据结构、算法和操作系统知识

TCP 协议一百问

一、为什么大家常说 “TCP 协议是面向连接的，面向字节流的，可依赖的协议”？

面向连接的(connection-oriented)协议：应用程序使用 TCP 协议进行数据交换前，需要先与对端建立 TCP 连接。

我认为，所谓 TCP 连接，就是建立连接的双方知道对端的基本信息并且确认对端能够顺利地进行数据交换。
面向字节流的(byte stream) 协议：TCP 协议不知道上层发送数据的格式或类型，对它而言，所有待发送的数据都只是一串字节流，没有起点和终点。
可依赖的(reliable)协议：TCP 协议通过以下手段来实现数据交换的可依赖：
（1）应用程序发送的根据网络环境切割成合适大小的 数据段(Segment)。如果接收方发现数据有误，只需要丢弃一个数据段的数据，降低重传成本。
（2）通过 TCP 协议发送数据之后，会等待对端发送确认信息(ACK)，以保证对端已正确接收数据。
（3）TCP 协议维护有 重传计时器（retransmission timer），指定时间内没有收到对端的确认信息，TCP 就会认为该数据段已经丢失。然后，它会重新发送该数据。
（4）TCP 数据段的 校验和(checksum) 字段能从一定程度上保证当前数据段的正确性。
（5）在 TCP 数据段 序列号(sequence number) 的帮助下，TCP 协议能够处理乱序到达的数据。
（6）TCP 协议会丢弃接收到 重复数据(duplicate data)。
（7）TCP 协议提供了详细的 流量控制(flow control) 方式。

简单总结就是：分段发送、确认和重传机制、数据段的正确性校验、乱序数据和重复数据的处理以及流量控制。

二、为什么 TCP 协议首部没有数据段总长度字段，而 UDP 协议和 IP 协议有数据报和数据包总长度的字段？

IP 协议 依赖的下层协议，如 以太网(Ethernet) 协议，可能有最小 帧(frame) 的要求，如果 IP 数据包(packet) 的长度小于最小帧长度，就会填充无意义的数据。因此 IP 数据包的长度不能复用 数据链路层(data link layer) 的数据帧长度，需要数据包首部有长度字段。
参考文献[1] 说 UDP 协议 的长度字段是多余的，因为它的 数据报(datagram) 长度是可以由 IP 协议的长度字段计算得出。
我觉得由于 UDP 协议 是 面向事务(transaction oriented) 的，因此它需要将自己的长度保存在首部，方便将可能被拆散的数据还原原本的数据报（毕竟谁也不能保证传输层协议一定总是 IP 协议）。

The UDP Length field is redundant; the IP header contains the datagram’s total length. — 参考文献[1]
由于 TCP 协议是面向数据流的，因此可以不用担心一个数据段由于传输原因被拆分成几个数据段的问题。

后续几个问题都会涉及到关于 TCP 首部(header) 的问题，因此先在此处贴上 TCP 首部的内容(下图出自参考文献[2])：

三、URG 标识位和 Urgent Pointer 只能标识紧急数据的结束位置，那么接收端是怎么指定紧急数据的起始位置呢？

答案是它并不知道，也不需要知道。

There is no way to specify where the urgent data starts in the data stream. — 参考文献[1]
由于 TCP 协议是面向字节流的，因此我们想要快速接收紧急数据，必须先将非紧急数据之前的数据都确认接收才行。
所以 TCP 协议并不在乎紧急数据的起点在哪里，它会认为 Urgent Pointer 之前的数据都是紧急的。
TCP 接收到 URG 数据段之后，就会将当前状态设为 紧急模式(urgent mode), 在 (Sequence Number Urgent Pointer) 之前的数据都会被认为是紧急数据处理（包括 Sequence Number 之前还未到达的数据）。
紧急数据被处理完之后，TCP 会恢复 普通模式(normal mode) 处理后续到达的数据。
题外话：处于紧急模式下的接收端收到新的 URG 数据段，会将紧急数据的结束位置更新。

If the urgent pointer is updated while the user is in "urgent mode", the update will be invisible to the user. — 参考文献[2]

四、URG 标识位和 PSH 标识位的区别是什么？

应用程序通过设置 PSH 标识位来通知 TCP，这些数据需要尽快被发送。对端收到带有 PSH 位的数据段后，会立即将接收到的所有数据发送到应用层。

It(PSH) is a notification from the sender to receiver for the receiver to pass all the data that it has to the receiving process. — 参考文献[1]
URG 标识位通知对端需要进入紧急模式，优先读取Urgent Pointer 之前的数据(PSH 则没有优先的这层意思，它只是告诉对端：“我发送的数据告一段落，你可以先将前面的数据推给应用层了”)。

五、为什么 SYN 和 FIN 标识位需要的空数据段需要消耗一个序列号，而 ACK 和 RST 的空数据段则不需要？

因为 SYN 数据段和 FIN 数据段需要被确认(ACK)，而 ACK 和 RST 数据段不需要。需要确认的数据段至少需要消耗一个序列号，以便能够确认对端接收到了该数据。

决战2022届秋招：TCP 协议一百问

决战2022届秋招：TCP 协议一百问

TCP 协议一百问

一、为什么大家常说 “TCP 协议是面向连接的，面向字节流的，可依赖的协议”？

二、为什么 TCP 协议首部没有数据段总长度字段，而 UDP 协议和 IP 协议有数据报和数据包总长度的字段？

三、URG 标识位和 Urgent Pointer 只能标识紧急数据的结束位置，那么接收端是怎么指定紧急数据的起始位置呢？

四、URG 标识位和 PSH 标识位的区别是什么？

五、 为什么 SYN 和 FIN 标识位需要的空数据段需要消耗一个序列号，而 ACK 和 RST 的空数据段则不需要？

六、FIN_WAIT_2 被称为 Half-Close 。如果在该状态下，对端故意一直不发送 FIN 结束连接，是不是本端永远无法结束该状态？

七、TIME_WAIT 状态下接收到对端发送的数据，会做怎样的处理？

八、TIME_WAIT 状态为什么需要等待 2MSL？

九、什么是 Half-Open 连接？如何识别和处理 Half-Open 的连接？(如果对端的电脑崩溃，已建立的连接会一直保持吗？)

十、Half-Open 连接和 Half-Close 连接的区别是什么？

十一、我们知道 TCP 的流量控制(包括拥塞控制)的算法很多，请简述各种算法是为了解决什么样的问题。

十二、为什么说 Nagle 算法和延迟确认算法一起使用会影响网络性能？

十三、慢启动算法是在每一次接收到 ACK 数据段后，cwnd 增加 1，可为什么总是说慢启动的 cwnd 的增长是指数级的？

参考文献

全站热榜

五、为什么 SYN 和 FIN 标识位需要的空数据段需要消耗一个序列号，而 ACK 和 RST 的空数据段则不需要？