虾皮后端开发面经（已offer）

时间点如下：6.17投递 -> 6.30一面 -> 7.15二面 -> 7.29 hr面 -> 8.5口头 -> 8.9 offer，整体来讲流程比较长，因为候选人很多，估计是备胎转正的。

一点思考

shopee比较重视大厂经验，有大厂经验是比较重要的敲门砖了。另外，一面也会出算法题，但是比较常见，********多刷刷常见题就行。语言不是很重要，因为shopee主要用的是go，所以java八股文问的不是很多，主要还是问一些操作系统、数据库、网络基础。另外，社招的话，比较讲究系统设计和架构经验，平时多多思考即可应付。

今年找工作十分不易，市场候选人很多，希望这篇面经能帮到大家～

shopee一面（6.30 11:00）

一面面试官感觉比较年轻，问的都是基础，包括操作系统、数据库、网络等，算法题不难，********上常见题。

cpu load比较高，怎么排查？
jstack是怎么实现的
io多路复用如何实现？select和epoll有什么区别？
volatile有什么用，内存屏障怎么实现的。

内存屏障本质上是一系列cpu指令。内存屏障是硬件层的概念。语义上，内存屏障之前的所有写操作都要写入内存；内存屏障之后的读操作都可以获得同步屏障之前的写操作的结果。因此，对于敏感的程序块，写操作之后、读操作之前可以插入内存屏障。
https://zhuanlan.zhihu.com/p/125737864
https://zh.wikipedia.org/zh-cn/%E5%86%85%E5%AD%98%E5%B1%8F%E9%9A%9C
https://www.jianshu.com/p/2ab5e3d7e510

给定一个n，输出所有可能合法的n个括号对，构成的字符串

******************************************************
zero copy怎么实现的？

写数据到磁盘时，调用mmap，内存映射到磁盘；读数据时，sendFile，从磁盘直接读取到网卡缓存。

流程回滚（异常处理）机制怎么实现的？

节点粒度级别，多个组件进行回滚。
tcp粘包是什么原因，如何解决？
如何实现无锁的递增计数器，用CAS，CAS有什么问题，竞争激烈了（线程比较多，并发比较大），怎么解决？

锁升级。
有一个很大的文件，如何快速找到前n个出现次数最多的单词
给你a/b/c三个字段，一般怎么建立索引，索引（a,b,c)，是否可以使用c作为索引，mysql innodb是否可以用b树

慢查询怎么发现，怎么排查，怎么优化
kafka批量消费，如果消费过长，会导致消费超时，触发rebalance吧？

调大session timeout，而且消费逻辑很快的，sessionTimeou和pollTimeout有什么区别，哪个会出发rebalance，如何设置？

shopee二面（7.15 14:00）

二面是个leader，设计题比较多，感觉是比较重视根据已有经验进行设计。

LRU cache怎么实现？get()/put()复杂度如何？如何实现过期？如何避免过期遍历所有？

过期数据使用小根堆？或者时间轮
看下时间轮如何取消任务的？是立即取消还是延期取消？？
guava cache是如何实现过期的？

RTC如何实现的？如何实现调度的？
有一批帖子，会根据类别搜索，但是现在是单独一个表，现在查询非常慢，如何提高搜索性能？

根据类别分库分表，库可以放到不同的实例上，经常查询的不变的数据可以放到缓存里。
数据有更新时，需要刷新下缓存
因为分表后，只能是固定类别，所以需要根据类别去分开查找。
如果还有另一个重要的字段也需要查，可以再建一个分表，user-ses/ses-user就是这么做的，但是冗余就比较大了。。。

如果有多个表，进行聚合查询，如何解决深分页的问题，

就是保存每个节点的表id给前端，前端查询时把id返回过来了，然后加到SQL里，但是不一定准。这里回答的是单个表吧。。
分表的数据，动态增加一张表，不停服如何实现？

分区策略使用一致性哈希
然后新表的数据，查询的时候，先查老的，再插入新的。如果老数据没有动，需要有对应的迁移服务进行定时迁移。插入的时候优先插入到新的表。
迁移线程和用户线程同时执行，会有数据库不一致的问题，怎么解决？

加分布式锁
分布式锁如何实现？redission怎么实现的？lua脚本
如果有多个字段进行查询呢？任意维度检索。

使用ES构建索引。基于binlog进行构建索引。
如何保证数据库和ES数据的一致性

定期查询数据库，校准ES。一种是写入重试。
数据库为什么用B+树？而不用哈希

利用磁盘的特性，方便范围查询多条数据，一般一个节点是一个磁盘块的倍数，例如mysql innodb是16KB
https://mp.weixin.qq.com/s/FAZanRX22g4OB1S4d_ZCzQ
那把相邻的磁盘块放到一起就可以了？

还需要分层次，保证查找是log(n)，快速定位到头和尾，而不是遍历所有磁盘块。
NEWSQL，例如tidb、leveldb、hbase使用LSM树，有了解过为什么吗？

http://www.codebaoku.com/eth/eth-lsm.html
https://zhuanlan.zhihu.com/p/53299778
日志策略（顺序读写，只追加不修改），写性能会好很多。

LSM写操作（插入、更新、删除，直接在c0树进行操作，非常块），读操作，从内存开始读，最差可能要读到ck树（磁盘上）

当数据访问以写操作为主，而读操作则集中在最近写入的数据上时，使用LSM树可以极大程度地减少磁盘的访问次数，加快访问速度。

数据首先会插入内存中的树。当内存树的数据量超过设定阈值后，会进行合并操作。合并操作会从左至右便利内存中树的子节点与磁盘中树的子节点并进行合并，会用最新更新的数据覆盖旧的数据（或者记录为不同版本）。当被合并合并数据量达到磁盘的存储页大小时。会将合并后的数据持久化到磁盘，同时更新父节点对子节点的指针。

数据分片的方案非常多，可以像 Codis 那样通过转发代理来分片，也可以像 Redis-Cluster 那样使用客户端转发机制来分片，还可以使用 TiDB 的 Raft 分布式一致性算法来分组管理分片。最简单最易于理解的还是要数 Codis 的转发代理分片。

两个机房，某个机房可能断电，如何做多机房容灾。

负载均衡层，支持切换机房
写数据的时候，中间件（db/redis/es）都要进行双写。
kafka容灾，mirror maker: https://cloud.tencent.com/developer/article/1358933

主从机房同步有什么问题呢？

会有比较大的延迟。
一些分布式的问题，例如分布式事务，可能就执行了几步，然后就挂了，需要有一定的策略，进行回滚或者提交。
切换机房的过程中，可能存在数据丢失，重复数据等

双向同步，两个机房都能写入，如果操作的是各自的数据的话，问题不大。如果操作的是相同数据，必然会有冲突，需要解决。所以上层保证相同数据到同一个机房即可，然后同步到另外一个机房，保证每个机房都有全量的数据。各种中间件都要做改造。
总之，分片的核心思路在于，让同一个用户的相关请求，只在一个机房内完成所有业务「闭环」，不再出现「跨机房」访问。
阿里在实施这种方案时，给它起了个名字，叫做「单元化」。
这里还有一种情况，是无法做数据分片的：全局数据。例如系统配置、商品库存这类需要强一致的数据，这类服务依旧只能采用写主机房，读从机房的方案，不做双活。
双活的重点，是要优先保证「核心」业务先实现双活，并不是「全部」业务实现双活。

https://mp.weixin.qq.com/s/hWCmnsa3rdtMFTE_BSyg2w