首页
题库
面试
求职
学习
竞赛
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
[问答题] 场景: 现有一个非常大的文本文件 page_views.log(远大于内存大小)存储在HDFS上,每行记录是一条网页访问日志,格式为:timestamp, user_id, page_id, action 需求: 统计每个页面的总访问次数(PV),并输出访问次数最高的Top 100页面。 要求: 任选一种大数据框架(如 Spark, Flink, MapReduce) 写出核心代码或伪代码。 简要解释你的实现步骤。
我要答题
回首页
扫描二维码,关注牛客网
意见反馈
下载牛客APP,随时随地刷题