2020-03-12 14:59 腾讯_数据平台部_算法工程师

关注

spark出租车情况统计

spark udf练习

# -*- coding: UTF-8 -*-
from pyspark.sql import SparkSession
import json
if __name__ == '__main__':
    spark = SparkSession.builder.master("local").appName("demo").getOrCreate()
    #**********begin**********#
    df = spark.read.option("header", True).option("delimiter", "\t").csv("/root/data2.csv")
    # 1 将时间戳转换成时间 ，并将列名重命名为 TIME
    df.createTempView("data")
    spark.sql(
        "select TRIP_ID,CALL_TYPE,ORIGIN_CALL,TAXI_ID,ORIGIN_STAND,from_unixtime(TIMESTAMP,'yyyy-MM-dd') as TIME ,POLYLINE from data").show()
    # 2.1 计算每个行程总时长，以秒为单位，并将其作为新列，列名为 TIMELEN
    # 2.2 分离出起始位置与目的位置作为新列，起始位置列名为 STARTLOCATION，目的位置列名为 ENDLOCATION
    spark.udf.register("timeLen", lambda x: {
        (len(json.loads(x)) - 1) * 15 if len(json.loads(x)) > 0 else 0
    })
    spark.udf.register("startLocation", lambda x: {
        str(json.loads(x)[0]) if len(json.loads(x)) > 0 else ""
    })
    spark.udf.register("endLocation", lambda x: {
        str(json.loads(x)[len(json.loads(x)) - 1]) if len(json.loads(x)) > 0 else ""
    })
    spark.sql(
        "select TRIP_ID,CALL_TYPE,ORIGIN_CALL,TAXI_ID,ORIGIN_STAND,from_unixtime(TIMESTAMP,'yyyy-MM-dd') as TIME ,POLYLINE,timeLen(POLYLINE) as TIMELEN,startLocation(POLYLINE) as STARTLOCATION ,endLocation(POLYLINE) as ENDLOCATION  from data").createTempView(
        "data2")
    spark.sql("select * from data2").show()
    # 3 统计每天各种呼叫类型的数量并以CALL_TYPE,TIME升序排序
    spark.sql("select CALL_TYPE,TIME,count(1) as NUM from data2 group by CALL_TYPE,TIME order by CALL_TYPE,TIME").show()
    #**********end**********#

全部评论

推荐最新楼层

05-12 23:10

门头沟学院测试工程师

cvte 人力资源一面

本来没有合适岗位，随便投了个，叫我去测评一直没做，没想到直接给我过了，邀请面试。是群面，进去除了面试官，2男，5女；没有自我介绍，整场面试总共用时估计15分钟左右。讲述题目：垃圾分类应该教育引导还是法律强制，选一个第一轮：没人1分钟轮流讲述自己的观点第二轮：自由辩论，5分钟；基本是抢答形式，我只答了一次，另外几个人抢得多最后面试官单独问了其中三个女生一个问题，我估计这三个就是过的的人选。总结：5个女生应该都是有备而来，会说官话，感觉是考过公的。另一个男生抢到的话语权比较多，但是情绪波动比较大，期间被面试官打断。我在答题层面话语权太少，没有什么展示机会。算了，本来就没考虑过这个岗位，打不过人家很...

CVTE一面86人在聊

查看1道真题和解析面试问题记录

点赞评论收藏

分享

05-14 16:32

哔哩哔哩_开发工程师(搜索推荐)(准入职员工)

哔哩哔哩内推-哔哩哔哩内推码

啊一切都是命运之门的选择，8年b站老用户没想到能拿到offer,来b站两周了，简单说一下在阿b的感受吧 面试整体很丝滑，4.28hr面—4.29leader面—4.30上午面完晚上就发offer了 我猜是因为之前做过珀莱雅在B站渠道的媒介和综艺《萌探3》的pd，有商务的经验，整体比较匹配岗位所以过的很快 想了解面经的后面会发一个完整的笔记 1️⃣工作氛围：入职后感觉每天都很开心，部门氛围很好，工作也很有成长性。部门都很年轻，会耐心教工作内容，很多S级项目从策划到落地都可以参与，有不懂的及时提问，哥哥姐姐们都很好，每天都感觉进步一点点。 2️⃣工作时间：我们部门是11点上班8点下班，弹性...

点赞评论收藏

分享

04-07 13:16

门头沟学院前端工程师

不打算干前端了这几个月好好的玩一玩 #0offer是寒冬太冷还是我太菜#

0offer是寒冬太冷还是我太菜

点赞评论收藏

分享

05-15 17:23

腾讯_金融科技_后端(准入职员工)

这是招了多少实习生啊，怎么都到沙发上办公了

深夜书店vv：腾讯是这样的，去年很多走廊都加桌子当工区

点赞评论收藏

分享

05-14 21:48

已编辑

哈尔滨工业大学

系统架构：面试官喜欢问什么

本统计结果来源于对 系统架构类面试题中高频关键词的分析，展示了在实际技术面试（尤其是中高级后端开发、架构师、运维工程师等岗位）中考察频率较高的知识点。通过对这些关键词的深入理解，可以帮助你更有针对性地准备系统设计类问题。🔍 一、高频关键词解析（Top 5）📌 1. 分布式锁占比：5.97%（排名第一）说明：分布式锁是分布式系统中最常见的同步机制之一，用于解决多个服务实例之间的资源竞争问题。建议重点掌握内容： 基于 Redis 的实现（SETNX、Redlock）基于 ZooKeeper 的实现（临时节点）锁的续期机制（如 WatchDog）死锁与误删问题的解决方案📌 2. 负载均衡占比：...

30万真题，揭秘面试官最... 面试经验谈面试常问题系列

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 牛油的搬砖plog #

27605次浏览 133人参与

# 这些公司卡简历很严格 #

25919次浏览 105人参与

# 一人一个landing小技巧 #

24442次浏览 471人参与

# 大学最后一个寒假，我想…… #

29175次浏览 281人参与

# 正在实习的你，有转正机会吗？ #

371342次浏览 2861人参与

# 我在牛爱网找对象 #

178758次浏览 1358人参与

# 找工作的破防时刻 #

26407次浏览 408人参与

# 520告白墙 #

19722次浏览 332人参与

# 电网笔面经互助 #

31737次浏览 317人参与

# 数字马力求职进展汇总 #

171889次浏览 1454人参与

# 腾讯音乐求职进展汇总 #

86442次浏览 487人参与

# 为什么那么多公司毁约 #

163640次浏览 1223人参与

# 实习学不到东西怎么办？ #

204023次浏览 2113人参与

# 美的求职进展汇总 #

271338次浏览 1951人参与

# 我发现一个规律 #

3447次浏览 33人参与

# 运营每日一题 #

67746次浏览 650人参与

# 25届秋招公司红黑榜 #

259574次浏览 1089人参与

# 面试被问第一学历差时该怎么回答 #

122902次浏览 766人参与

# 查收我的offer竞争力报告 #

176792次浏览 1071人参与

# 通信硬件知识分享 #

25638次浏览 460人参与

牛客网
牛客企业服务