小傅在分析

2019-09-16 14:59 门头沟学院数据分析师

关注

mingancijishu

'''
    -*- conding: utf-8 -*-
    统计生产数据中的话术中各敏感词出现的频率。
'''


import pandas as pd
from functools import cmp_to_key
from datetime import datetime
from tqdm import tqdm


starttime = datetime.now()
infile1 = "./input/input1/" + "生产数据.xlsx"
infile2 = "./input/input1/" + "敏感词.xlsx"
outfile = "./output/output1/" + "统计结果.xlsx"

df1 = pd.read_excel(infile1)
df2 = pd.read_excel(infile2).set_index('user_say')
print("\n数据读取完成")

def compare(a, b):
    if len(a) > len(b):
        return 1
    elif len(a) < len(b):
        return -1
    else:
        return 0

grouped = df1.groupby('匹配扩展问')
df_out = pd.DataFrame()
for user_say2, data in tqdm(grouped):
    new_row = [user_say2]
    sensitive_words = df2.loc[user_say2].dropna()
    sensitive_words = sensitive_words.tolist()
    sensitive_words.sort(key=cmp_to_key(compare), reverse=True)
    for word in sensitive_words:
        count = 0
        for i in range(len(data)):
            user_say1 = data.iloc[i]['会话内容']
            if word in user_say1:
                count += 1
                user_say1 = user_say1.replace(word, '')
                data.iloc[i]['会话内容'] = user_say1
        new_row.append(word)
        new_row.append(str(count))
    new_row = pd.DataFrame([new_row])
    df_out = df_out.append(new_row)
print("\n敏感词统计完成")

df_out.reset_index(drop=True, inplace=True)
df_out.to_excel(outfile)
print("\n用时：", datetime.now() - starttime)

全部评论

推荐最新楼层

05-01 22:38

门头沟学院 Unity3D客户端

26届游戏开发暑期实习总结

在牛客上收益良多，决定反馈社区。从3.10开始投递，到五一前结束战斗。个人背景：双非本硕，多个jam的demo，21年有一次小厂实习，项目也是多年前的老项目。为了防止翻车三月份准备了新的系统。方向：游戏客户端开发总结简历挂：快手游戏（先笔试后筛简历）、完美世界、funplus、莉莉丝、鹰角笔试挂：吉比特一面挂：腾讯光子hr面挂：网易互娱oc：灵犀互娱（一二面面试官真的会打开我博客去看，好感拉满）泡池子：巨人网络（简历泡）、米哈游（笔试后泡）投的比较少，共投11家，总共笔试5次、面试7次（🐖3+🦏3+🐧1），oc1家。面试经验个人感觉实习的难度并没有秋招春招高（虽然我没正式参加过秋招春招）...

实习进度记录游戏求职进展汇总

点赞评论收藏

分享

05-05 16:25

门头沟学院 Java

度小满暑期实习timeline

岗位是云原生相关的，两轮面试感觉答得一般，好在出的hard手撕都写出来了1. 4/17 一面MySQL的InnoDB引擎；怎么保证原子性；两个insert之间互斥吗；update呢B+树对比B树的优势说一下java的集合；ArrayList和LinkedList的区别然后而 list 它在整个扩容的过程中，就是整个扩容的过程中如果有其他线程来读的话，那这个时候读的是老数组还是新数组？linkedlist怎么支持下标查询的；链表是双向的还是单向的sql题目：每门课人数手撕：数组最大K，得手写堆；两个数组中位数反问：实习生负责内容2. 4/22 二面自我介绍介绍一个有难度的项目为什么用netty做...

查看23道真题和解析

点赞评论收藏

分享

04-17 10:16

门头沟学院 Java

哎，不想说什么了这让刚毕业的学生怎么搞

不河狸啊：为什么我的是已送达，连已读都没有

点赞评论收藏

分享

04-13 14:13

四川轻化工大学测试工程师

找到实习就改名4月17日下午更改：1600一个月？

点赞评论收藏

分享

昨天 16:16

曼伦商贸_销售练习生(准入职员工)

腾讯内推-腾讯内推码

真实实习体验纯手码莫抄袭1.首先就是上下班不打卡 很人性化！但实习生的刷卡过闸时间上级都是看得到的噢 最好不要太晚到 我一般是10点到10:30之间到工位。 2. 食堂真的很好吃，肉眼可见地圆了。每天中午十几个档口简直选择困难症地狱。 3. 同事们都非常nice，因为是全组唯一一个实习生/女生，大家都非常照顾我！而且mt还会各种请吃的喝的～ 4. 加班情况还是有的，不过8点之前我们部门几乎很少撤退的，之前运动完9点多回来加班发现还没人走大家真的非常努力。 5.逐渐深入项目之后会遇到一些棘手的情况！mentor比较喜欢主动提问的实习生，不会的想不出来解决办法最好不要绕来绕去浪费时间。可以多看看m...

腾讯公司福利 648人发布

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 商战，最累的是我们 #

3633次浏览 21人参与

# 租房找室友 #

19578次浏览 117人参与

# 职场新人生存指南 #

310662次浏览 6427人参与

# 你上一次加班是什么时候？ #

56038次浏览 383人参与

# 携程求职进展汇总 #

471287次浏览 3466人参与

# 深信服求职进展汇总 #

183086次浏览 1673人参与

# 学历or实习经历，哪个更重要 #

104766次浏览 723人参与

# 机械人选offer，最看重什么？ #

86795次浏览 537人参与

# 秋招想进国企该如何准备 #

53132次浏览 353人参与

# 哪些公司面试官让你印象深刻？ #

254485次浏览 2676人参与

# 2023届毁约公司名单 #

187048次浏览 935人参与

# 得物求职进展汇总 #

89863次浏览 791人参与

# 和牛牛一起刷题打卡 #

276899次浏览 6451人参与

# 大疆求职进展汇总 #

482917次浏览 3199人参与

# 查收我的offer竞争力报告 #

172302次浏览 1023人参与

# 如果可以，你希望哪个公司来捞你 #

74401次浏览 323人参与

# 产品面经 #

170804次浏览 1895人参与

# 通信硬件公司评价 #

123139次浏览 405人参与

# 实习要如何选择和准备？ #

64943次浏览 1058人参与

# 秋招最大的收获是什么？ #

26562次浏览 275人参与

牛客网
牛客企业服务