流浪地球影评+词云python

爬去猫眼评论

1、用手机模式,查看评论,找到json链接,并进行分析
http://m.maoyan.com/review/v2/comments.json?movieId=248906&userId=-1&offset=45&limit=15&ts=1549764694911&type=3

offset 表示当前加载位置:从0开始
limit 每次加载15条
ts 当前加载的unix时间

import time
import datetime
import requests
import json
import pandas as pd

headers ={'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1',
          'Connection': 'keep-alive'}
cookies = {'Cookie':'_lx_utm=utm_source%3DBaidu%26utm_medium%3Dorganic; _lxsdk_cuid=168d514e681c8-021028248d570e8-4c312e7e-e1000-168d514e682c8; _lxsdk_s=168d514e682-8e5-057-19e%7C%7C99; _lxsdk=8EC724B02CD611E9825429306E395B52452326EC7C5F4B70A0E6A79F33450C9E; __mta=119831223.1549763143337.1549764335344.1549764338641.4; uuid_n_v=v1; iuuid=8EC724B02CD611E9825429306E395B52452326EC7C5F4B70A0E6A79F33450C9E; ci=129%2C%E5%A4%A7%E5%90%8C'}
url = 'http://m.maoyan.com/review/v2/comments.json?movieId=248906&userId=-1&offset=0&limit=15&ts={}&type=3'
#爬去字段
comment=[]
nick =[]
gender=[]
score=[]
comment_time = []
userLevel=[]#用户等级
userId=[]#用户id
upCount=[]#点赞数
replyCount=[]#评论数
ji = 1

#当前时间unix戳  ms
url_time = int(time.time())*1000
for i in range(1000):
    value = 15*i
    url_range=url.format(url_time)#字符串格式化{传参}
    res=requests.get(url_range,headers=headers,cookies=cookies,timeout=10)#url,header,cookies,timeout
    res.encoding='utf-8'
    print('正在爬去第'+str(ji)+'页')
    content = json.loads(res.text,encoding='utf-8')
    list_=content['data']['comments']
    count=0
    for item in list_:
        comment.append(item['content'])
        nick.append(item['nick'])
        score.append(item['score'])
        comment_time.append(datetime.datetime.fromtimestamp(int(item['startTime'])/1000))
        gender.append(item['gender'])
        userId.append(item['userId'])
        userLevel.append(item['userLevel'])
        replyCount.append(item['replyCount'])
        upCount.append(item['upCount'])
        count=count+1
        if count==15:
            url_time=item['startTime']
    ji+=1

print("爬取完成")
result={'用户id':userId,'用户昵称':nick,'用户等级':userLevel,'性别':gender,'时间':comment_time,'评分':score,'评论内容':comment,'点赞':upCount,'评论':replyCount}
results= pd.DataFrame(result)
results.info()
results.to_csv("d:\流浪地球.csv")

词云

import pandas as pd
import wordcloud
import matplotlib.pyplot as plt
import jieba
from collections import Counter
import numpy as np
#jieba.load_userdict("new.txt") #新定义词典
df = pd.read_csv('d:\流浪地球.csv')

comments=str()
for comment in df['评论内容']:
    comments=comments+comment

stopwords = {}.fromkeys([ line.rstrip() for line in open('stopwords.txt','r',encoding='utf-8') ])
segs = jieba.cut(comments,cut_all=False)

cloud_text =[]
for seg in segs:

   if seg not in stopwords:
        cloud_text.append(seg)


fre = Counter(cloud_text)

wc = wordcloud.WordCloud(
    font_path="C:\\Windows\\Fonts\\STFANGSO.ttf",
    max_words=150,
    max_font_size=250,
    width=1000,
    height=860
)

wc.generate_from_frequencies(fre)
plt.imshow(wc)
plt.axis('off')
plt.show()
wc.to_file('d:\流浪地球_词云.png')
全部评论

相关推荐

04-10 11:02
已编辑
北方民族大学 全栈开发
“无名小卒,还是名扬天下?”我知道很多人都不觉得我能走到今天这一步,当然,也包括我自己。在我的人生里,有两部作品刻下了最深的烙印:《斗破苍穹》与《龙族》。它们总被人拿来对照:一边是萧炎的桀骜轻狂,一边是路明非的怯懦衰颓。有人说,天蚕土豆没见过魂天帝,但江南见过真凯撒。我时常觉得,自己就是那个衰小孩路明非。可路明非可以开挂,我不可以;我也无数次幻想过,能拥有萧炎那般年少轻狂的人生,可我没有他与生俱来的逆天天赋。我只是个平庸的普通人,一个看过《斗破苍穹》却开不了挂的路明非,只能一步一步往上爬。从我下定决心找实习的那一刻起,我就给自己定下了目标:“我一定要为字节跳动卖命.jpg”。萧炎有他的三年之约,我有我的两年半之约(其实是一年半)。2024.11.20,科大讯飞的第一封实习offer落进邮箱,我迈出了这场奔赴的第一步。2025.8.18,放弃百度转正的安稳机会,转身走进前路未卜的不确定里。我很感谢我在百度的mentor,是她从茫茫人海选中了我,给了我大厂实习的机会。即便有段时间我状态差、产出不理想,她依旧愿意认可我、希望我留下转正。2025.11.14,我选择走进字节跳动,以实习生的身份重新出发。2026.3.25 - 3.31,一周速通上海飞书,幸遇赏识我的伯乐,斩获Special Offer。被告知面试通过的那一刻,我的内心无比平静,就像这个offer本就该属于我。不是侥幸,是应得的。这一路,有人看轻过我的出身,不相信我能走到这里;也有人在我看不见前路的时候,替我举过灯。没有他们的鼓励与支撑,就没有今天站在这里的我。我看到了自强不息的激荡,那是一个双非的伟大乐章!我是雨夜迈巴赫,我要开启属于我的新篇章了。
在看牛客的本杰明很勇...:真心祝贺l总 我永远的偶像 我滴神
春招至今,你收到几个面试...
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务