网站用户访问行为预测-LSTM

数据集:多个用户一个月内访问的URL
特征:用户id 访问时间 文本URL
以单个用户每日访问的url为入手点 进行分类

扁平分类

PAGE_CATEGORIES = 
    [
    商业经济,新闻时事,体育健身,教育培训,生活服务,
    卫生健康,政法军务,科学技术,社会文化,旅游交通,
    休闲娱乐,文学小说,艺术爱好,电脑网络
    ]
用途分类 PAGE_CATEGORIES2 = 
    [门户网站[新闻,经济,科技,旅游,游戏..],视频网站,交易网站,科研网站,游戏网站,。。。]
持有者分类 PAGE_CATEGORIES3 = 
    [个人网站(博客)、商业网站(淘宝官网)、政府网站(水利局官网)、教育网站(上大官网)]

树状分类:

//com
com ---> baidu.com ---> baidu.com             label:  baidu
                     ---> news.baidu.com        label: baidu news
                     ---> zhidao.baidu.com      label: baidu knowledge
                     ---> tieba.baidu.com       label: baidu social
                     ---> top.baidu.com         label: baidu news
    ---> bilibili.com ---> bilibili.com       label: bili
                      ---> live.bilibili.com  label: bili live
                      ---> manga.bilibili.com label:  bili manga
                      ---> game.bilibili.com  label: bili game
    ---> 163.com ---> game.163.com            label: 163 game
                 ---> v.163.com               label: 163 live
                 ---> news.163.com            label: 163 news
//net
net --->csdn.net --->csdn.net                 label: csdn
                   --->blog.csdn.net            label: csdn blog
                   --->download.csdn.net        label: csdn down
                   --->edu.csdn.net             label: csdn edu

Q1:单个网站可能有多个label

Q2:考虑用户本身之间可能有相似性
Q3:考虑同一域名下(或同一功能)网站之间可能有相似性

门控 RNN-lstm
cnn找高影响力的文本特征
lstm做预测分类
预测分类

交叉熵 损失函数

多个用户 可做推荐

全部评论

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务