网站用户访问行为预测-LSTM
数据集:多个用户一个月内访问的URL
特征:用户id 访问时间 文本URL
以单个用户每日访问的url为入手点 进行分类
扁平分类
PAGE_CATEGORIES =
[
商业经济,新闻时事,体育健身,教育培训,生活服务,
卫生健康,政法军务,科学技术,社会文化,旅游交通,
休闲娱乐,文学小说,艺术爱好,电脑网络
]
用途分类 PAGE_CATEGORIES2 =
[门户网站[新闻,经济,科技,旅游,游戏..],视频网站,交易网站,科研网站,游戏网站,。。。]
持有者分类 PAGE_CATEGORIES3 =
[个人网站(博客)、商业网站(淘宝官网)、政府网站(水利局官网)、教育网站(上大官网)]树状分类:
//com
com ---> baidu.com ---> baidu.com label: baidu
---> news.baidu.com label: baidu news
---> zhidao.baidu.com label: baidu knowledge
---> tieba.baidu.com label: baidu social
---> top.baidu.com label: baidu news
---> bilibili.com ---> bilibili.com label: bili
---> live.bilibili.com label: bili live
---> manga.bilibili.com label: bili manga
---> game.bilibili.com label: bili game
---> 163.com ---> game.163.com label: 163 game
---> v.163.com label: 163 live
---> news.163.com label: 163 news
//net
net --->csdn.net --->csdn.net label: csdn
--->blog.csdn.net label: csdn blog
--->download.csdn.net label: csdn down
--->edu.csdn.net label: csdn eduQ1:单个网站可能有多个label
Q2:考虑用户本身之间可能有相似性
Q3:考虑同一域名下(或同一功能)网站之间可能有相似性
门控 RNN-lstm
cnn找高影响力的文本特征
lstm做预测分类
预测分类
交叉熵 损失函数
多个用户 可做推荐

