GoAlers - 个人主页动态 - 牛客网

发布(27) 评论刷题收藏

2020-06-11 17:00

百度_算法工程师

推荐系统Demo

推荐系统Demo简介：推荐系统的一种简单实现就是，给定一个用户A，找到所有用户中与A最相似的用户B，把B看过的电影中A没看过的挑出来，再把B评分最高的几部挑出来。数据集下载ml-latest-small(1MB): http://files.grouplens.org/datasets/movielens/ml-latest-small.zip解压缩后用到两个文件 movies.csv 和 ratings.csv 。movies.csv是各种电影的数据，列分别为 电影编号、电影名、所属类型。movieId title genres1 Toy Story (1995) Adventure,Ani...

0 点赞评论收藏

分享

2020-04-30 11:42

已编辑

百度_算法工程师

大数据学习网站

Linux基础资料： https://www.runoob.com/linux/linux-tutorial.htmlpython ：https://github.com/Yerikshu/one-python-craftsman算法 ：https://github.com/labuladong/***ing-algorithmjava2020最强总结https://blog.csdn.net/ThinkWon/article/details/103592572?depth_1-utm_source=distribute.pc_feed.none-task&request_id=&am...

0 点赞评论收藏

分享

2020-04-30 11:38

百度_算法工程师

zookeeper常用命令

一、zk服务命令  启动ZK服务: bin/zkServer.sh start 查看ZK服务状态: bin/zkServer.sh status 停止ZK服务: bin/zkServer.sh stop 重启ZK服务: bin/zkServer.sh restart 连接服务器: zkCli.sh -server 127.0.0.1:2181二、连接zk启动ZooKeeper服务之后，我们可以使用如下命令连接到 ZooKeeper 服务：eg、zookeeper-3.4.8\bin>zkCli.cmd -server 127.0.0.1:2181Linux环境下：eg、zkCli.sh ...

0 点赞评论收藏

分享

2020-04-30 11:42

已编辑

百度_算法工程师

推荐Spark重点难点知识总结（一）https://blog.csdn.net/shuhaojie/article/details/75123953Spark重点难点知识总结（二）https://blog.csdn.net/shuhaojie/article/details/74205393  Spark2.x和Spark1.x版本的区别1、Spark2.x实现了对Spark SQL和Hive SQL操作API的统一2、Spark2.x引入了SparkSession的概念，提供了一个统一的切入口来使用Spark的各项功能，统一了旧的SQLContext和HiveContext3、统一了Data...

0 点赞评论收藏

分享

2020-04-30 00:02

百度_算法工程师

2020.04.30 在牛客打卡3天！

0 点赞评论收藏

分享

2020-04-30 11:43

已编辑

百度_算法工程师

Hbase是列存储的，Hbase支持行级事务写出hive和hbase的区别共同点：1.hbase 与 hive 都是架构在 hadoop 之上的。都是用 hadoop 作为底层存储区别：2.Hive 是建立在 Hadoop 之上为了减少 MapReduce jobs 编写工作的批处理系统，HBase是为了支持弥补 Hadoop 对实时操作的缺陷的项目 。3.想象你在操作 RMDB 数据库，如果是全表扫描，就用 Hive+Hadoop,如果是索引访问，就用 HBase+Hadoop 。4.Hive query 就是 MapReduce jobs 可以从 5 分钟到数小时不止，HBase 是非常高...

0 点赞评论收藏

分享

2020-04-26 19:04

百度_算法工程师

DataFrame基本操作

一、查看数据（查看对象的方法对于Series来说同样适用）1.查看DataFrame前xx行或后xx行a=DataFrame(data);a.head(6)表示显示前6行数据，若head()中不带参数则会显示全部数据。a.tail(6)表示显示后6行数据，若tail()中不带参数则也会显示全部数据。2.查看DataFrame的index，columns以及valuesa.index ; a.columns ; a.values 即可3.describe()函数对于数据的快速统计汇总a.describe()对每一列数据进行统计，包括计数，均值，std，各个分位数等。4.对数据的转置a.T5.对轴...

0 点赞评论收藏

分享

2020-04-30 11:41

已编辑

百度_算法工程师

数据分析pandas、numpy

Numpy：https://www.runoob.com/numpy/numpy-tutorial.htmlPandas：https://www.pypandas.cn/docs/getting_started/Matplotlib：https://www.matplotlib.org.cn/tutorials/ import pandas as pdimport numpy as npdates = pd.date_range('20130101', periods=6)df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=...

0 点赞评论收藏

分享

2020-04-26 17:52

百度_算法工程师

2020.04.26 在牛客打卡2天！

0 点赞评论收藏

分享

2020-04-22 12:02

百度_算法工程师

2020.04.22 在牛客打卡1天！

0 点赞评论收藏

分享

2020-04-30 11:33

已编辑

百度_算法工程师

案例一： 基于TF-IDF的关键词提取   TF-IDF：衡量某个词对文章的重要性由TF和IDF组成   TF：词频（因素：某词在同一文章中出现次数）   IDF：反文档频率（因素：某词是否在不同文章中出现）   TF-IDF = TF*IDF      TF ：一个单词在一篇文章出现次数越多越重要   IDF: 每篇文章都出现的单词（如的，你，我，他） ，越不重要       案例二： 相似度计算公式   （1）余弦相似度cosine               &nbsp...

0 点赞评论收藏

分享

2020-04-30 11:43

已编辑

百度_算法工程师

大数据笔记

hadoop搭建 https://blog.csdn.net/qq_33439938/article/details/105431549 hive笔记 https://blog.csdn.net/qq_33439938/article/details/105442453 HDFS https://blog.csdn.net/qq_33439938/article/details/105441989 YARN https://blog.csdn.net/qq_33439938/article/details/105441235 Mapreduce https://blog.csdn.net/qq...

0 点赞评论收藏

分享

创作者周榜

更多

关注他的用户也关注了：

牛客网
牛客网在线编程
牛客网题解
牛客企业服务