牛客894147927号 - 个人主页动态

02-12 20:22

题目描述 请根据以上数据分析各还款能力级别的客户逾期情况，按照还款能力级别统计有逾期行为客户占比。要求输出还款能力级别、逾期客户占比。 注：逾期客户占比要求按照百分数形式输出并四舍五入保留 1 位小数，最终结果按照占比降序排序。 数据表结构  有贷款信息表：loan_tb  （agreement_id：合同id，customer_id：客户id，loan_amount：贷款金额，pay_amount：已还金额，overdue_days：逾期天数）  客户信息表：customer_tb  （customer_id：客户id，customer_age：客户年龄，pay_ability：还款能力级别...

0 点赞评论收藏

02-12 20:04

安徽师范大学数据分析师

SQL41 最长连续登录天数

问题描述 你正在搭建一个用户活跃度的画像，其中一个与活跃度相关的特征是“最长连续登录天数”， 请用SQL实现“2023年1月1日-2023年1月31日用户最长的连续登录天数” 数据表结构  登陆表 tb_dau：     fdate user_id     2023-01-01 10000    备注: MySQL中日期加减的函数  日期增加 DATE_ADD， 日期减少 DATE_SUB， 日期差 DATEDIFF，例：datediff('2023-02-01', '2023-01-01') 输出31  解题思路  ① 排序后并计算start_day  -- 提取2023年1月数据 -- 根...

0 点赞评论收藏

02-12 07:47

安徽师范大学数据分析师

SQL40 每个月Top3的周杰伦歌曲

题目描述 从听歌流水中找到18-25岁用户在2022年每个月播放次数top 3的周杰伦的歌曲。 排名先后由两者的song_id先后顺序决定 数据表结构  流水表 play_log:     日期 (fdate) 用户 ID (user_id) 歌曲 ID (song_id)     2022-01-08 10000 0     歌曲表song_info：     歌曲 ID (song_id) 歌曲名称 (song_name) 歌手名称 (singer_name)     0 明明就 周杰伦     用户表user_info     user_id age     10000 18    解题...

0 点赞评论收藏

02-11 21:40

安徽师范大学数据分析师

SQL40 电话号码格式校验

题目描述 在一张contacts表中，存储了用户的联系信息。请查询出所有符合以下条件的电话号码，并按id升序输出所有字段：  电话号码必须是 10 位数字。 电话号码的第一位不能以 0 开头。 * 电话号码的格式可以是连续的 10 位数字，或以-分隔的格式（如123-456-7890）  解题思路  使用正则表达式 -- regexp  ① 匹配纯数字: '^[1-9][0-9]{9}$'  ② 匹配分隔符形式：'^[1-9][0-9]{2}-[0-9]{3}-[0-9]{4}$'  ^表示开头, $表示结尾，{n}表示出现次数 提交代码 select id, name, phone_numb...

0 点赞评论收藏

01-20 22:20

已编辑

安徽师范大学数据分析师

第一课有监督的机器学习：回归与分类

一、机器学习入门 1. 机器学习概述 ① 机器学习的定义：  一个研究让计算机无需明确的编程就具备学习能力的领域  ②机器学习的算法类别    算法 课程分布     监督学习 课程1，课程2   无监督学习 课程3   推荐系统 课程3   强化学习 课程3      二、多输入变量回归 三、分类

0 点赞评论收藏

2022-03-25 12:59

安徽师范大学数据分析师

机器学习--随机森林

一、集成算法 1.概述  集成学习（ensemble learning）是时下非常流行的机器学习算法，它本身不是一个单独的机器学习算法，而是通过在数据上构建多个模型，集成所有模型的建模结果。基本上所有的机器学习领域都可以看到集成学习的身影，在现实中集成学习也有相当大的作用，它可以用来做市场营销模拟的建模，统计客户来源，保留和流失，也可用来预测疾病的风险和病患者的易感性。在现在的各种算法竞赛中，随机森林，梯度提升树（GBDT），Xgboost等集成算法的身影也随处可见，可见其效果之好，应用之广  集成算法的目标  集成算***考虑多个评估器的建模结果，汇总之后得到一个综合的结果，以此来获取比单个...

0 点赞评论收藏

2022-03-24 22:44

安徽师范大学数据分析师

机器学习-模型评估与选择(4)

4.4 Friedman检验与Nemenyi后续检验  交叉验证t检验和McNemar检验都是在一个数据集上比较两个算法的性能，而很多时候，会在一组数据集上对多个算法进行比较。当有多个算法参与比较时，一种做法是在每个数据集上分别列出两两比较的结果，而在两两比较时可使用前述方法；另一种使用基于算法排序的Friedman检验。   假定用D1、D2、D3和D4D_1、D_2、D_3和D_4D1、D2、D3和D4四个数据集对算法A、B、C进行比较。首先，使用里留出法或交叉验证法得到每个算法在每个数据集上的测试结果，然后在每个数据集上根据测试性能由好到坏排序，并赋予序值1，2，……；若算法的测...

0 点赞评论收藏

2022-03-24 17:07

已编辑

安徽师范大学数据分析师

机器学习--决策树(Decision Tree)

决策树（Decision Tree）是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。决策树算法容易理解，适用各种数据，在解决各种问题时都有良好表现，尤其是以树模型为核心的各种集成算法，在各个行业和领域都有广泛的应用决策树算法的本质是一种图结构  关键概念：  根节点：没有进边，有出边。包含最初的，针对特征的提问。 中间节点：既有进边也有出边，进边只有一条，出边可以有很多条。都是针对特征的提问。 叶子节点：有进边，没有出边，每个叶子节点都是一个类别标签  ps:子节点和父节点：在两个相连的节点中，更接近根节点的...

0 点赞评论收藏

2022-03-24 22:44

已编辑

安徽师范大学数据分析师

机器学习-模型评估与选择(3)

3.4 代价敏感错误率与代价曲线  为权衡不同类型错误所造成的不同损失，可为错误赋予"非均等代价"   以二分类任务为例，可根据任务的领域知识设定一个"代价矩阵"(cost matrix).如下表所示，其中，costijcost_{ij}costij表示将第iii类样本预测为第jjj类样本的代价。一般来说，costii=0cost_{ii}=0costii=0;若将第0类判别为第一类所造成的损失更大，则cost01>cost10cost_{01}>cost_{10}cost01>cost10;损失程度相差越大，cost01cost_{01}cost01与cost10...

0 点赞评论收藏

2022-03-20 16:20

已编辑

安徽师范大学数据分析师

机器学习-模型评估与选择(2)

三、性能度量(performance measure)   衡量模型泛化能力的评价标准 反映了任务需求，在对比不同模型的能力时，使用不同的性能度量往往会导致不同的评判结果；这意味着模型的"好坏"是相对的，什么样的模型是好的，不仅取决于算法和数据，还取决于任务需求     在预测任务中，给定样例集D={(x1,y1),(x2,y2),…,(xm,ym)}D =\{(x_1,y_1),(x_2,y_2),\ldots,(x_m,y_m)\}D={(x1,y1),(x2,y2),…,(xm,ym)}，其中yiy_iyi是示例xix_ixi的真实标记。要评估学习器fff的性能，就要把学...

0 点赞评论收藏

2022-03-20 10:47

已编辑

安徽师范大学数据分析师

机器学习-模型评估与选择(1)

一、经验误差与过拟合  错误率与精度    错误率(error rate)：分类错误的样本数占样本总数的比例，即如果在mmm个样本中有aaa个样本分类错误，则错误率为E=amE = \frac {a}{m}E=ma 精度(accuracy)：1−am1-\frac {a}{m}1−ma，即精度=1-错误率     误差(error)   定义：学习器的实际预测输出与样本的真实输出之间的差异  训练误差(training error)或经验误差(empirical error)：学习器在训练集上的误差 泛化误差(generalization error)：在新样本上的误差     过拟合与欠...

0 点赞评论收藏

2022-03-21 10:23

已编辑

安徽师范大学数据分析师

机器学习-导论

0 点赞评论收藏

2022-03-07 09:32

已编辑

安徽师范大学数据分析师

数据处理(Pandas)

一、读取数据  Pandas需要先读取表格类型的数据，然后进行分析     数据类型 说明 Pandas读取方法     csv、tsv、txt 用逗号分隔、tab分隔的纯文本文件 pd.read_csv   excel 微软xls或者xlsx文件 pd.read_excel   mysql 关系型数据库表 pd.read_sql     导入模块 import pandas as pd  1. 读取纯文本文件  pd.read_csv(数据文件名, sep = '', header = 'infer', names = None, index_col = None, dtype = None...

0 点赞评论收藏

2022-03-15 13:37

已编辑

安徽师范大学数据分析师

机器学习

sklearn的基本建模流程1. 实例化，建立评估模型对象 (实例化时需要使用的参数)2. 通过模型接口训练模型3. 通过模型接口提取需要的信息  ps:第二步和第三步要了解使用的模型有哪些属性和接口可以使用 例子 from sklearn import tree # 导入需要的模块 clf = tree.DecisionTreeClassifier() # 实例化 clf = clf.fit(x_train,y_train) # 用训练集数据训练模型 result = clf.score(x_test,y_test) # 导入测试集，从接口中调用需要的信息  一、决策树(Decision T...

0 点赞评论收藏

2022-03-14 19:28

已编辑

安徽师范大学数据分析师

Tableau操作步骤及案例演示

一、条形图(柱形图)  用于比较不同类别之间的大小  基本步骤 操作步骤:  将表示类别的维度拖入列(行) 将要统计度量拖入行(列) 注:某些度量值默认的是对该类别进行求和，如果不是求和，须右击该度量进行改变 可通过升序(降序)的操作，使得图形看起来更舒适 可通过调整视图的大小，来调整整体图形的观感 交换行和列可以改变条形图的方向 将统计度量拖入标签，可以显示数据的大小 注:这里的标签默认也是对类别进行求和的数，须改变度量类型，使得标签显示的数字与统计度量保持一致  实例 实例1：各地区酒店数量   数据文件：酒店数据   操作页面展示  导出图片展示  实例2：各地区酒店均价   数据文件：...

0 点赞评论收藏

创作者周榜

关注他的用户也关注了：