又到一年毕业季,一大批刚刚步入职场的应届生申请办理我行信用卡,为了能最大程度的得到优质的信用卡客户,更精准地确定客户优劣和价值高低。考虑利用机器学习的思想在已有传统人工规则的基础上作辅助决策。针对这个场景,详细描述所需要的数据、数据的处理过程、选择的算法及原因、评价指标等过程。
需要的数据如下: 往年办理信用卡的记录,包括信用卡用户的年龄、性别、毕业学校、学位、所学专业类别、毕业学校的城市、毕业后所签约的公司、签约工作的行业、 签约公司的性质、签约公司所在地、消费区间、消费的比例构成等。如果办理成功,则标签为1,否则为0 数据的预处理包括:对申请人的毕业学校、学位、专业、签约公司、签约城市、公司性质等特征进行打分,如毕业学校这里:大专为1、二本 及以下本科为2,二本及以下研究生为3,一本本科为3,一本研究生及211本科为4,211研究生及985本科为5,985研究生为6等。签约公司也进行类似的 打分,如:规模小于100人的私企为1,规模为1000以内的私企也2,。。。 选择的算法可以为lightgbm,原因在于lightgbm的计算速度快,对于回归的输出好。评价指标为logloss,因为输出为具体办理的概率,因此用 logloss来对模型进行评价,尽量使logloss的值小。