一个普通数据分析从业者搭建了一个辅助数据清洗工具
#AI求职实录#
起因是之前我有一个实习公司的部门每天要处理大量第三方爬取过来的非结构化数据,对非结构化数据进行数据加工,对他们按产品类别分类,剔除一些与我们公司产品不相关的数据,并且将他们转变为结构化数据,写入数据库,这个过程具有高度重复性,且数据量不大,一个实习生花费一个小时时间足够搞定。
适逢公司在推广大模型提效,要求每个部门看看自己的工作流中有没有可以应用大模型的地方,于是我就想到了能不能在这个地方应用到大模型,向领导提出后,也得到了领导的大力支持。然后我正好看到了dify的ai低代码平台,由于我这个只是要做一个轻量化的ai工具,也不会分到太多的研发资源,所以就想到了用dify做知识库和前端搭建。
说干就干,前期我协助业务方收集每个产品对应的关键词,搭建知识库,并且还支持业务不断更新关键词,中期和产品一起试图减少幻觉的影响,兼容现有Excel文件格式及业务流程,自动化识别网页数据中的关键信息并完成分类打标签操作。
项目的困难点是由于公司产品类别繁多,复杂,所以需要知识库搭建极为细致,有时候还需要迭代,并且需要大模型读取网页或者附件信息,提取关键参数完成标签生成。所以我们设置了 这个工具需支持简单的规则配置功能,便于后续自主更新规则
最后也得到了较好的结果,大模型进行数据清洗可以收获90%的准确率,只需要人工复核即可,也是节省了清洗人员的大量时间
上述过程中大多数步骤都可以用dify完成,前期使用python验证可行性,dify目前也十分完善,非常适用于工作流提效
起因是之前我有一个实习公司的部门每天要处理大量第三方爬取过来的非结构化数据,对非结构化数据进行数据加工,对他们按产品类别分类,剔除一些与我们公司产品不相关的数据,并且将他们转变为结构化数据,写入数据库,这个过程具有高度重复性,且数据量不大,一个实习生花费一个小时时间足够搞定。
适逢公司在推广大模型提效,要求每个部门看看自己的工作流中有没有可以应用大模型的地方,于是我就想到了能不能在这个地方应用到大模型,向领导提出后,也得到了领导的大力支持。然后我正好看到了dify的ai低代码平台,由于我这个只是要做一个轻量化的ai工具,也不会分到太多的研发资源,所以就想到了用dify做知识库和前端搭建。
说干就干,前期我协助业务方收集每个产品对应的关键词,搭建知识库,并且还支持业务不断更新关键词,中期和产品一起试图减少幻觉的影响,兼容现有Excel文件格式及业务流程,自动化识别网页数据中的关键信息并完成分类打标签操作。
项目的困难点是由于公司产品类别繁多,复杂,所以需要知识库搭建极为细致,有时候还需要迭代,并且需要大模型读取网页或者附件信息,提取关键参数完成标签生成。所以我们设置了 这个工具需支持简单的规则配置功能,便于后续自主更新规则
最后也得到了较好的结果,大模型进行数据清洗可以收获90%的准确率,只需要人工复核即可,也是节省了清洗人员的大量时间
上述过程中大多数步骤都可以用dify完成,前期使用python验证可行性,dify目前也十分完善,非常适用于工作流提效
全部评论
相关推荐
腾讯成长空间 6065人发布