大模型与数据开发如何结合
1. 前言
大多数公司都在做大模型应用+大模型工具去提升自己业务效率(可能也是因为大老板想做出一些价值,因此在各业务投入agent去使用),我们这期讲一下大模型与数据开发如何去结合去落地,大模型和数据开发是如何相辅相成,以及解释为什么到今天语兴也觉得数据最为重要的原因,感兴趣同学想了解更多细节可以加下星球,星球有5套不同业务的大模型项目,并提供完整代码、业务逻辑、产品方案、简历模板,皆可用于面试。
2. 工作流
agent解释:ai agent也叫人工智能代理,是一种能够感知环境、进行决策和执行动作的智能实体。智能体像人一样,它有记忆、有逻辑分析能力、有任务拆解能力、问题的拆解能力和最后综合回来统一解决问题的能力,例如自动回复邮件的程序,自动驾驶都叫agent。
dify:是一个集成开发环境,提供低代码工具帮助开发者构建、部署和管理AI应用,如聊天机器人、智能助手等。
2.1 dify平台功能
探索 | 工作室 | 知识库 | 工具 |
可查看和使用定义好的Chat bot、chatflow、workflow、agent | 可查看、编辑和创建Chatbot、chatflow、workflow、agent | 可查看、维护知识库(知识库可作为上下文被其他智能体中的大模型引用),目前仅自己创建可用 | 全部 |
ai |
|
|
|

2.2 workflow工作流
基于workflow工作流可以获取大模型执行的信息,同时还会根据每个节点执行情况,节点包括(input输入数据,output输出数据,预处理(python对数据二次加工),调用大模型,条件分支等),可以将节点看作离线任务链路中加工的节点,最后根据大模型对数据识别后将识别的数据output输出到大模型工作流表中。
3. 数据与大模型配合类型
谈到大模型+数仓组合,通常大家都会想到通过开发底层数据完成大模型训练,从而提供数据支撑,这个观点是对的,通常大模型+数仓组合一般呈现为2种,即(1)清洗数据保障数据质量后将明细投放到大模型中,(2)通过大模型的工作流执行及识别精准程度进行数据分析。
3.1数据前置生成投入大模型进行打标
数据前置生成投入即清洗好原始宽表数据信息,选择更贴合场景的内容数据,例如今天我们要做模拟抖音进行内容生成,那需要提前爬取抖音优质/劣质内容(具体看你用在什么场景,风控就用擦边/涉政类,优质就爬优质的),接入数仓ODS->DWD->ADS(ODS接入原始逆向也叫爬虫的数据,DWD进行json解析即数据清洗维度下沉,ADS进行内容打标,标记内容优质情况,当然打标可以走算法模型,最终封装json推送大模型平台)
因此数开在前置通常是接入研发/逆向研发数据从而给大模型推送
暂时无法在飞书文档外展示此内容
3.2大模型后置产出数据进行测算评估
当经过workflow工作流识别、产出后的数据可以用于评估业务召唤/准确率,结合各种维度属性进行大模型生成内容调整,从而调整工作流,因此数据开发在大模型后置则是基于workflow返回数据及业务数据构建ods到ads链路,建设指标搭建报表。
暂时无法在飞书文档外展示此内容
完整链路图
暂时无法在飞书文档外展示此内容
3.3大模型在数仓中使用
大模型在数仓中投入可分为几个方向,这里别说什么网易chat bi、SQL copilot这种,已经不是数仓方向能干出来的,我们就以chat bi为例,
(1)企业内部chatbi难落地:依赖数据开发、数据产品、数据平台等各方配合,开发周期长,人力投入,还需要长期调整精度,roi较低(正儿八经使用的人甚至不如取数据平台),平台价值远不如做业务价值,同时也很考验数据开发的资产完善情况,当前大部分数仓表较为分散,资产烟囱式建设太多。
(2)购买三方平台:购买3方(quick bi,网易有数较为成熟),价格太贵,带来的收益也低,即使有用户在用也很难用明白(最后变成数据表查询智能问答工具,还不如做个agent),如果只是为了套壳满足一些混子高层汇报吹牛逼那还是够的。
因此,我们只说数仓一个组能做的事
(1)根据数据表元数据,数据资产自动化评估有效资产、核心资产、是否可下线及优化等,并可以做一个简单问答助手
(2)根据任务执行元数据(消耗cpu、内存、近15日执行时间、执行sql语句等)识别不良任务进行自动化推送诊断,结合血缘对于无效任务进行推荐冻结/下线
#数据开发工程师##数据人offer决赛圈怎么选##数据分析##聊聊我眼中的AI##大模型#





查看3道真题和解析