大模型与数据开发如何结合

1. 前言

大多数公司都在做大模型应用+大模型工具去提升自己业务效率(可能也是因为大老板想做出一些价值,因此在各业务投入agent去使用),我们这期讲一下大模型与数据开发如何去结合去落地,大模型和数据开发是如何相辅相成,以及解释为什么到今天语兴也觉得数据最为重要的原因,感兴趣同学想了解更多细节可以加下星球,星球有5套不同业务的大模型项目,并提供完整代码、业务逻辑、产品方案、简历模板,皆可用于面试。

2. 工作流

agent解释:ai agent也叫人工智能代理,是一种能够感知环境、进行决策和执行动作的智能实体。智能体像人一样,它有记忆、有逻辑分析能力、有任务拆解能力、问题的拆解能力和最后综合回来统一解决问题的能力,例如自动回复邮件的程序,自动驾驶都叫agent。

dify:是一个集成开发环境,提供低代码工具帮助开发者构建、部署和管理AI应用,如聊天机器人、智能助手等。

2.1 dify平台功能

探索

工作室

知识库

工具

可查看和使用定义好的Chat bot、chatflow、workflow、agent

可查看、编辑和创建Chatbot、chatflow、workflow、agent

可查看、维护知识库(知识库可作为上下文被其他智能体中的大模型引用),目前仅自己创建可用

全部

ai

2.2 workflow工作流

基于workflow工作流可以获取大模型执行的信息,同时还会根据每个节点执行情况,节点包括(input输入数据,output输出数据,预处理(python对数据二次加工),调用大模型,条件分支等),可以将节点看作离线任务链路中加工的节点,最后根据大模型对数据识别后将识别的数据output输出到大模型工作流表中。

3. 数据与大模型配合类型

谈到大模型+数仓组合,通常大家都会想到通过开发底层数据完成大模型训练,从而提供数据支撑,这个观点是对的,通常大模型+数仓组合一般呈现为2种,即(1)清洗数据保障数据质量后将明细投放到大模型中,(2)通过大模型的工作流执行及识别精准程度进行数据分析。

3.1数据前置生成投入大模型进行打标

数据前置生成投入即清洗好原始宽表数据信息,选择更贴合场景的内容数据,例如今天我们要做模拟抖音进行内容生成,那需要提前爬取抖音优质/劣质内容(具体看你用在什么场景,风控就用擦边/涉政类,优质就爬优质的),接入数仓ODS->DWD->ADS(ODS接入原始逆向也叫爬虫的数据,DWD进行json解析即数据清洗维度下沉,ADS进行内容打标,标记内容优质情况,当然打标可以走算法模型,最终封装json推送大模型平台)

因此数开在前置通常是接入研发/逆向研发数据从而给大模型推送

暂时无法在飞书文档外展示此内容

3.2大模型后置产出数据进行测算评估

当经过workflow工作流识别、产出后的数据可以用于评估业务召唤/准确率,结合各种维度属性进行大模型生成内容调整,从而调整工作流,因此数据开发在大模型后置则是基于workflow返回数据及业务数据构建ods到ads链路,建设指标搭建报表。

暂时无法在飞书文档外展示此内容

完整链路图

暂时无法在飞书文档外展示此内容

3.3大模型在数仓中使用

大模型在数仓中投入可分为几个方向,这里别说什么网易chat bi、SQL copilot这种,已经不是数仓方向能干出来的,我们就以chat bi为例,

(1)企业内部chatbi难落地:依赖数据开发、数据产品、数据平台等各方配合,开发周期长,人力投入,还需要长期调整精度,roi较低(正儿八经使用的人甚至不如取数据平台),平台价值远不如做业务价值,同时也很考验数据开发的资产完善情况,当前大部分数仓表较为分散,资产烟囱式建设太多。

(2)购买三方平台:购买3方(quick bi,网易有数较为成熟),价格太贵,带来的收益也低,即使有用户在用也很难用明白(最后变成数据表查询智能问答工具,还不如做个agent),如果只是为了套壳满足一些混子高层汇报吹牛逼那还是够的。

因此,我们只说数仓一个组能做的事

(1)根据数据表元数据,数据资产自动化评估有效资产、核心资产、是否可下线及优化等,并可以做一个简单问答助手

(2)根据任务执行元数据(消耗cpu、内存、近15日执行时间、执行sql语句等)识别不良任务进行自动化推送诊断,结合血缘对于无效任务进行推荐冻结/下线

#数据开发工程师##数据人offer决赛圈怎么选##数据分析##聊聊我眼中的AI##大模型#
全部评论

相关推荐

1. 假设你需要为AI医疗产品(如智能辅助诊断系统)制定roadmap(产品路线图),如何确定功能优先级(如“影像识别精度提升”“医生操作简化”等功能的开发顺序)?a. 追问1:确定功能优先级前,你会使用哪些需求分析方法(如用户访谈、问卷调研)收集和梳理需求?b. 追问2:制定roadmap时,如何平衡短期迭代(如3个月内上线的核心功能)和长期规划(如1年内的AI算法升级)?2. 描述一次你参与产品定义的经历(如校园医疗APP原型设计、实习时的AI诊断工具),你是如何撰写PRD(产品需求文档)的(如功能描述、交互逻辑、验收标准)?3. 解释产品生命周期管理(PLM)的核心概念(如从概念到退市的全流程管理),在AI医疗产品中,如何通过PLM推动持续创新(如功能迭代、用户体验优化)?4. 在AI医疗产品的市场调研中,你会从哪些维度分析竞品(如同类智能诊断系统)?a. 追问1:通过竞品分析和市场调研,如何识别未被满足的市场机会(如“基层医院对操作简化的需求”)?b. 追问2:进行市场调研时,你会使用哪些工具(如数据分析平台、调研方法)收集信息?5. 分享一次你通过用户反馈(如医生、患者的使用意见)优化产品的经历,你采取了哪些具体措施(如功能调整、流程简化),效果如何(如用户满意度提升)?
点赞 评论 收藏
分享
10-23 16:09
已编辑
中山大学 Java
点赞 评论 收藏
分享
评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务