AI时代下数据开发工作方式转变
背景
现在ai发展越来越快随着Claude opus 4.6、GPT5.4、Gemini3.1 Pro、GLM5等模型越来越好用,同时Open Claw、Skill、MCP出现➕最近很多很多大厂也出现裁员/岗位合并等文章,使得很多同学陷入了AI焦虑,很多同学目前不知道自己要学啥(当前课程太杂太乱没有体系),反正要赶上风口怕被淘汰,同时也回答下大环境问题,很多同学都是在AI时代下都淘汰了,本质不是这样的,工作模式变了,开发效率/产出效率越来越快了,而且AI影响的是所有行业不光是程序员,例如音乐创作者现在被SUNO V5替代,短视频创作可以用Seedance2.0。
这里给大模型排名,对于大家日后使用进行判断,1.Claude opus、2.GPT、3.Gemini/Grok、4.GLM、5.Kimi、6.Qwen/Minimax/豆包。
在这个AI交互频次变多的环境,更多考察的是大家的Idea(未来考察人才最重要是想法),而不是实现方式,有了好的Idea,就可以让AI帮你开发,包括做工具做网站,使用小龙虾,如果你觉得Claw、Agent效果太差准确率太低,是因为Model有点蠢,正常Claude opus 4.6能够完全替代程序员业务进行程序开发及文档编写,只是非Token,但很多公司仍然给员工用一般模型还要控额度去阉割模型,还想着降本,说是要提效但反而没提效。

那我们这期谈一下,AI时代下数据开发变化的方式、未来可以做什么、要学什么内容给大家一个方向,目前AI技能对于大家来说都是从0开始学同一起跑线,但在语兴看来一切能力都是模型提供Emm,普通人会大模型应用基本就够,肯定大模型底层比大模型应用门槛更高但对于常人基本也接触不到(如同会开车和研究汽车引擎)。
对于找工作同学来说这会整清楚AI,并在简历加上AI项目,无异于给你加上了Buff,现在数据开发简历有AI项目会比没有AI项目更优先选择(已经过实验证明),既然趋势已经来了就好好拥抱,同时在当前大模型应用还没有明确的招聘标准下(混沌期),这时你转型/转岗大模型应用也是比较好进去的,无论你之前是数分、数开,给个未来岗位猜测吧,可能以后只有数据岗了。
数据开发时间线
暂时无法在飞书文档外展示此内容
AI+数据开发
日常问答(报错、倾斜、python/java开发)
报错建议让GPT/Codex/GLM/Kimi分析即可,将报错信息和数据代码直接给AI即可,数据倾斜建议用Claude opus/GPT(改造代码慎重),代码改造需要你把图贴给AI去看Spark web ui的截图就行,至于Python/Java对于数据开发来说不需要你开发但需要你设计总体方案,建议用Claude opus/GPT,例如我要开发一个飞书卡片2hive的脚本,描述你的诉求、表结构、飞书信息、文档信息、机器人等,如不写好提示词,AI也没办法帮你分析生产,所以在AI+数据时代,好的Idea+实现方式+开发规范才能让你更高效,还是需要一些架构经验的,但在AI时代会总结提示词,尤其是文档能力很强的同学非常占优,有理科的架构和文科的内容总结,才是用好AI的关键。
但Claude opus确实贵,就语兴来说一天花费差不多30-40刀都是正常的,真付费上班了。
AI报错问答交互:


飞书卡片信息落地:
截图涉及敏感数据我就不放了,最好是再给几张配图放到Claude code中,敏感数据可以p掉
需求是这样的,使用python3实现,飞书群会一直发送飞书卡片,卡片信息如下,当前诉求是t+1获取一下卡片里面信息将对应的字段的值落到对应的字段中,只获取昨日整天的卡片数据就行了,写入表为ads_risk_xxx,同时需要卡片中的一般/重要等级将数据写入level等级中,还需要将卡片中的标题写入到title 标题中,卡片中文本信息写入content中,账户信息为xxxxx
CREATE TABLE IF NOT EXISTS ads_risk_xxx(
title STRING COMMENT '标题',
level STRING COMMENT '等级(一般、重要)',
content STRING COMMENT '内容',
system_create_time DATETIME COMMENT '系统创建时间'
)
PARTITIONED BY (pt STRING COMMENT '业务日期, yyyymmdd')
TBLPROPERTIES ('comment'='xxx')
LIFECYCLE 180;

工具开发
工具分为2种,1是开发平台类工具,2是解决数开类的一些问题
强烈建议打开plan

开发平台工具
例如取数平台、指标平台、Chat BI、监控平台、工单回复等,需要写好Prompt,画好prd让AI读取,同时需要你想好技术栈、申请域名、UI等,建议用Claude opus进行开发(因此还是需要经验的,但经验可以多看一些课程来培养,通过Vibe coding实现,各类网站都可以开发,例如这个平台就是用AI写的https://way.ydata.vip/,从PRD设计发布生成只用了3天时间,提示词过长这里就不写了,有些同学说我不知道需要设计啥没有某平台原型图概念,既然没有原型图你就去一些官网买一个月去玩玩(首单很便宜),实在不行给平台截图直接喂大模型就完了,在AI时代代码不是壁垒,好的Idea才是,但好的Idea出来也会被其他人用AI进行洗稿,因此SAAS未来会很难,得找到自己的竞争优势。
解决数开类的一些问题
例如做一些同步类工具飞书2hive、DQC自增等工具,只需要有好的Idea就行,看到业务及组内的痛点快速解决痛点,使用Claude opus进行开发,通常一个Python3脚本就够。
DQC自增:
截图我这里就不放了
目前我有个需求,ODPS PYTHO3,基于当前表ads_xxx_dqc(分区表,pt,每天执行时取前一天分区就行)有4个字段node_id(任务节点id),output_table_name(配置数据表名), project_id(项目空间id),project_name(项目空间name),需求是调用阿里云datawroks数据质量api接口,给node_id,output_table_name,project_id,每天配置数据质量监控,其中数据范围选择按分区设置范围pt='${bizdate}',质量监控名称为output_table_name+当前日期组合,新建规则,规则1的规则名称为表大小,固定值,规则模板为表大小,固定值,监控阈值正常阈值
>0,红色阈值<=0,启用状态为启用,重要程度为强规则,规则2的规则名称为表大小,1天波动率,规则模板为表大小,1天波动率,监控阈值正常阈值
<=49%,橙色阈值>49%,红色阈值>50%,启用状态为启用,重要程度为强规则,整体触发方式为生产调度触发,关联调度节点为node_id(任务节点id),选择运行资源名称为odps_first,资源为生产环境,告警方式配置为飞书机器人webhook地址为https://open.feishu.cn/open-apis/bot/v2/hook/,o = ODPS(access_id='',
secret_access_key='',
project='',
end_point='http://service.cn-hangzhou.maxcompute.aliyun.com/api')
调用阿里云api方法请参考https://api.aliyun.com/api/dataworks-public/2024-05-18/CreateDataQualityScan
Dify+数开组合
本质的大模型数仓还是和业务数仓开发类似,还是搭建数仓,只是从原来的数据接入后搭建报表到现在需要进行前置数据推送+大模型识别后数据接入,这里要注意了如果你要使用Dify平台中的模型建议选用便宜的,因为数据他是单条处理的很消耗Token,推荐GPT5.2、GLM、Kimi这种,提示词可以让AI帮你优化。
工作流
agent解释:ai agent也叫人工智能代理,是一种能够感知环境、进行决策和执行动作的智能实体。智能体像人一样,它有记忆、有逻辑分析能力、有任务拆解能力、问题的拆解能力和最后综合回来统一解决问题的能力,例如自动回复邮件的程序,自动驾驶都叫agent。
dify:是一个集成开发环境,提供低代码工具帮助开发者构建、部署和管理AI应用,如聊天机器人、智能助手等。
dify平台功能

数据前置生成投入大模型进行打标
数据前置生成投入即清洗好原始宽表数据信息,选择更贴合场景的内容数据,例如今天我们要做模拟抖音进行内容生成,那需要提前爬取抖音优质/劣质内容(具体看你用在什么场景,风控就用擦边/涉政类,优质就爬优质的),接入数仓ODS->DWD->ADS(ODS接入原始逆向也叫爬虫的数据,DWD进行json解析即数据清洗维度下沉,ADS进行内容打标,标记内容优质情况,当然打标可以走算法模型,最终封装json推送大模型平台)
因此数开在前置通常是接入研发/逆向研发数据从而给大模型推送
暂时无法在飞书文档外展示此内容
大模型后置产出数据进行测算评估
当经过workflow工作流识别、产出后的数据可以用于评估业务召唤/准确率,结合各种维度属性进行大模型生成内容调整,从而调整工作流,因此数据开发在大模型后置则是基于workflow返回数据及业务数据构建ods到ads链路,建设指标搭建报表。
暂时无法在飞书文档外展示此内容
Skill+Claw+数开组合
龙虾最近很火大家也都有安装过,没安装的同学看这篇文章Kimi Claw0-1搭建,OpenClaw最简单配置,Claw+Skill组合中,Skill就像你开发的离线任务封装的代码,Claw就像你调度器(Dophin Scheduler),Skill的逻辑是完全可以复用的
Skill 目录结构
.claude/skills/my-skill/ ├── SKILL.md # 核心指令文件(必须) ├── template.yaml # 可选模板文件 ├── scripts/ │ └── validate.sh # 可选脚本 └── examples/ # 可选参考示例
Skill 与 Claude Code 的交互 / 自动化执行
手动触发(用户调用):
/skill-name [arguments]
Claude 收到后展开为完整 Prompt 执行。
自动触发(Claude 自动调用):
- Claude 分析用户请求,匹配 description 字段,自动调用相关 Skill
- 例如用户说"帮我写个迁移文件",Claude 找到 description: Create a database migration file 的 Skill 并执行
Skill+Claw可以做的事
很多复杂的重复性工作都可以让Skill+Claw进行分析,例如我们上文提到的任务报错,给出原因和修改建议,还可以解决我们日常工作中数据治理等问题,都可以通过Skill去解决,但不是让他自动改你的表去治理奥,万一改错了就事故了,语兴的提议是让他给你治理/处理的建议,处理还是要人来看下,省了大家排查问题时间。
Skill如何开发
最简单的办法就是让大模型去写,你可以用Claude opus4.6去开发帮你写好Skill,然后每天让GPT5.2、GLM、Kimi这种帮你分析,实现最省钱的组合。
传统RAG
先说结论rag本质:我们先假设一个环境如果每次查询上下文只有4k token,但解读内容很多,例如解读《数据星河》,根本查不了,rag是把将厂文本进行split,将搜到的资料统一发给知识库检索,将查到的内容融合提示词发给大模型,但涉及跨页映射信息很容易出现检索不准情况(可能跨了好几个文档)。
对于数开能做RAG的场景还是在于大模型+数据问答助手,前端可以让大模型生产,背后走Dify平台,去读你这边洗好的核心表数据集及一些文档,但这里大模型温度一定要调低,
高温(>1.5)会造成大模型天马行空分析不够精准聚焦,温度过低(<1)会造成内容重复过多,因此你要搞清楚你到底要做什么样的agent,如果是咨询查表这种适合低温,如果用于财报/报表分析适合高温。
但这里又要引出新问题context rot(随着prompt/上下文变长,LLM效果下降):对于prompt到底是越长越好还是else越短越好,这个也形成2个极端,建议是强制执行还是走代码,同时一定要在前置判断用户目的(例如大模型资产助手那个项目),可供查阅的给文档,同时定期清理过时内容和数据集信息。

专题分析/指标设计/指标解读
语兴记得在2023-2024就一直在讨论Chat bi了,现在的模型更容易实现当前指标解读,甚至你给大模型数据表,在你不知道怎么设计的时候大模型依旧可以帮你完成指标整体设计,专题分析报告那更不难了写的比人好多了,前提是提示词要写清楚,提示词+架构思维+创新能力=未来招聘要求。
供应链人效分析报告(还是拿Deep seek写的):


MCP+数开组合
MCP可以说是很多目前大厂数据平台在2026的OKR了,都在想如何使用大模型实现数据平台的操作,通过Skill.md实现需求开发,这也是未来数据开发交互,只需要和大模型对话实现数据开发及数据平台功能交互。
MCP开发后面课程会讲这里只说一下MCP配置大模型的流程和最终交互展示:
在平台生成MCP Token的id,新建终端cd ~,vim .claude.json,wq保存,重启vs code


写提示词,提示词内容为:读取.claude.json文件使用mcp服务的get_table_ddl工具查询
.adm_usr_label_category_purchasing_level2_df

数据安全
数据安全在日常AI使用固然重要,因此对于日常问答沟通对于账号/密码、Mysql实例等信息切勿放到公网,可以在询问的时候置空,对于数据询问报告生成建议使用内部的Chat Bi进行生成,对于报告信息切勿透露出公司,如果不好填写数据可以不投喂大模型进行分析,让大模型提供专题分析报告模板你去填里面指标所对应的数据即可。
access_id='', secret_access_key='',
总结
总体来说AI在生产提效方面确实是强力Buff,如果没接触过AI同学可以接触接触,哪怕为了快速开发完去摸鱼也行,也建议大家在语兴的评论区下边留言,分享一些自己目前所做的AI项目,当然如果要学大模型+数据开发可以来ydata星球。
提示词+架构思维+创新能力=未来招聘要求
#大模型##数据人的面试交流地##AI了,我在打一种很新的工##AI求职记录##聊聊我眼中的AI#