03-23 10:25 已编辑网易_数据开发工程师

发布于未知

关注

AI时代下数据开发工作方式转变

背景

现在ai发展越来越快随着Claude opus 4.6、GPT5.4、Gemini3.1 Pro、GLM5等模型越来越好用，同时Open Claw、Skill、MCP出现➕最近很多很多大厂也出现裁员/岗位合并等文章，使得很多同学陷入了AI焦虑，很多同学目前不知道自己要学啥（当前课程太杂太乱没有体系），反正要赶上风口怕被淘汰，同时也回答下大环境问题，很多同学都是在AI时代下都淘汰了，本质不是这样的，工作模式变了，开发效率/产出效率越来越快了，而且AI影响的是所有行业不光是程序员，例如音乐创作者现在被SUNO V5替代，短视频创作可以用Seedance2.0。

这里给大模型排名，对于大家日后使用进行判断，1.Claude opus、2.GPT、3.Gemini/Grok、4.GLM、5.Kimi、6.Qwen/Minimax/豆包。

在这个AI交互频次变多的环境，更多考察的是大家的Idea（未来考察人才最重要是想法），而不是实现方式，有了好的Idea，就可以让AI帮你开发，包括做工具做网站，使用小龙虾，如果你觉得Claw、Agent效果太差准确率太低，是因为Model有点蠢，正常Claude opus 4.6能够完全替代程序员业务进行程序开发及文档编写，只是非Token，但很多公司仍然给员工用一般模型还要控额度去阉割模型，还想着降本，说是要提效但反而没提效。

那我们这期谈一下，AI时代下数据开发变化的方式、未来可以做什么、要学什么内容给大家一个方向，目前AI技能对于大家来说都是从0开始学同一起跑线，但在语兴看来一切能力都是模型提供Emm，普通人会大模型应用基本就够，肯定大模型底层比大模型应用门槛更高但对于常人基本也接触不到（如同会开车和研究汽车引擎）。

对于找工作同学来说这会整清楚AI，并在简历加上AI项目，无异于给你加上了Buff，现在数据开发简历有AI项目会比没有AI项目更优先选择（已经过实验证明），既然趋势已经来了就好好拥抱，同时在当前大模型应用还没有明确的招聘标准下（混沌期），这时你转型/转岗大模型应用也是比较好进去的，无论你之前是数分、数开，给个未来岗位猜测吧，可能以后只有数据岗了。

数据开发时间线

AI+数据开发

日常问答（报错、倾斜、python/java开发）

报错建议让GPT/Codex/GLM/Kimi分析即可，将报错信息和数据代码直接给AI即可，数据倾斜建议用Claude opus/GPT（改造代码慎重），代码改造需要你把图贴给AI去看Spark web ui的截图就行，至于Python/Java对于数据开发来说不需要你开发但需要你设计总体方案，建议用Claude opus/GPT，例如我要开发一个飞书卡片2hive的脚本，描述你的诉求、表结构、飞书信息、文档信息、机器人等，如不写好提示词，AI也没办法帮你分析生产，所以在AI+数据时代，好的Idea+实现方式+开发规范才能让你更高效，还是需要一些架构经验的，但在AI时代会总结提示词，尤其是文档能力很强的同学非常占优，有理科的架构和文科的内容总结，才是用好AI的关键。

但Claude opus确实贵，就语兴来说一天花费差不多30-40刀都是正常的，真付费上班了。

AI报错问答交互：

飞书卡片信息落地：

截图涉及敏感数据我就不放了，最好是再给几张配图放到Claude code中，敏感数据可以p掉

需求是这样的，使用python3实现，飞书群会一直发送飞书卡片，卡片信息如下，当前诉求是t+1获取一下卡片里面信息将对应的字段的值落到对应的字段中，只获取昨日整天的卡片数据就行了，写入表为ads_risk_xxx，同时需要卡片中的一般/重要等级将数据写入level等级中，还需要将卡片中的标题写入到title 标题中，卡片中文本信息写入content中，账户信息为xxxxx
CREATE TABLE IF NOT EXISTS ads_risk_xxx(
        title STRING COMMENT '标题',
         level STRING COMMENT '等级（一般、重要）',
         content STRING COMMENT '内容',
         system_create_time DATETIME COMMENT '系统创建时间'
) 
PARTITIONED BY (pt STRING COMMENT '业务日期, yyyymmdd') 
TBLPROPERTIES ('comment'='xxx') 
LIFECYCLE 180;

工具开发

工具分为2种，1是开发平台类工具，2是解决数开类的一些问题

强烈建议打开plan

开发平台工具

例如取数平台、指标平台、Chat BI、监控平台、工单回复等，需要写好Prompt，画好prd让AI读取，同时需要你想好技术栈、申请域名、UI等，建议用Claude opus进行开发（因此还是需要经验的，但经验可以多看一些课程来培养，通过Vibe coding实现，各类网站都可以开发，例如这个平台就是用AI写的https://way.ydata.vip/，从PRD设计发布生成只用了3天时间，提示词过长这里就不写了，有些同学说我不知道需要设计啥没有某平台原型图概念，既然没有原型图你就去一些官网买一个月去玩玩（首单很便宜），实在不行给平台截图直接喂大模型就完了，在AI时代代码不是壁垒，好的Idea才是，但好的Idea出来也会被其他人用AI进行洗稿，因此SAAS未来会很难，得找到自己的竞争优势。

解决数开类的一些问题

例如做一些同步类工具飞书2hive、DQC自增等工具，只需要有好的Idea就行，看到业务及组内的痛点快速解决痛点，使用Claude opus进行开发，通常一个Python3脚本就够。

DQC自增：

截图我这里就不放了
目前我有个需求，ODPS PYTHO3,基于当前表ads_xxx_dqc（分区表，pt，每天执行时取前一天分区就行）有4个字段node_id（任务节点id）,output_table_name（配置数据表名）, project_id（项目空间id），project_name（项目空间name），需求是调用阿里云datawroks数据质量api接口,给node_id,output_table_name,project_id,每天配置数据质量监控,其中数据范围选择按分区设置范围pt='${bizdate}',质量监控名称为output_table_name+当前日期组合,新建规则,规则1的规则名称为表大小，固定值,规则模板为表大小，固定值,监控阈值正常阈值
>0,红色阈值<=0,启用状态为启用,重要程度为强规则,规则2的规则名称为表大小，1天波动率,规则模板为表大小，1天波动率,监控阈值正常阈值
<=49%,橙色阈值>49%,红色阈值>50%,启用状态为启用,重要程度为强规则,整体触发方式为生产调度触发,关联调度节点为node_id（任务节点id）,选择运行资源名称为odps_first,资源为生产环境,告警方式配置为飞书机器人webhook地址为https://open.feishu.cn/open-apis/bot/v2/hook/，o = ODPS(access_id='',
            secret_access_key='',
            project='',
            end_point='http://service.cn-hangzhou.maxcompute.aliyun.com/api')
调用阿里云api方法请参考https://api.aliyun.com/api/dataworks-public/2024-05-18/CreateDataQualityScan

Dify+数开组合

本质的大模型数仓还是和业务数仓开发类似，还是搭建数仓，只是从原来的数据接入后搭建报表到现在需要进行前置数据推送+大模型识别后数据接入，这里要注意了如果你要使用Dify平台中的模型建议选用便宜的，因为数据他是单条处理的很消耗Token，推荐GPT5.2、GLM、Kimi这种，提示词可以让AI帮你优化。

工作流

agent解释：ai agent也叫人工智能代理，是一种能够感知环境、进行决策和执行动作的智能实体。智能体像人一样，它有记忆、有逻辑分析能力、有任务拆解能力、问题的拆解能力和最后综合回来统一解决问题的能力，例如自动回复邮件的程序，自动驾驶都叫agent。

dify：是一个集成开发环境，提供低代码工具帮助开发者构建、部署和管理AI应用，如聊天机器人、智能助手等。

dify平台功能

数据前置生成投入大模型进行打标

数据前置生成投入即清洗好原始宽表数据信息，选择更贴合场景的内容数据，例如今天我们要做模拟抖音进行内容生成，那需要提前爬取抖音优质/劣质内容（具体看你用在什么场景，风控就用擦边/涉政类，优质就爬优质的），接入数仓ODS->DWD->ADS（ODS接入原始逆向也叫爬虫的数据，DWD进行json解析即数据清洗维度下沉，ADS进行内容打标，标记内容优质情况，当然打标可以走算法模型，最终封装json推送大模型平台）

因此数开在前置通常是接入研发/逆向研发数据从而给大模型推送

暂时无法在飞书文档外展示此内容

大模型后置产出数据进行测算评估

当经过workflow工作流识别、产出后的数据可以用于评估业务召唤/准确率，结合各种维度属性进行大模型生成内容调整，从而调整工作流，因此数据开发在大模型后置则是基于workflow返回数据及业务数据构建ods到ads链路，建设指标搭建报表。

暂时无法在飞书文档外展示此内容

Skill+Claw+数开组合

龙虾最近很火大家也都有安装过，没安装的同学看这篇文章Kimi Claw0-1搭建，OpenClaw最简单配置，Claw+Skill组合中，Skill就像你开发的离线任务封装的代码，Claw就像你调度器（Dophin Scheduler），Skill的逻辑是完全可以复用的

Skill 目录结构

.claude/skills/my-skill/
├── SKILL.md           # 核心指令文件（必须）
├── template.yaml      # 可选模板文件
├── scripts/
│   └── validate.sh    # 可选脚本
└── examples/          # 可选参考示例

Skill 与 Claude Code 的交互 / 自动化执行

手动触发（用户调用）：

/skill-name [arguments]

Claude 收到后展开为完整 Prompt 执行。

自动触发（Claude 自动调用）：

Claude 分析用户请求，匹配 description 字段，自动调用相关 Skill
例如用户说"帮我写个迁移文件"，Claude 找到 description: Create a database migration file 的 Skill 并执行

Skill+Claw可以做的事

很多复杂的重复性工作都可以让Skill+Claw进行分析，例如我们上文提到的任务报错，给出原因和修改建议，还可以解决我们日常工作中数据治理等问题，都可以通过Skill去解决，但不是让他自动改你的表去治理奥，万一改错了就事故了，语兴的提议是让他给你治理/处理的建议，处理还是要人来看下，省了大家排查问题时间。

Skill如何开发

最简单的办法就是让大模型去写，你可以用Claude opus4.6去开发帮你写好Skill，然后每天让GPT5.2、GLM、Kimi这种帮你分析，实现最省钱的组合。

传统RAG

先说结论rag本质：我们先假设一个环境如果每次查询上下文只有4k token，但解读内容很多，例如解读《数据星河》，根本查不了，rag是把将厂文本进行split，将搜到的资料统一发给知识库检索，将查到的内容融合提示词发给大模型，但涉及跨页映射信息很容易出现检索不准情况（可能跨了好几个文档）。

对于数开能做RAG的场景还是在于大模型+数据问答助手，前端可以让大模型生产，背后走Dify平台，去读你这边洗好的核心表数据集及一些文档，但这里大模型温度一定要调低，

高温（>1.5）会造成大模型天马行空分析不够精准聚焦，温度过低（<1）会造成内容重复过多，因此你要搞清楚你到底要做什么样的agent，如果是咨询查表这种适合低温，如果用于财报/报表分析适合高温。

但这里又要引出新问题context rot（随着prompt/上下文变长,LLM效果下降）：对于prompt到底是越长越好还是else越短越好，这个也形成2个极端，建议是强制执行还是走代码，同时一定要在前置判断用户目的（例如大模型资产助手那个项目），可供查阅的给文档，同时定期清理过时内容和数据集信息。

专题分析/指标设计/指标解读

语兴记得在2023-2024就一直在讨论Chat bi了，现在的模型更容易实现当前指标解读，甚至你给大模型数据表，在你不知道怎么设计的时候大模型依旧可以帮你完成指标整体设计，专题分析报告那更不难了写的比人好多了，前提是提示词要写清楚，提示词+架构思维+创新能力=未来招聘要求。

供应链人效分析报告（还是拿Deep seek写的）：

MCP+数开组合

MCP可以说是很多目前大厂数据平台在2026的OKR了，都在想如何使用大模型实现数据平台的操作，通过Skill.md实现需求开发，这也是未来数据开发交互，只需要和大模型对话实现数据开发及数据平台功能交互。

MCP开发后面课程会讲这里只说一下MCP配置大模型的流程和最终交互展示：

在平台生成MCP Token的id，新建终端cd ~，vim .claude.json，wq保存，重启vs code

写提示词，提示词内容为：读取.claude.json文件使用mcp服务的get_table_ddl工具查询

.adm_usr_label_category_purchasing_level2_df

数据安全

数据安全在日常AI使用固然重要，因此对于日常问答沟通对于账号/密码、Mysql实例等信息切勿放到公网，可以在询问的时候置空，对于数据询问报告生成建议使用内部的Chat Bi进行生成，对于报告信息切勿透露出公司，如果不好填写数据可以不投喂大模型进行分析，让大模型提供专题分析报告模板你去填里面指标所对应的数据即可。