刘先生
阿里云计算有限公司·高级技术专家
昨日
上次在线
94%
反馈率
1天
处理时长
在招职位 (6)
北京
硕士
岗位职责
1、负责研发AIOps系统,通过LLM结合OpenAPI/MCP等技术,实现云客户的自动化运维,提升运维效率和稳定性;
2、设计与开发前沿AI智能体: 构思、原型化并评估新颖的、基于LLM的自主智能体,能够基于云平台产品和OpenAPI执行端到端的IT事件管理任务,包括智能日志分析、多模态异常检测、根本原因分析(RCA)以及自动化修复方案的生成与执行 ;
3、探索与实施尖端LLM技术: 深入研究并应用最先进的LLM技术,包括但不限于:
•MCP/Skills为客户侧AIOps系统提供与云平台OpenAPI进行集成的标准化接口;
•利用检索增强生成(RAG)为模型提供丰富的、上下文感知的运维数据(如日志、指标、追踪);
•设计和实现多智能体协作框架,让多个专用智能体协同解决复杂的系统故障;
•通过模型微调(Fine-tuning)和提示工程(Prompt Engineering),提升模型在特定运维任务上的性能和可靠性;
4、解决核心研究挑战: 专注于攻克将LLM应用于AIOps领域的关键难题,包括但不限于:
•研究并提出创新方法以减轻模型的“幻觉”(Hallucination)问题,确保在生产环境中的决策可靠性,例如通过引入外部知识库或标准操作程序(SOPs)进行约束;
•开发资源高效型(Resource-Efficient)模型和算法,在保证卓越性能的同时,解决LLM高昂的计算成本和延迟问题;
5、推动科学严谨性与可复现性: 建立和利用科学的评估基准与框架(Benchmark),对所研发的模型和智能体进行严格、可复现的性能评测,并与业界SOTA(State-of-the-art)方案进行比较;
6、发表与分享研究成果: 将创新工作和实验发现撰写成高质量的学术论文,并在全球顶级的AI、系统和软件工程会议(如ICSE、FSE、OSDI、NSDI、KDD、VLDB等)上发表,引领该领域的学术发展方向。
岗位要求
1、拥有计算机科学或相关领域的博士学位,研究方向为人工智能、机器学习、自然语言处理或分布式系统;
2、在上述领域的顶级学术会议或期刊上拥有出色的论文发表记录;
3、对现代LLM(尤其是基于Transformer的架构)有深刻的理解,并具备应用、微调和评估这些模型的实践经验;
4、具备出色的编程能力,精通Python及至少一种主流深度学习框架(如PyTorch、TensorFlow)。
【加分项】
1、熟悉云计算产品、技术和OpenAPI,了解如何构建基于云的运维系统;
2、有构建能够与外部工具或环境交互的AI智能体(AI Agent)的实际经验;
3、熟悉现代云原生技术栈,包括微服务架构、容器化(Kubernetes)以及可观测性工具(如Prometheus、Jaeger、ELK Stack);
4、对AIOps领域的当前研究现状和公开基准(如AIOpsLab、OpenRCA、LogEval)有深入了解者优先;
5、具备处理和推理异构数据(如日志、指标、追踪)的经验,以解决复杂的根因分析问题;
6、对创建领域专用语言模型(如BERTOps)或探索强化学习在智能体优化中的应用有浓厚兴趣。
申请
杭州
硕士
岗位职责
1、负责研发AIOps系统,通过LLM结合OpenAPI/MCP等技术,实现云客户的自动化运维,提升运维效率和稳定性;
2、设计与开发前沿AI智能体: 构思、原型化并评估新颖的、基于LLM的自主智能体,能够基于云平台产品和OpenAPI执行端到端的IT事件管理任务,包括智能日志分析、多模态异常检测、根本原因分析(RCA)以及自动化修复方案的生成与执行 ;
3、探索与实施尖端LLM技术: 深入研究并应用最先进的LLM技术,包括但不限于:
•MCP/Skills为客户侧AIOps系统提供与云平台OpenAPI进行集成的标准化接口;
•利用检索增强生成(RAG)为模型提供丰富的、上下文感知的运维数据(如日志、指标、追踪);
•设计和实现多智能体协作框架,让多个专用智能体协同解决复杂的系统故障;
•通过模型微调(Fine-tuning)和提示工程(Prompt Engineering),提升模型在特定运维任务上的性能和可靠性;
4、解决核心研究挑战: 专注于攻克将LLM应用于AIOps领域的关键难题,包括但不限于:
•研究并提出创新方法以减轻模型的“幻觉”(Hallucination)问题,确保在生产环境中的决策可靠性,例如通过引入外部知识库或标准操作程序(SOPs)进行约束;
•开发资源高效型(Resource-Efficient)模型和算法,在保证卓越性能的同时,解决LLM高昂的计算成本和延迟问题;
5、推动科学严谨性与可复现性: 建立和利用科学的评估基准与框架(Benchmark),对所研发的模型和智能体进行严格、可复现的性能评测,并与业界SOTA(State-of-the-art)方案进行比较;
6、发表与分享研究成果: 将创新工作和实验发现撰写成高质量的学术论文,并在全球顶级的AI、系统和软件工程会议(如ICSE、FSE、OSDI、NSDI、KDD、VLDB等)上发表,引领该领域的学术发展方向。
岗位要求
1、拥有计算机科学或相关领域的博士学位,研究方向为人工智能、机器学习、自然语言处理或分布式系统;
2、在上述领域的顶级学术会议或期刊上拥有出色的论文发表记录;
3、对现代LLM(尤其是基于Transformer的架构)有深刻的理解,并具备应用、微调和评估这些模型的实践经验;
4、具备出色的编程能力,精通Python及至少一种主流深度学习框架(如PyTorch、TensorFlow)。
【加分项】
1、熟悉云计算产品、技术和OpenAPI,了解如何构建基于云的运维系统;
2、有构建能够与外部工具或环境交互的AI智能体(AI Agent)的实际经验;
3、熟悉现代云原生技术栈,包括微服务架构、容器化(Kubernetes)以及可观测性工具(如Prometheus、Jaeger、ELK Stack);
4、对AIOps领域的当前研究现状和公开基准(如AIOpsLab、OpenRCA、LogEval)有深入了解者优先;
5、具备处理和推理异构数据(如日志、指标、追踪)的经验,以解决复杂的根因分析问题;
6、对创建领域专用语言模型(如BERTOps)或探索强化学习在智能体优化中的应用有浓厚兴趣。
申请
【27届实习】阿里云开放平台-AI应用研发工程师
400-600元/天
杭州
硕士
岗位职责
洞察业务问题,以AI为核心计算引擎,清晰定义目标,设计AI原生架构(AI-Native Architecture),完成任务的编排与交付,将AI的不确定性转化为工程的确定性,让大模型在真实生产环境中稳定落地。具体职责包括:
1.需求共创与问题定义:深入业务一线,通过数据挖掘与特征分析完成现象归因与建模,成为需求的共创者。定义目标与非目标(Goal & Non Goal),将业务需求转译为工程需求。
2.架构与系统设计:针对业务问题进行数学与逻辑建模,从零设计AI原生架构(AI-Native Architecture),包括Agent系统的业务流程建模与闭环设计(意图明确、任务拆解、工具调用、自主执行、反思纠错)。在成本、性能、安全、合规、SLO之间做系统级权衡,设计高可用架构并落实监控告警与自动恢复机制。
3.任务编排与交付:将AI的“不确定性”转化为工程的“确定性”。包括环境构建(API网关、消息队列、缓存等),工程迭代(调试、旁路测试、自动化评测),任务拆解与依赖编排,边界治理(权限分级、审计链、失败兜底),以及交付指标的持续优化。
4.Agent核心能力设计与实现:负责Agent关键模块的方案选型与工程落地,包括:上下文与记忆管理(短期/长期记忆方案,上下文窗口管理,多轮交互的信息连贯性),规划与推理策略(根据业务场景选择和优化ReAct、Plan-and-Execute、反思机制等模式),工具集成与编排(对接业务系统API和外部工具,设计工具描述、调用链路与异常处理机制),RAG/知识增强(构建业务知识库的检索增强方案,优化召回质量与上下文注入策略)。
5.工程正确性管理:明确业务规则与边界条件,定义数据契约。建立分层验证体系与CI阻断机制,持续跟踪缺陷密度与线上故障率,通过灰度发布与渐进式rollout持续降低MTTR。
6.沉淀与迭代:通过复盘提炼业务路径与技术经验,将成功经验内化为可复用的模型能力与系统底座,实现智能的规模化应用。
岗位要求
1.基础条件:计算机、软件工程、人工智能等相关专业优先。
2.专业能力
● AI编程工具重度玩家:Cursor、Claude Code等AI编程工具重度或顶级玩家,具备极强的Prompt编写与调优能力,有过完整的项目级开发经验,理解如何让AI写出生产级代码。
● 大模型理解与掌握: 理解主流LLM的能力与局限,能够清晰拆解任务并通过LLM或确定性逻辑兜底实现;熟悉主流大模型的应用范式(Prompt Engineering、RAG、Agent、工具/函数调用、检索增强等)及主流Agent框架(如LangChain等),具备大模型幻觉、Prompt注入等风险的工程化应对思路。
● 委托编排与人机协作: 具备任务拆解、分层与分布设计能力,能完成上下文供给与约束注入,处理多agent协作与冲突治理。
● 验证与交付工程: 掌握测试工程全链路(覆盖、回归、分层),具备根因分析与调试定位能力,熟悉CI、lint、静态分析等变更管理工具。
● 工程与系统素养:能至少在一种主流编程语言(如 Java / Python / JS 等)上有深度的实践经验,掌握常见工程实践并具备优秀的Coding 能力,能够根据场景灵活选型并快速上手。
3.能力特质
● 学习力:对AI有热情、对前沿技术与产品好奇,对未知开放,能举一反三。
● 动手能力:积极主动体验市场中先进的模型和产品,独立阅读论文/技术报告等并快速复现,快速主动尝试落地先进开源项目。
● 技术审美:对新技术有近乎本能的渴望,追求简洁、可维护、可扩展方案;在模型/框架/工具选型上保持高信噪比决策。
【加分项】
1.有AI应用或Agent实际落地经验:包括不限于RAG系统、多智能体编排、结合MCP、Skill等的Agent项目,有可展示的项目/实习成果者优先。
2.开源贡献或技术影响力:在Github上有高质量AI项目、技术博客或社区影响力。
3.对AI Infra有基本理解:了解vLLM、Ollama等推理框架原理,理解延迟优化、KV cache优化、流式输出等工程全景视角。
4.在 CV(计算机视觉)或 NLP(自然语言处理)方向有扎实的理论基础,有实际业务场景模型训练(SFT、RL)等经验的优先。
申请
【27届实习】阿里云开放平台-AI应用研发工程师
400-600元/天
北京
硕士
岗位职责
洞察业务问题,以AI为核心计算引擎,清晰定义目标,设计AI原生架构(AI-Native Architecture),完成任务的编排与交付,将AI的不确定性转化为工程的确定性,让大模型在真实生产环境中稳定落地。具体职责包括:
1.需求共创与问题定义:深入业务一线,通过数据挖掘与特征分析完成现象归因与建模,成为需求的共创者。定义目标与非目标(Goal & Non Goal),将业务需求转译为工程需求。
2.架构与系统设计:针对业务问题进行数学与逻辑建模,从零设计AI原生架构(AI-Native Architecture),包括Agent系统的业务流程建模与闭环设计(意图明确、任务拆解、工具调用、自主执行、反思纠错)。在成本、性能、安全、合规、SLO之间做系统级权衡,设计高可用架构并落实监控告警与自动恢复机制。
3.任务编排与交付:将AI的“不确定性”转化为工程的“确定性”。包括环境构建(API网关、消息队列、缓存等),工程迭代(调试、旁路测试、自动化评测),任务拆解与依赖编排,边界治理(权限分级、审计链、失败兜底),以及交付指标的持续优化。
4.Agent核心能力设计与实现:负责Agent关键模块的方案选型与工程落地,包括:上下文与记忆管理(短期/长期记忆方案,上下文窗口管理,多轮交互的信息连贯性),规划与推理策略(根据业务场景选择和优化ReAct、Plan-and-Execute、反思机制等模式),工具集成与编排(对接业务系统API和外部工具,设计工具描述、调用链路与异常处理机制),RAG/知识增强(构建业务知识库的检索增强方案,优化召回质量与上下文注入策略)。
5.工程正确性管理:明确业务规则与边界条件,定义数据契约。建立分层验证体系与CI阻断机制,持续跟踪缺陷密度与线上故障率,通过灰度发布与渐进式rollout持续降低MTTR。
6.沉淀与迭代:通过复盘提炼业务路径与技术经验,将成功经验内化为可复用的模型能力与系统底座,实现智能的规模化应用。
岗位要求
1.基础条件:计算机、软件工程、人工智能等相关专业优先。
2.专业能力
● AI编程工具重度玩家:Cursor、Claude Code等AI编程工具重度或顶级玩家,具备极强的Prompt编写与调优能力,有过完整的项目级开发经验,理解如何让AI写出生产级代码。
● 大模型理解与掌握: 理解主流LLM的能力与局限,能够清晰拆解任务并通过LLM或确定性逻辑兜底实现;熟悉主流大模型的应用范式(Prompt Engineering、RAG、Agent、工具/函数调用、检索增强等)及主流Agent框架(如LangChain等),具备大模型幻觉、Prompt注入等风险的工程化应对思路。
● 委托编排与人机协作: 具备任务拆解、分层与分布设计能力,能完成上下文供给与约束注入,处理多agent协作与冲突治理。
● 验证与交付工程: 掌握测试工程全链路(覆盖、回归、分层),具备根因分析与调试定位能力,熟悉CI、lint、静态分析等变更管理工具。
● 工程与系统素养:能至少在一种主流编程语言(如 Java / Python / JS 等)上有深度的实践经验,掌握常见工程实践并具备优秀的Coding 能力,能够根据场景灵活选型并快速上手。
3.能力特质
● 学习力:对AI有热情、对前沿技术与产品好奇,对未知开放,能举一反三。
● 动手能力:积极主动体验市场中先进的模型和产品,独立阅读论文/技术报告等并快速复现,快速主动尝试落地先进开源项目。
● 技术审美:对新技术有近乎本能的渴望,追求简洁、可维护、可扩展方案;在模型/框架/工具选型上保持高信噪比决策。
【加分项】
1.有AI应用或Agent实际落地经验:包括不限于RAG系统、多智能体编排、结合MCP、Skill等的Agent项目,有可展示的项目/实习成果者优先。
2.开源贡献或技术影响力:在Github上有高质量AI项目、技术博客或社区影响力。
3.对AI Infra有基本理解:了解vLLM、Ollama等推理框架原理,理解延迟优化、KV cache优化、流式输出等工程全景视角。
4.在 CV(计算机视觉)或 NLP(自然语言处理)方向有扎实的理论基础,有实际业务场景模型训练(SFT、RL)等经验的优先。
申请
【27届实习】阿里云开放平台-基础平台研发工程师
400-600元/天
杭州
硕士
岗位职责
1. 负责云原生基础设施技术,包括研发面向百万级服务器的应用容器网络、面向AI超算的100G/200G/400G大规模高性能网络及通信基础设施建设,面向电商、AI、大数据等核心互联网应用场景的高性能计算、存储服务器研发、数据中心,以及构建超大规模的基础设施智能化集群管理和运维系统(例如研发运维平台、资源调度、监控报警、AIOPS等技术方向);
2. 负责系统软件研发,包括操作系统/内核、JVM、编译器、Docker/安全容器、ETCD/Zookeeper分布式协调系统、网络&存储虚拟化等技术方向;
3. 负责阿里巴巴中间件产品的研发与维护,包括但不限于服务、消息、缓存、数据库、微服务框架等;负责 AI /高性能计算所需要的高性能分布式通信框架;负责阿里巴巴全局高可用产品的研发与维护,包括但不限于单元化架构、容灾、快恢、演练等;负责不断提升应用运行时的研发效率和分析诊断效率;探索 Serverless、AIGC 等新场景下的解决方案;
4. 负责MySQL、Postgre SQL、MongoDB、Redis、HBase等开源数据库内核的改进,TDDL等分布式数据库中间件研发及大规模集群运维平台建设;
5. 参与大型技术平台的开发和维护,完成从需求到设计、开发和上线等整个项目周期内的工作。
岗位要求
1. 热爱编程,熟悉掌握但不限于C/C++/Java/Golang/Node.JS等编程语言中的一种或几种;
2. 基础知识扎实,熟悉计算机系统结构、操作系统内核、网络、分布式系统、算法等领域;
3. 具备优秀程序员的基本素养,遇到问题可以一查到底,善用工具,对工程效率有自己的见解;
4. 学习能力强,对新事物保有好奇心,不断突破技术瓶颈,乐于探索未知领域;
5. 有良好的沟通能力和团队协同能力,善于独立思考并反思总结。
【加分项】
1. 在github等开源社区具备有较大影响力的技术项目,作为Collaborator/Committer/Member优先;
2. 作为重要角色参与领域内有含金量的比赛并取得成绩(比如ACM);
3. 发表顶刊顶会(参考CCF-A),担当一作/并列/二作;
4. 获得过业界有影响力的专利。
申请
【27届实习】阿里云开放平台-基础平台研发工程师
400-600元/天
北京
硕士
岗位职责
1. 负责云原生基础设施技术,包括研发面向百万级服务器的应用容器网络、面向AI超算的100G/200G/400G大规模高性能网络及通信基础设施建设,面向电商、AI、大数据等核心互联网应用场景的高性能计算、存储服务器研发、数据中心,以及构建超大规模的基础设施智能化集群管理和运维系统(例如研发运维平台、资源调度、监控报警、AIOPS等技术方向);
2. 负责系统软件研发,包括操作系统/内核、JVM、编译器、Docker/安全容器、ETCD/Zookeeper分布式协调系统、网络&存储虚拟化等技术方向;
3. 负责阿里巴巴中间件产品的研发与维护,包括但不限于服务、消息、缓存、数据库、微服务框架等;负责 AI /高性能计算所需要的高性能分布式通信框架;负责阿里巴巴全局高可用产品的研发与维护,包括但不限于单元化架构、容灾、快恢、演练等;负责不断提升应用运行时的研发效率和分析诊断效率;探索 Serverless、AIGC 等新场景下的解决方案;
4. 负责MySQL、Postgre SQL、MongoDB、Redis、HBase等开源数据库内核的改进,TDDL等分布式数据库中间件研发及大规模集群运维平台建设;
5. 参与大型技术平台的开发和维护,完成从需求到设计、开发和上线等整个项目周期内的工作。
岗位要求
1. 热爱编程,熟悉掌握但不限于C/C++/Java/Golang/Node.JS等编程语言中的一种或几种;
2. 基础知识扎实,熟悉计算机系统结构、操作系统内核、网络、分布式系统、算法等领域;
3. 具备优秀程序员的基本素养,遇到问题可以一查到底,善用工具,对工程效率有自己的见解;
4. 学习能力强,对新事物保有好奇心,不断突破技术瓶颈,乐于探索未知领域;
5. 有良好的沟通能力和团队协同能力,善于独立思考并反思总结。
【加分项】
1. 在github等开源社区具备有较大影响力的技术项目,作为Collaborator/Committer/Member优先;
2. 作为重要角色参与领域内有含金量的比赛并取得成绩(比如ACM);
3. 发表顶刊顶会(参考CCF-A),担当一作/并列/二作;
4. 获得过业界有影响力的专利。
申请
企业服务 已上市 杭州
阿里云是阿里巴巴集团旗下的云计算与人工智能科技公司,成立于2009年。公司核心业务是向全球企业、开发者和政府机构提供公共云服务,包括弹性计算、数据存储、网络、数据库、大数据分析、人工智能及安全等一系列产品。阿里云运营着遍布全球多个区域的数据中心,通过互联网向客户提供按需取用、弹性伸缩的IT资源。其客户覆盖互联网、金融、零售、制造、政务等多个行业。阿里云设有庞大的研发团队,从事分布式系统、数据库、服务器、芯片等底层技术的开发。作为云计算服务提供商,其服务稳定性、安全性、性能及价格是市场竞争的关键要素。公司的业务规模与全球数字化转型进程和企业在IT支出上云化的比例密切相关。