AndyChop - 个人主页动态 - 牛客网

发布(3) 评论刷题收藏

03-30 13:13

阿里云_基础平台研发工程师

阿里云 AI Infra 实习生招聘

阿里云专有云iaas软硬结合AI创新team招实习啦，暑期实习可转正，简历直达leader核心方向，老板超nice，工作氛围好不卷，作息1075，base 北京/杭州/上海目前方向：1.  阿里自研ppu芯片 软硬协同优化2.  agentsandbox kata/firecracker/gvisor3. AI模型镜像链路加速，系统性能优化4. AI稳定性工程闭环对以上感兴趣的小伙伴们 直接+VVVV～X caoyifan1a2b---以下为官网 jd1.AI 训推系统级性能优化与组件化交付面向 LLM/VLM/VLA、智驾等场景，围绕训练与推理全链路开展性能分析与优化落地，产出可复用的软件组件/算子库/解决方案.典型优化方向：计算与访存瓶颈、显存/内存管理、KV Cache、长上下文、并行策略（TP/PP/DP/EP）、通信与网络（AllReduce/AllGather/AllToAll、RDMA）、数据与 I/O（DataLoader、checkpoint、存储带宽）。2.云原生 AI Runtime 与隔离（Kata / runD / Sandbox Runtime）负责 GPU 在 Kata Containers/沙箱容器中的高性能、安全隔离与可用性建设：GPU 直通/虚拟化、驱动与设备插件集成、容器镜像与运行时兼容。参与 sandbox runtime（containerd/CRI 体系）相关能力建设：资源隔离（cgroup/namespace/NUMA）、启动时延优化、稳定性与故障恢复、可观测性（metrics/tracing/logging）。与 Kubernetes 侧生态协同（Device Plugin、RuntimeClass、调度/拓扑亲和、弹性伸缩等），提升多租户环境下 GPU 利用率与 QoS。3.软硬件协同与异构算力适配深入结合硬件特性（计算单元、HBM/缓存层次、PCIe/NVLink/互联、编译器/运行时）制定协同优化方案，推进在训练/推理/云原生运行时侧的落地。构建 microbenchmark、性能模型与回归体系，快速定位瓶颈并指导组件演进。4.稳定性与工程闭环建设端到端与算子级 benchmark、自动化 profiling、CI 回归与精度/稳定性守护。定位并解决复杂问题：hang/crash、OOM、性能抖动、通信异常、GPU 设备异常、虚拟化/隔离环境下的兼容性问题。

0 点赞评论收藏

分享

03-21 09:58

阿里云_基础平台研发工程师

阿里云 AI Infra 实习生招聘

阿里云校招实习生开始了，龙虾管饱，等你来养~ 能内推到部门内部，内推码：181HBF职位描述在这里，你将成为大模型技术落地的“幕后推手”。你将参与构建支撑千卡/万卡规模的 AI 计算基础设施，通过软硬件协同优化，解决大模型在训练、推理、调度全链路中的工程挑战。你的代码将直接决定大模型训练的效率、推理的响应速度以及集群资源的利用率，为 AI 时代的算力底座注入核心动力。具体的职责包括以下相关方向的一项或多项：1. 算力基建与分布式训练：● 深入分布式训练架构，优化通信与底层算子性能，解决大规模集群通信瓶颈，提升模型训练的吞吐量与计算效率。参与研究新的训练框架和模式。极致推理加速：● 针对大规模推理场景，研发高性能推理引擎，通过kernel、框架、与算法结合的有损优化等手段，实现极致的低延迟与高并发。2. 智能化资源调度与系统：● 构建大规模 GPU 集群的统一调度与编排系统，实现算力资源的弹性分配与自动化调度，设计与优化面向 AI 计算场景的高性能通信、存储系统，保障海量任务的极致的效率。3. 工程效率与平台化建设：● 打造一体化的平台，覆盖大模型研发和迭代的全流程，降低模型迭代门槛，提升研发效能。职位要求1. 基础条件：● 计算机、软件工程等相关专业优先。● 热衷于数据结构和算法、在ACM大赛成绩优异者优先；有顶会论文/高影响项目/开源贡献者加分。2. 专业能力：● 系统工程与编程能力：具备良好的系统工程基础，熟悉 Linux 开发环境，掌握 Python、Go、Java 等至少一门编程语言，具备扎实的工程实现能力。● 分布式系统：了解分布式系统基本原理（如一致性、容错、扩展性等）。● AI 系统领域专业知识：对于以下领域中的一项或者多项具备专业能力○ 了解 AI 的基本原理与常见算法，理解模型训练任务的基本流程及其资源需求。○ 了解主流训练推理框架（如 PyTorch、TensorFlow、vLLM、sglang）的基本使用方式及训练流程。○ 了解异构计算或高性能计算体系，有 GPU 相关优化经验者优先。3. 能力特质：● 沟通能力：能与跨域岗位，如：算法、产品等，进行良好的沟通。● 跨域视野：有较宽的技术视野与知识面，对算法研发流程、数据、GPU调度、训练、推理等相关领域的技术逻辑都有涉猎。● 系统思维： 乐于挑战复杂系统的性能极限，具备良好的性能分析与调优能力，喜欢从底层视角拆解并解决问题。● 极客精神：对 AI 大模型技术充满热情，具备快速学习新技术的能力，渴望在高性能计算领域实现技术突破

帮你内推｜阿里云实习

0 点赞评论收藏

分享

03-21 12:22

已编辑

阿里云_基础平台研发工程师

阿里云 AI Infra 校招实习生招聘

阿里云校招实习生开始了，龙虾管饱，等你来养~  能内推到部门内部，内推码：181HBF职位描述在这里，你将成为大模型技术落地的“幕后推手”。你将参与构建支撑千卡/万卡规模的 AI 计算基础设施，通过软硬件协同优化，解决大模型在训练、推理、调度全链路中的工程挑战。你的代码将直接决定大模型训练的效率、推理的响应速度以及集群资源的利用率，为 AI 时代的算力底座注入核心动力。具体的职责包括以下相关方向的一项或多项：1. 算力基建与分布式训练：● 深入分布式训练架构，优化通信与底层算子性能，解决大规模集群通信瓶颈，提升模型训练的吞吐量与计算效率。参与研究新的训练框架和模式。极致推理加速：● 针对大规模推理场景，研发高性能推理引擎，通过kernel、框架、与算法结合的有损优化等手段，实现极致的低延迟与高并发。2. 智能化资源调度与系统：● 构建大规模 GPU 集群的统一调度与编排系统，实现算力资源的弹性分配与自动化调度，设计与优化面向 AI 计算场景的高性能通信、存储系统，保障海量任务的极致的效率。3. 工程效率与平台化建设：● 打造一体化的平台，覆盖大模型研发和迭代的全流程，降低模型迭代门槛，提升研发效能。职位要求1. 基础条件：● 计算机、软件工程等相关专业优先。● 热衷于数据结构和算法、在ACM大赛成绩优异者优先；有顶会论文/高影响项目/开源贡献者加分。2. 专业能力：● 系统工程与编程能力：具备良好的系统工程基础，熟悉 Linux 开发环境，掌握 Python、Go、Java 等至少一门编程语言，具备扎实的工程实现能力。● 分布式系统：了解分布式系统基本原理（如一致性、容错、扩展性等）。● AI 系统领域专业知识：对于以下领域中的一项或者多项具备专业能力○ 了解 AI 的基本原理与常见算法，理解模型训练任务的基本流程及其资源需求。○ 了解主流训练推理框架（如 PyTorch、TensorFlow、vLLM、sglang）的基本使用方式及训练流程。○ 了解异构计算或高性能计算体系，有 GPU 相关优化经验者优先。3. 能力特质：● 沟通能力：能与跨域岗位，如：算法、产品等，进行良好的沟通。● 跨域视野：有较宽的技术视野与知识面，对算法研发流程、数据、GPU调度、训练、推理等相关领域的技术逻辑都有涉猎。● 系统思维： 乐于挑战复杂系统的性能极限，具备良好的性能分析与调优能力，喜欢从底层视角拆解并解决问题。● 极客精神：对 AI 大模型技术充满热情，具备快速学习新技术的能力，渴望在高性能计算领域实现技术突破

0 点赞评论收藏

分享

创作者周榜

更多

关注他的用户也关注了：

牛客网
牛客网在线编程
牛客网题解
牛客企业服务