首页 / ai infra
#

ai infra

#
545次浏览 6人互动
此刻你想和大家分享什么
热门 最新
阿里云 AI Infra 实习生招聘
阿里云专有云iaas软硬结合AI创新team招实习啦,暑期实习可转正,简历直达leader核心方向,老板超nice,工作氛围好不卷,作息1075,base 北京/杭州/上海目前方向:1.  阿里自研ppu芯片 软硬协同优化2.  agentsandbox kata/firecracker/gvisor3. AI模型镜像链路加速,系统性能优化4. AI稳定性工程闭环对以上感兴趣的小伙伴们 直接+VVVV~X caoyifan1a2b---以下为官网 jd1.AI 训推系统级性能优化与组件化交付面向 LLM/VLM/VLA、智驾等场景,围绕训练与推理全链路开展性能分析与优化落地,产出可复用的软件组件/算子库/解决方案.典型优化方向:计算与访存瓶颈、显存/内存管理、KV Cache、长上下文、并行策略(TP/PP/DP/EP)、通信与网络(AllReduce/AllGather/AllToAll、RDMA)、数据与 I/O(DataLoader、checkpoint、存储带宽)。2.云原生 AI Runtime 与隔离(Kata / runD / Sandbox Runtime)负责 GPU 在 Kata Containers/沙箱容器中的高性能、安全隔离与可用性建设:GPU 直通/虚拟化、驱动与设备插件集成、容器镜像与运行时兼容。参与 sandbox runtime(containerd/CRI 体系)相关能力建设:资源隔离(cgroup/namespace/NUMA)、启动时延优化、稳定性与故障恢复、可观测性(metrics/tracing/logging)。与 Kubernetes 侧生态协同(Device Plugin、RuntimeClass、调度/拓扑亲和、弹性伸缩等),提升多租户环境下 GPU 利用率与 QoS。3.软硬件协同与异构算力适配深入结合硬件特性(计算单元、HBM/缓存层次、PCIe/NVLink/互联、编译器/运行时)制定协同优化方案,推进在训练/推理/云原生运行时侧的落地。构建 microbenchmark、性能模型与回归体系,快速定位瓶颈并指导组件演进。4.稳定性与工程闭环建设端到端与算子级 benchmark、自动化 profiling、CI 回归与精度/稳定性守护。定位并解决复杂问题:hang/crash、OOM、性能抖动、通信异常、GPU 设备异常、虚拟化/隔离环境下的兼容性问题。
点赞 评论 收藏
分享
玩命加载中
牛客网
牛客网在线编程
牛客网题解
牛客企业服务