徐鑫 (Xin Xu)

AI Infra 技术负责人|大规模推理平台·AIGC·SRE·全球化交付

image

现任字节跳动智能创作—AI平台部门基础架构负责人,以 AI 中台为基座,承接视觉大模型交付过程中的全球化基建需求,覆盖模型训练、资源管理、能力开发与调试、能力部署、多地域同步、流量调度、资源交付与稳定性等全链路;面向内部与外部分别提供统一的工程化与规模化能力。

  • 平台化与交付(AI 中台):内部以 ByteArtist 支撑抖音、TikTok、剪映与豆包等业务的能力交付;在火山引擎以 Lumi 对外提供 ToB 服务。平台覆盖训练/调试/工程化/部署/运维/体验,月均交付 100+ AI 能力(含 Seed 系列),核心业务可自助交付,工程化零人工介入。
  • 基础设施与规模:支撑峰值 10w+ QPS、>20w GPU、全球多地域部署与多活;通过镜像瘦身与分层、在线混部、模型分发加速、智能扩缩、负载均衡等手段,将推理 GPU 日均 SMA 由 10% 提升至 40%(部分能力 >70%)。
  • 稳定性与成本:沉淀 BC 端统一治理规范(可观测性/容灾/应急预案),稳定性从 1 个 9 提升至 3~4 个 9;建立商品化定价与自动估价体系,2024 年完成亿级成本梳理,支撑精细化资源与预算管理。

曾在腾讯游戏负责容器平台,推动多业务云原生转型。开源方面为 Apache APISIX PMC Member,长期参与多个开源项目。


Work Experience

AI Infra 技术负责人

字节跳动 ByteDance | 2021 - 至今

以 AI 中台为基座承接视觉大模型交付的全球化基建需求,贯通训练、资源管理、开发调试、部署、多地域同步、流量调度、资源交付与稳定性;从 B 端沉淀方法论反哺 C 端,0→1 组建并管理 30+ 人团队,在规模化、效率与稳定性上多维突破。

  • AI 中台(内部 ByteArtist / 外部 Lumi)- 交付平台:主导构建端到端交付平台(调试/工程化/部署/运维/体验),月均交付 100+ 能力;核心业务实现自助交付,工程化零人工介入,能力从孵化到上线周期显著缩短。
  • AI 中台 - AIGC 生态:基于 Comfy 生态构建资产池(Workflow/插件/模型),资产总量 10 万+(自研/开源/算法/UGC),支撑抖音、剪映、Flow 等业务爆款特效上线,提升创作效率与留存。
  • 全球化基础设施:自研资源/流量调度、模型分发与加速、多地域同步与多活架构,支撑峰值 10w+ QPS、>20w GPU、全球多地域部署;通过镜像瘦身与分层、在线混部、智能扩缩、负载均衡,将推理 GPU 利用率由 10%→40%(部分能力 >70%)。
  • SRE 与商品化:沉淀 BC 端统一治理规范(可观测性/容灾/应急),稳定性从 1 个 9 提升至 3~4 个 9;建立定价与自动估价体系,2024 年完成亿级成本梳理,支撑精细化资源管理与预算合规。

高级软件工程师

腾讯 Tencent | 2019.5 - 2021.9

主导容器平台的微服务架构设计与研发,平台基于 Kubernetes 调度,Go 语言编写管控服务;至 2020 年底服务数十款产品,部署 POD 数十万。

  • 0→1 落地容器平台,技术 BP 10+ 项目完成云原生转型,覆盖日访问量亿级的核心产品。
  • 自研分布式指标采集组件,覆盖百万级 POD;至 2020 年底写入速率超千万条/秒,支撑平台与业务观测。
  • 推广高性能分布式任务流框架,支撑 k8s/Redis 运维、富容器管理等复杂工作流。
  • 基于工作流框架实现集群节点自动伸缩与快上快下,声明式期望数,一键自动化闭环。
  • 负责网关与鉴权等核心基建,保障千万级日请求的稳定与安全。
  • 在公司内推广 Apache APISIX,支持 7 款产品成功落地网关标准化。

软件工程师

万汇互联 | 2018.5 - 2019.5

负责社交产品网关与微服务架构设计与开发。

  • 引入 Kong 作为网关,解耦微服务横切关注点(鉴权、限流、审计等),显著降低服务改造成本。
  • 以 DSL 构建事件系统,优雅实现基于用户行为的虚拟币分发,降低业务逻辑耦合度。

软件工程师

深圳巨鼎医疗设备有限公司 | 2016.3 - 2018.5

负责医院报告打印系统的基础框架设计与开发,带领 Web 团队交付业务需求。

  • 两年内持续沉淀与优化基础框架与组件,显著提升稳定性与可维护性,最终产品成功孵化,核心团队顺利解散转入定制化交付。
  • 首次带队(3人),完成从 jQuery 向 MVC 的 Web 技术转型。

助理软件工程师

AbeamSystem | 2014.9 - 2016.3

负责 ERP 系统二次开发与文档编写,涉猎多语言栈(C# / VB / C++ / JS 等)。

  • 严格的代码评审流程培养了高质量编码习惯。
  • 日本工作一年,日语沟通顺畅,能以日语与同事开展协作。

Projects

Apache APISIX

PMC

顶级开源 API 网关(基于 OpenResty)。作为 PMC,参与路线规划与代码评审,贡献 CORS、BatchRequest 等核心特性,推动在腾讯等 7+ 产品落地,覆盖日千万级请求。

Kubernetes

Developer

内部云平台调度层的核心;编写 Controller、Webhook、Operator 等,为平台用户提供特性能力与自动化运维。

Prometheus

Developer

云原生观测标准组件;为平台提供指标监控与采集方案,支撑每秒千万级别性能与业务指标写入。

go-restful

Contributor

Kubernetes 组件常用 HTTP 框架;贡献 Google API 设计规范的 CustomMethod,提升内部路由规范化与可维护性。

go-chassis

Contributor

华为开源微服务框架;在内部微服务迭代中提升性能与稳定性,并受邀担任华为赞助的 Gopher 线下沙龙讲师。

Hydra

Contributor

实现 OAuth2 的开源项目;基于其完成平台授权能力,并在使用过程中贡献多项修复。