徐鑫

我目前就职于字节智能创作-AI平台部门,该部门提供了抖音剪映(C端)以及火山引擎(B端)的绝大多数AI视觉能力。而我则负责其中基础架构方向的研发团队,涉及的主要技术包括网关、模型存储、工程框架、SRE、研发规范以及推理交付平台等,上接AI工程团队,下接字节基础设施,为团队打造高质高效的AI交付链路。此前在腾讯游戏负责容器平台的研发,为上层业务提供推理与训练平台,推动大量游戏业务向云原生转型,积累了丰富的云原生经验。工作之余也热爱参与开源,为ApacheAPISIX 的 PMC Member,也贡献/参与过不少开源项目,详情请移步Github个人页。
Work Experience
AI Infra Tech Leader
负责视觉工程的基础架构团队,从B端业务切入,积累了可靠的基础技术解决方案,并以此为基础成功推动C端平台的技术革新,以工程交付、服务运维、技术基建为核心,兼顾技术债务偿还与体系化能力建设,实现从0到1组建了30+人团队并在技术方向取得多维突破,持续为公司AI业务赋能,核心成果如下:
- 「AI中台(Lumi) - 交付提效与平台建设」:主导全生命周期AI能力交付平台建设,覆盖调试、工程化、部署、运维与体验环节,支撑业务从零代码孵化到自助交付,极大提升AI开发与交付效率;平台月均交付AI能力过百(包括Seed系列),核心业务可自主完成交付,无需工程化人力介入。
- 「AI中台(Lumi) - AIGC生态」:以SD+Comfy为基础,构建AIGC核心资产池,涵盖Workflow、插件、模型等,资产来源覆盖自研、开源、算法团队及UGC生态,平台资产总量超10万,推动多业务爆款特效上线,支持抖T、剪C、Flow等核心业务场景。
- 「技术基建」:从0到1构建底层各技术基建,满足整体AI能力在资源调度、流量调度和模型分发层面的诉求,支持好日峰值QPS 10w+、GPU规模 > 20w、全球化部署的超大规模的AI场景;资源调度上通过各技术优化,如镜像瘦身、分层,在线混部、模型分发加速,智能扩缩以及负载均衡等手段把整体推理GPU的日均利用率从10%提升到了40%,部分方向AI能力在70%以上;
- 「SRE」:组建SRE方向,涉及商品化、稳定性与资源管理。商品化方向上,建立了完整的定价模式与自动估价体系,让之前混乱的账单回归正常,并在2024年配合业务完成亿级别的成本梳理;稳定性上沉淀了BC端共用的治理规范(可观测性、容灾、应急预案等方向),并以此推动BC端各个方向完成从一个9到三个9 or 四个9的提升。
Senior Software Engineer
主导平台的微服务架构设计和开发,同时为我们的用户提供技术咨询与集群资源管理,平台使用k8s提供调度能力,GO编写管控服务,截止2020年底,平台服务于公司数十种产品,部署POD数十万。
- 从 0 到 1 落地了容器平台,并技术BP 10+ 项目从传统架构转型到云原生,其中包含日访问量亿级的项目
- 为平台搭建一套完整的分布式指标采集组件,负责采集整个平台百万级别 POD 的性能指标与业务指标,截止 2020 年底,每秒写入指标超过千万级别。
- 编写的高性能分布式任务流框架在中心内推广到了各个小组,帮助解决复杂的工作流,如k8s、redis集群的运维管理,富容器的管理等等。
- 基于自研的工作流框架实现了 k8s 集群节点的自动伸缩与快上快下,只需指定期望数量,其他一切自动完成。
- 负责整个平台的基础设施,包括网关和鉴权等,保证平台的稳定,截止 2020 年,日请求量千万级别。
- 在公司内推广 ApacheApisix,支持 7 款产品成功落地网关
Software Developer
负责社交产品的网关开发与微服务架构设计开发
- 引入 Kong 作为网关,解放了微服务在AOP层的工作
- 使用DSL构建了一个事件系统,优雅地解决了基于用户行为的虚拟币分发功能
Software Developer
负责医院报告打印系统的基础框架设计和开发、带领 web 团队完成业务需求
- 在两年内通过不断沉淀、优化基础框架与组件,帮助公司核心产品愈发稳定,最后成功孵化,只留下定制化工程师,核心团队解散
- 第一次带团队,带领 3 人左右的小团队按时按质完成 web 需求,并且完成了从传统 jQuery -> MVC 的 web 转型
Assistant Software Developer
负责ERP系统的二次开发与文档编写
- 接触到了很多项目,所以语言栈丰富,包括: c#/VB/c++/js 等
- 由于日企的代码都需要反复review,培养了自己对代码质量要求高的习惯
- 在日本的一年里,不断提升日语技能,能够正常以日语和同事进行工作交流
Projects
ApacheApisix
Apache下毕业最快的顶级项目之一,是一个基于 Openresty 的网关项目,在腾讯服务于数个百万DAU的产品。作为其PMC,为其贡献过诸如CORS, BatchRequest等特性,同时也会参与项目的设计评审与CR。
Kubernetes
内部云平台的调度层,是我们为用户提供基础服务的根本,我一般会编写一些 controller、webhook 以及 operator 来为平台用户提供特性功能。
Prometheus
CNCF 的毕业项目,云原生下的观测性大多都是基于本项目实现,我用于为整个平台提供指标监控和采集方案,采集每秒千万级别的性能指标和业务指标。
go-restful
k8s 用于内部组件通信的 http 框架,没有任何外部依赖,同时性能也较高,该框架也是 go-chassis 的路由框架,我为其贡献了GoogleAPI 设计规范的 CustomMethod.
go-chassis
华为开源的微服务框架,我用于内部微服务开发,迭代过程帮助项目提升了性能与稳定性,因此受邀作为讲师参加了华为赞助的Gopher线下沙龙。
hydra
一个实现了oauth2的开源项目,我用其实现了平台的Oauth2授权,在使用过程中为项目贡献了一些fixs。