Kalyan's Resume

黄梓涛

kalyan.zitiu@gmail.com

教育经历

华南理工大学广州学院｜本科｜软件工程｜2021.09 - 2025.07

校园经历

华南理工大学广州学院｜机房数据中心｜运维组组长｜2021.09 - 2025.06

负责校内机房数据中心基础设施与业务系统运维，参与云服务、系统与网络环境管理，保障教学相关业务稳定运行。
推动应用容器化改造，并基于 Kubernetes 完成部署编排与运行维护，积累了早期云原生平台实践经验。

工作经验

深圳道客网络科技有限公司（DaoCloud）｜粤港澳技术团队｜[运维开发/交付/解决方案]｜2024.07 - 至今

目前个人面向7家客户、累计约 8 个项目交付企业级云原生平台，负责 Kubernetes、containerd 及云原生生态组件的部署、升级、兼容性适配与生产问题治理。
个人参与统筹管理约40套集群、累计 240+ 节点的建设与运维，覆盖日志、监控告警、中间件、数据库、消息队列等基础设施组件，支撑客户业务稳定运行。
个人负责处理重点客户复杂生产故障与专项问题32起，参与架构优化、性能调优和高优先级技术支持，形成容器平台、中间件及基础设施问题闭环能力。
个人统筹设计 AI Infra 场景下 NPU，Metax，Nvidia 等异构算力资源纳管、平台适配与模型服务接入，支撑算力集群落地及对外服务能力建设。
在客户现场及交付过程中，沉淀标准化部署、升级、排障与运维流程，提升复杂环境下平台交付效率与稳定性。

项目经历

云原生 AI / 大模型基础设施实践

主要负责内容

面向 4 套集群、三类异构算力场景，参与建设 AI Infra 基础设施与模型服务接入能力，覆盖 Nvidia,Metax,NPU 等算力资源的统一纳管与平台适配。
多集群统一纳管方案落地,支撑3套算力集群接入与资源管理,提升异构环境下的统一运维与交付效率。
主导设计vGPU 使用方案,统筹原生开源组件Ascend-mindxl,GPU Operator,HAMI等组件规范集群的GPU管理,适配与问题排查,支撑共享能力,如sGPU,vNPU资源调度等能力落地,提升资源使用灵活性与利用率。
设计并落地统一模型服务接入方案,对外暴露 30+ 个模型服务,提供标准化接口能力,并结合网关实现基于鉴权方式的访问控制与服务隔离。
基于Cert-Manager建设模型服务 TLS 证书签发与生命周期管理能力,支撑10个对外服务的安全接入,完善模型服务暴露链路。
结合 Service Mesh,Gateway API,Kyverno + NetWorkPolicy 实现东西南北的流量治理与访问控制,提升模型服务安全性与可控性。
处理并推动解决兼容性,适配类关键问题,包括典型问题，如vLLM 适配,NPU 驱动兼容,GPU 共享调度,推理链路接入,证书与网关联调。

云原生可观测体系建设

主要负责内容

面向10套集群、96+业务场景，建设统一可观测平台，打通日志、指标与链路追踪能力。
参与设计并落地基于 Fluent Bit → Kafka → Vector → Elasticsearch / Kibana 的日志链路,支撑 日均2TB，会员日峰值6TB规模的数据采集、传输、缓冲与检索。
推动以 OpenTelemetry 作为统一观测协议落地，兼容SkyWalking Java Agent，支撑96+服务/4类不同语言类型应用的链路采集与平滑迁移。
参与 SkyWalking 向 OpenTelemetry 的迁移与数据聚合改造，处理5+项采集兼容、字段映射、链路连续性及数据一致性问题。
参与 Kafka 日志链路跨环境迁移与稳定性治理，处理12+项消费延迟、链路堆积、缓冲异常、迁移一致性等问题，保障日志链路稳定运行。

云原生网关与服务治理

主要负责内容

面向10套集群、96+业务场景,参与建设基于 Contour + Envoy 的云原生网关体系,支撑服务统一接入与入口流量治理。
参与基于 HTTPProxy / Ingress 的路由配置管理能力建设,支撑 36 个域名、86 个服务的对外暴露与流量转发。
设计并实施网关数据面健康监控与观测方案,覆盖12个数据面实例/4套环境,提升网关链路稳定性与故障定位效率。
打通 Envoy 到 OpenTelemetry / 后端观测系统的数据采集链路,支撑链路类型等观测数据接入,增强流量治理与问题排查能力。
处理5项网关接入、路由配置、证书联调、流量转发或观测链路相关问题,支撑生产环境网关稳定运行。

云原生中间件集群建设与运维

主要负责内容

向2家客户,31个业务场景,参与云原生中间件集群建设与运维实践,覆盖 Redis、RabbitMQ、RocketMQ、Kafka、Elasticsearch、MySQL、PostgreSQL 等核心组件。
参与1套跨数据中心的中间件集群的部署、升级、扩缩容、配置优化与高可用维护,支撑缓存、消息、检索与数据库类服务稳定运行。
累计处理13余项生产故障与专项问题,涉及消息中间件堆积,消息持久化,Cache回收,内部证书更新,开源BUG等场景，提升中间件平台稳定性与问题闭环效率。
面向业务交付与生产变更场景，支撑23+次中间件升级、迁移或架构调整，保障变更过程平稳可控。

个人总结

具备较强的云原生基础设施实践能力，技术方向覆盖容器平台、可观测、中间件、网关治理及异构算力等多个领域，知识面较完整，工程落地能力较强。能够在多集群、复杂生产环境下承担平台交付、问题排查、方案推进和稳定性保障相关工作，对系统性问题有一定分析与收敛能力。整体偏向工程实践型，既能参与方案建设，也能深入一线处理实际问题。

教育经历

华南理工大学广州学院｜本科｜软件工程｜2021.09 - 2025.07

校园经历

工作经验

深圳道客网络科技有限公司（DaoCloud）｜粤港澳技术团队｜[运维开发/交付/解决方案]｜2024.07 - 至今

项目经历

云原生 AI / 大模型基础设施实践

主要负责内容

云原生可观测体系建设

主要负责内容

云原生网关与服务治理

主要负责内容

云原生中间件集群建设与运维

主要负责内容

相关技能

个人总结