职位介绍
1、负责确保公司的系统和服务在高流量和高负载条件下保持高可用性和稳定性。
2、设计、实施和维护自动化工具和流程,以简化系统的运维和故障恢复,提高效率。
3、开发和维护监控系统,实时监测系统性能,迅速响应并解决潜在的故障和问题。
4、参与制定和执行紧急响应计划,快速、有效地处理系统故障和紧急事件。
5、与安全团队协作,确保系统和服务符合公司的安全性和合规性要求。
职位要求
1、计算机相关专业本科及以上,有大型电商或保险系统2年以上系统运维或开发经验;
2、熟悉主流云平台(如AWS、阿里云),有云原生架构和服务的设计和管理经验。
3、精通Docker和Kubernetes,有容器化部署和管理经验。
4、精通Linux系统、Shell/Java/Python等编程语言,熟悉网络TCP/IP协议、数据库等,具有SQL调优经验。
5、熟悉分布式架构,掌握常用中间件及原理,如缓存、消息队列等;
6、熟悉监控工具和日志分析工具,能够设计和维护有效的监控系统。
7、具有很强的分析问题、解决问题能力,能够迅速分析和解决复杂的系统问题。