在软件和分布式系统中,故障不可避免,因此必须设计监控系统以提供可见性和快速响应。了解如何有效监控系统是成功的关键,包括查看团队如何进行系统健康评估以及采取最佳实践。
“一切都会失败,永远如此。” 这是亚马逊首席技术官韦尔纳·沃格尔斯(Werner Vogels)的一句名言。这意味着软件和分布式系统必定会因为某些原因而失败,因此我们必须接受这一现实,并相应地设计系统、测试软件和服务,考虑所有可能的边缘情况。
在一个生产环境中,当系统正在提供流量服务时,我们需进行有效监控以确保其按预期行为运行,各个组件均健康。那么我们应该考虑以下问题:
以上问题的解答复杂多变,虽然无法在一篇博客文章中详尽阐述,但我们可以开始探索这个话题,并分享资源来指引你在这一领域的发展。
在本期的《构建架构!》中,我们分享了一些亚马逊和AWS所采用的监控实践,以及更多资源以帮助您了解如何为在AWS上运行的工作负载构建监控解决方案。
可观察性与监控是工程任务,同时也需要适当的文化心态。在亚马逊,如果某项服务未按预期运行,团队会撰写纠错文档(CoE),分析问题并回答相关问题以从中学习。此外,每周还有运营会议,分析每个服务的操作和性能仪表板。
这个环节涵盖了亚马逊监控的全貌,从团队如何高层次评估系统健康,到如何了解单个请求的细节。利用此资源了解关于指标、日志和追踪的最佳实践,并利用这些信号实现卓越的运营。
 Luca Mezzalira :Luca是一位在伦敦的首席解决方案架构师。他是几本书的作者,也是国际演讲者,在解决方案架构领域有丰富的经验,因其在微前端的可扩展性方面的创新而受到赞誉。
 Laura Hyatt :Laura是AWS公共部门的解决方案架构师,帮助英国的教育客户,不仅架构和开发可扩展解决方案,还为当今教育领域的创新提供创新思维。她的专长是物联网(IoT),同时也是EMEA教育领域的Alexa专家。
 Vittorio Denti :Vittorio是一名在伦敦工作的亚马逊机器学习工程师。他在米兰理工大学和KTH皇家理工学院完成计算机科学与工程硕士后加入AWS,背景涉及分布式系统和机器学习,尤其热衷于软件工程及最新的机器学习科学发展。
![Zamira删除) Zamira Jaupaj :Zamira是位于荷兰的企业解决方案架构师,拥有超过10年的多国经验,专注于为小型和大型企业设计和实施关键复杂解决方案,包括容器、无服务器架构和数据分析。
Leave a Reply