官术网_书友最值得收藏!

1.2 站點可靠性工程如何提供幫助

在SRE團隊中,目標是用實際的軟件來替換這樣的腳本,這些軟件有正確的版本、成熟的發布策略、持續的集成和交付過程,并且在專用的機器上運行最新的發布版本,例如,OpenShift集群。

OpenShift SRE團隊將OpenShift集群的操作(從設置到拆除)視為一個軟件問題。通過將軟件工程領域的最佳實踐應用于集群操作,可以解決前面提到的許多問題??梢詫浖M行單元測試,以確保新的更改不會破壞現有的行為。此外,一組集成測試可以確保即使在環境發生變化(例如發布新版本的OpenShift)時也能按預期工作。

隨著服務采用的增長,SRE團隊無須主動響應越來越多的客戶請求,而是提供自服務流程,客戶可以使用該流程來提供和配置集群。這也降低了雪花的風險,因為SRE團隊需要更少的手動交互。什么可以配置,什么不可以配置,應該是提供給客戶的用戶接口(User Interface,UI)的一部分,因此將單個集群與所有其他集群區別對待的請求應該轉化為對自動化或UI的特性請求。這樣,它最終將成為一個受支持的狀態,而不是手動配置更新。

為了確保警報策略可以擴展,SRE團隊通常從基于原因的警報策略轉換為基于癥狀的警報策略,以確保只有可能影響用戶體驗的問題才會觸發告警。不需要立即解決的小問題可以在時間允許的情況下轉移到ticket隊列中處理。

向SRE文化的轉變意味著允許人們監控自己的軟件,一步一步地從團隊中卸下操作負擔。雖然這是一個需要時間的轉變,但這是一個有益的過程。它將把一個運行別人編寫的軟件的團隊變成一個編寫和運行自己的軟件的團隊,其目標是在他們的控制下自動化軟件的生命周期和操作。SRE文化通過真正的自動化和對客戶體驗的觀察而不是內部狀態來實現服務的增長。

主站蜘蛛池模板: 临漳县| 怀柔区| 重庆市| 利辛县| 桐城市| 永吉县| 抚远县| 大连市| 吴忠市| 扶绥县| 泰来县| 文水县| 措美县| 龙门县| 故城县| 吉隆县| 稻城县| 白山市| 平江县| 伊宁市| 永安市| 贞丰县| 平遥县| 潢川县| 镇雄县| 平顶山市| 林口县| 南川市| 三原县| 武安市| 永嘉县| 乌鲁木齐县| 枝江市| 贵港市| 泽普县| 丰原市| 油尖旺区| 福建省| 鹤峰县| 新巴尔虎右旗| 中牟县|