sre la gi

SRE là gì ? Vai trò của kỹ sư Site Reliability Engineer là gì ?Cuongquach.com | Hiện ni, cùng theo với DevOps, định nghĩa Site Reliability Engineer (SRE), tạm thời dịch là Kỹ sư vận hành tin cậy của khối hệ thống hoặc Kỹ sư ổn định quyết định khối hệ thống, càng ngày càng được nghe biết nhiều hơn thế nữa.

ky-su-sre-la-gi

Bạn đang xem: sre la gi

Nhiệm vụ của SRE là vận dụng những góc nhìn và kỹ năng và kiến thức của technology ứng dụng nhập vận hành (Operation) nhằm mục đích tiềm năng tạo nên những khối hệ thống phần mềm/dịch vụ đem tài năng không ngừng mở rộng và tin cẩn cao. Bài ghi chép này tiếp tục phân tách cụ thể tầm quan trọng của SRE và những kỹ năng và kiến thức quan trọng nhằm phụ trách cực tốt tầm quan trọng này.

1. Công việc của SRE

Công việc của SRE
Công việc của SRE

Theo Ben Treynor, ngôi nhà tạo nên group SRE của Google, thì SRE là “những kỹ sư ứng dụng thực hiện những việc làm tương quan cho tới vận hành”. Họ phụ trách đáp ứng chừng sẵn sàng và hiệu suất của website/dịch vụ/phần mềm, bên cạnh đó giám sát và đối phó trường hợp bất ngờ xẩy ra bởi những nền tảng và công ty tuy nhiên doanh nghiệp hỗ trợ hoặc dùng.

Hiệu suất của đội hình SRE được tính toán bởi thời hạn xử lý lỗi khoảng (mean time to tướng recover – MTTR) và thời hạn Chịu đựng lỗi khoảng (mean time to tướng failure – MTTF). Nói cách tiếp, bọn họ cần mò mẫm thủ tục cho tới công ty của tôi hoạt động và sinh hoạt quay về sớm nhất Lúc bắt gặp trường hợp bất ngờ và chuyến giắt lỗi tiếp sau (nếu có) cơ hội càng xa vời càng chất lượng.

2. Runbook là gì? Vai trò của Runbook với SRE

Runbook là gì?
Runbook là gì?

Nói một cơ hội đơn giản và giản dị, Runbook là 1 tụ họp những chỉ dẫn những vấn đề cần triển khai hoặc đánh giá Lúc gặp sự cố xẩy ra với ngẫu nhiên công ty, phần mềm hoặc nền tảng này bại. Runbook nên được ghi chép sẵn trước lúc ứng dụng được lên kế hoạch và tiến hành dùng.

Nội dung của Runbooks nhắm tới thật nhiều chủ thể như xử lý trường hợp bất ngờ hạ tầng, khối hệ thống tàng trữ hoặc ngẫu nhiên công ty và nền tảng không giống đang rất được dùng. Nếu chúng ta đang được thao tác cho tới một nhóm chức chưa tồn tại Runbook, thì nên tự động bản thân ghi lại nó nhập quy trình xử lý trường hợp bất ngờ.

Runbook đặc biệt quan trọng hữu ích cho những SRE mới nhất đang có ít kinh nghiệm tay nghề xử lý trường hợp bất ngờ xẩy ra với những ứng dụng mới nhất hoặc những nền tảng xa vời kỳ lạ.

3. Báo cáo đối phó sự cố

Báo cáo đối phó sự cố
Báo cáo đối phó sự cố

Sau Lúc giải quyết và xử lý trường hợp bất ngờ, nhằm rời xẩy ra tình huống tương tự động, chúng ta nên ghi lại rất đầy đủ, đúng đắn những gì đang được xẩy ra, công việc triển khai tương đương toàn bộ những câu mệnh lệnh tuy nhiên chúng ta đang được người sử dụng, cho dù bọn chúng đem hữu ích hay là không. Đây đó là thao tác ghi lại report đối phó trường hợp bất ngờ.

Ngoài việc tế bào mô tả những gì đang được xẩy ra, report đối phó trường hợp bất ngờ nên bao hàm toàn bộ những vấn đề tương quan cho tới quy trình xử lý như:

Xem thêm: bạch nguyệt quang

  • Ai đang được thông tin về sự công ty ngừng hoạt động?
  • Ai đang được hỗ trợ xử lý vấn đề?
  • Ai sẽ ảnh hưởng tác động bởi trường hợp bất ngờ đó? Sự cố nguy hiểm đến mức độ này, và công ty đang được ngừng hoạt động và sinh hoạt nhập bao lâu?

Những vấn đề bên trên đáp ứng cho tới việc mò mẫm rời khỏi vẹn toàn nhân căn nguyên của sự việc cố. Khi xác lập được vẹn toàn nhân, tất cả chúng ta hoàn toàn có thể thay thế sửa chữa hoặc thay cho thay đổi một vài cụ thể quan trọng nhằm tăng tin cậy của nền tảng. Vấn đề này sẽ hỗ trợ tinh giảm thời hạn hồi phục Lúc xẩy ra trường hợp bất ngờ một đợt nữa.

4. Báo cáo sau sự cố

Báo cáo sau sự cố
Báo cáo sau sự cố

Đối với SRE, giải quyết và xử lý trường hợp bất ngờ chỉ là 1 nửa việc làm. Nhóm cần đáp ứng trường hợp bất ngờ bại ko xẩy ra nữa bằng phương pháp phân tách vẹn toàn nhân căn nguyên của sự việc cố.

Từ report đối phó trường hợp bất ngờ đang được ghi nhận từ xưa, SRE cần thiết tạo nên report sau trường hợp bất ngờ, bao hàm công việc xử lý trường hợp bất ngờ bên trên thời điểm lúc đó, vẹn toàn nhân của sự việc cố, phương án xử lý và ngăn chặn trường hợp bất ngờ, biện pháp Phục hồi hoạt động và sinh hoạt thông thường của công ty.

5. Giám sát và cảnh báo

Giám sát và cảnh báo
Giám sát và cảnh báo

Giám sát và lưu ý là nhì trách nhiệm quan trọng nhất tuy nhiên SRE cần triển khai. Họ cần theo dõi dõi từng số liệu hoàn toàn có thể đem nhập nền tảng của tôi nhằm hiểu đúng đắn về hiện tượng của khối hệ thống từng khi. Đồng thời, plan giám sát cần được tạo nên cùng theo với kiến thiết khối hệ thống hoặc với từng công ty tuy nhiên doanh nghiệp hỗ trợ.

Trong thực tiễn, SRE tiếp tục theo dõi dõi những số liệu ví dụ, bịa đặt ngưỡng và kích hoạt lưu ý dựa vào những ngưỡng bại. Tuy nhiên nhập sau này, SRE cần thiết nghiên cứu và phân tích trở nên tân tiến những khối hệ thống giám sát và xử lý tự động hóa những trường hợp bất ngờ, chỉ gửi lưu ý cho tới kỹ sư trong những tình huống quan trọng.

6. Thay thay đổi cơ hội quản lí lý

Thay thay đổi cơ hội quản lí lý
Thay thay đổi cơ hội quản lí lý

Các SRE thông thường xuyên bắt gặp cần tình huống nền tảng bị thay cho thay đổi tuy nhiên ko tuân theo dõi ngẫu nhiên chỉ dẫn thiết lập và lên kế hoạch này. Thậm chí bọn họ cũng ko được phổ cập kỹ năng và kiến thức về những thay cho thay đổi bại. Đây đó là nguyên nhân vì sao quan trọng lập tiến độ vận hành những thay cho thay đổi của nền tảng, và từng ngôi nhà trở nên tân tiến rất cần được tuân hành tiến độ này.

Xem thêm: liên hôn cùng tổng tài xấu xa

SRE là thành phần cần thiết góp thêm phần thiết lập những quy tắc bại và tạo nên những dụng cụ quan trọng nhằm tự động hóa hóa toàn cỗ tiến độ. Đồng thời tạo ra ĐK lên kế hoạch và Phục hồi những công ty mới nhất, hoặc thay cho thay đổi những công ty hiện tại đem. Quy trình vận hành này thông thường bao hàm những nhân tố chủ yếu sau:

  • Sơ đồ
  • Các mặt mũi liên quan
  • Kế hoạch giám sát
  • Runbook
  • Danh sách công ty sở hữu
  • Chiến lược sẵn sàng
  • Quá trình lên kế hoạch và rollback
  • Lưu lưu giữ dữ liệu
  • Tài liệu
  • SLA

Kết luận

Việc xây dựng những group kỹ sư SRE nhập doanh nghiệp là 1 bước tiến thủ rộng lớn, chung nền tảng ngày 1 đầy đủ rộng lớn rộng lớn. Để phụ trách chất lượng việc làm, mọi SRE cần thiết học tập cơ hội tự động hóa hóa công việc hoàn toàn có thể, và biên chép lại những bước ko thể tự động hóa hóa được. Cũng nhờ đem tầm quan trọng của SRE, những trường hợp bất ngờ xẩy ra với khối hệ thống đang được thuyên giảm xứng đáng kể!

Nguồn: https://yamada.edu.vn/