Họp giao ban Thứ 7 (13/6/2026) · Trạng thái: DỰ THẢO — đề xuất nội bộ · Phạm vi: hệ thống QLTN trên cloud CMC (production)
| Bên | Vai trò | Chịu trách nhiệm tầng |
|---|---|---|
| CMC | Nhà cung cấp cloud (CKE, máy ảo, mạng, lưu trữ) | Hạ tầng lõi: phần cứng, control plane, mạng, cân bằng tải — giữ "hạ tầng sống" 24/7 |
| Mr. Thái | Vận hành hạ tầng & nền tảng (in-house) | Nền tảng: cụm K8s, giám sát, cảnh báo, backup/khôi phục, leo thang sang CMC |
| Demepro | Chủ sản phẩm — dev + CSKH | Ứng dụng & khách hàng: tiếp nhận sự cố từ khách, phân loại, fix lỗi ứng dụng, thông báo khách |
| Khách hàng | Ban quản lý tòa nhà / cư dân sử dụng hệ thống | Báo sự cố qua kênh thống nhất, cung cấp thông tin, xác nhận đã khắc phục |
Hai tầng cam kết — đừng lẫn:
| Tier | Định nghĩa (ngôn ngữ kinh doanh) | Tiêu chí xếp loại |
|---|---|---|
| P1 Sự cố nghiêm trọng | Khách không dùng được hệ thống, hoặc có nguy cơ mất / lộ dữ liệu | Toàn bộ hoặc đa số người dùng bị ảnh hưởng; không có cách né; hoặc liên quan dữ liệu cá nhân cư dân |
| P2 Sự cố trung bình | Hệ vẫn chạy nhưng một chức năng quan trọng hỏng hoặc chậm bất thường | Một nhóm người dùng / một nghiệp vụ chính bị ảnh hưởng; có thể có cách né tạm |
| P3 Yêu cầu hỗ trợ thông thường | Lỗi nhỏ có cách né, câu hỏi sử dụng, yêu cầu thay đổi nhỏ | Không ảnh hưởng vận hành hằng ngày |
| Tier | Ví dụ tầng hạ tầng (Thái / CMC) | Ví dụ tầng ứng dụng (Demepro) |
|---|---|---|
| P1 | Cả cụm sập, không truy cập được hệ thống · CSDL chính chết · mất kết nối mạng tới cloud · sự cố nghi lộ/mất dữ liệu cư dân | Toàn bộ người dùng không đăng nhập được · không thu được phí đúng kỳ chốt sổ · dữ liệu hiển thị sai hàng loạt |
| P2 | Một dịch vụ chạy yếu, phản hồi chậm bất thường · hết dung lượng sắp tới ngưỡng · backup đêm thất bại | Không gửi được thông báo đẩy tới cư dân · một phân hệ (vd: đặt tiện ích) lỗi · xuất báo cáo sai |
| P3 | Cảnh báo log mức thấp · một tác vụ nền chạy trễ | Lỗi hiển thị giao diện · hỏi cách dùng tính năng · đề nghị chỉnh sửa nhỏ |
Tách bạch 2 khái niệm — điểm hay bị gộp nhầm:
| Tier | Thời gian phản hồi | Mục tiêu xử lý | Nhịp cập nhật cho khách | Khung trực |
|---|---|---|---|---|
| P1 | ≤ 30 phút, 24/7 — vào việc ngay, ưu tiên tuyệt đối, lập "phòng chỉ huy" tới khi xong | Khôi phục dịch vụ trong vòng 4 giờ (mục tiêu); khôi phục dữ liệu từ backup tính bằng phút – giờ (số chính xác đo ở diễn tập 14/6) | Mỗi 30 – 60 phút cho tới khi xong + báo cáo nguyên nhân sau 48h | 24/7 |
| P2 | ≤ 4 giờ làm việc | Có giải pháp tạm trong 1 ngày làm việc; fix triệt để theo kế hoạch (≤ 1 tuần) | Mỗi ngày làm việc | Giờ hành chính (mở rộng nếu cần) |
| P3 | ≤ 1 ngày làm việc | Đưa vào kế hoạch sprint / bảo trì, hẹn ngày cụ thể | Khi có thay đổi trạng thái | Giờ hành chính |
| Việc | Khách hàng | Demepro (CSKH/Dev) | Mr. Thái | CMC |
|---|---|---|---|---|
| Báo sự cố, cung cấp thông tin (ảnh chụp, thời điểm, thao tác) | ✅ Thực hiện | Hướng dẫn | — | — |
| Tiếp nhận, phân loại tier, mở ticket | — | ✅ Chủ trì | Tư vấn xếp tier nếu nghi hạ tầng | — |
| Chẩn đoán: lỗi app hay hạ tầng? | — | ✅ Bước đầu | ✅ Phối hợp (nhìn giám sát/cảnh báo) | — |
| Xử lý lỗi ứng dụng (bug, nghiệp vụ) | — | ✅ Chủ trì (dev) | Hỗ trợ log, rollback bản deploy | — |
| Xử lý lỗi nền tảng (K8s, DB, lưu trữ, mạng trong cụm) | — | Phối hợp test lại | ✅ Chủ trì | Hỗ trợ khi liên quan tầng lõi |
| Xử lý lỗi hạ tầng lõi (phần cứng, control plane, mạng cloud) | — | — | ✅ Leo thang + bám sát | ✅ Chủ trì (theo SLA hợp đồng) |
| Khôi phục dữ liệu từ backup | — | Xác nhận dữ liệu đúng | ✅ Chủ trì | — |
| Thông báo & cập nhật tiến độ cho khách | — | ✅ Chủ trì (một đầu mối duy nhất) | Cung cấp thông tin kỹ thuật | — |
| Xác nhận đã khắc phục, đóng ticket | ✅ Xác nhận | ✅ Đóng | — | — |
| Báo cáo nguyên nhân sau sự cố P1 (post-mortem 48h) | Nhận báo cáo | ✅ Phần app | ✅ Phần hạ tầng | Cung cấp RCA nếu lỗi tầng lõi |
Nguyên tắc vận hành kèm theo:
| Lớp căn cứ | Nội dung | Trạng thái |
|---|---|---|
| 1. Pháp lý (bắt buộc, không thương lượng) | Dữ liệu cư dân = dữ liệu cá nhân — thuộc nhóm dữ liệu phải bảo vệ ở mức cao nhất. Vì vậy mọi sự cố lộ / mất dữ liệu luôn xếp P1 kèm quy trình xử lý & thông báo riêng, bất kể quy mô ảnh hưởng. | ✅ Áp dụng thường trực |
| 2. Hợp đồng (ràng buộc thương mại) | (a) Hợp đồng CMC ↔ mình: uptime hạ tầng, thời gian phản hồi của CMC, phạm vi hỗ trợ — đây là "trần" cho mọi cam kết phía dưới. (b) Hợp đồng mình ↔ khách: hiện tại chưa có điều khoản SLA → cần thống nhất có đưa vào phụ lục hợp đồng hay không. | ⏳ (a) chờ văn bản CMC (hạn 14/6) · (b) cần rà hợp đồng khách hiện hữu |
| 3. Tiêu chuẩn vận hành nội bộ | Bảng P1/P2/P3, thời gian phản hồi, quy trình trực, runbook — tài liệu này. Tham chiếu thông lệ ngành (mô hình severity-tier chuẩn của ngành vận hành dịch vụ). | ✅ Dự thảo — chính là tài liệu này |
Tiêu chuẩn nội bộ — đề xuất, dự thảo (tài liệu này)
Chốt số chính thức — đối chiếu "trần" CMC, điều chỉnh bảng cam kết
Cân nhắc đưa vào phụ lục hợp đồng khách — khi đã có số liệu vận hành thật
Lý do không vội đưa vào hợp đồng khách ngay: chưa có văn bản CMC + chưa có số liệu vận hành thực tế trên môi trường mới → cam kết hợp đồng lúc này là hứa khi chưa đo. Giai đoạn hypercare (27/7 – 23/8) chính là lúc đo năng lực thật để cam kết có cơ sở.