Check list 12 ข้อกับการประเมินความเสี่ยง และการบำรุงรักษาเซิร์ฟเวอร์

Server Maintenance Checklist หรือเช็คลิสต์การบำรุงรักษาเซิร์ฟเวอร์เพื่อลดความเสี่ยงที่อาจเกิดขึ้นทำให้เซิร์ฟเวอร์หยุดทำงาน (Minimize Downtime), หรือการปรับปรุงประสิทธิภาพของแอพพลิเคชัน (Optimize) และอื่น ๆ เพื่อทำให้ระบบทำงานได้อย่างราบรื่น (smoothly)

Server Maintenance Checklist
Server Maintenance Checklist

1. ตรวจสอบการสำรองข้อมูล
ระหว่างการอัพเกรดเซิร์ฟวเวอร์ ต้องแน่ใจว่าข้อมูลที่สำรองไว้สามารถนำกลับมาใช้งานได้จากสถานที่สำรองข้อมูลหลัก (Primary Location) และไม่ว่าจะเป็นการสำรองข้อมูลแบบ On-site หรือ Off-site
และต้องระบุระยะเวลาการกู้คืนข้อมูลได้

2. ตรวจสอบการใช้งานพื้นที่ดิสก์
ปัญหาหนึ่งที่พื้นที่ใช้งานของยูสเซอร์เต็ม คือ ไม่เคยลบข้อมูลเก่าที่ไม่เคยเปิดใช้งานเลย, ไฟล์แคชของแอพพลิเคชันต่างๆ เช่น Firefox หรือไฟล์ที่อยู่ในถังขยะ (Trash) แต่ไม่เคย Empty Trash เลย
ดังนั้นถ้าหากยูสเซอร์ใช้งานพื้นที่เกินโคต้าที่กำหนด หรือความจุฮาร์ดดิสก์เต็มเซิร์ฟเวอร์อาจหยุดให้บริการ และหากเป็นไฟล์ฐานข้อมูลอาจทำให้ข้อมูลเสียหายได้

3. ตรวจสอบระบบเฝ้ามองดิสก์อาร์เรย์ (RAID)
หากมีการใช้งานระบบการเก็บข้อมูลแบบดิสก์อาร์เรย์หากใช้งานเป็นฮาร์ดแวร์ raid ซอฟต์แวร์ที่ทำงานร่วมกับการ์ด raid สามารถที่จะคอนฟิกการเฝ้ามองในระดับต่างๆ ได้ (notification system, disk failure) ส่วนกรณีที่ใช้งานเป็นซอร์ฟเวอร์ raid บนระบบปฏิบัติการลินุกซ์ผู้ดูแลระบบสามารถเขียนสคริปต์ขึ้นมาเฝ้ามองการทำงานและให้ส่งเมลแจ้งเตือนได้ ดังนั้นเมื่อดิสก์ลูกใดลูกหนึ่งเกิดมีปัญหาก็จะสามารถแทนที่ดิกส์ลูกใหม่เข้าไปแทนได้

4. อัพเดตระบบปฏิบัติการ
ลินุกซ์ดิสโทรสำหรับใช้งานในองค์กรหรือที่เรียกว่า Linux Enterprise ลูกค้าที่ใช้งานจะได้รับเมลแจ้งเตือนช่องโหว่ระดับ critical หรือแพตช์ความปลอดภัย (Critical Patch Update)
หรือ Security Alert อัพเดตอุดช่องโหว่เฉพาะหน้าเป็นจุดๆ อยู่แล้ว (ต้องสมัครรับ alert) หรือผู้ดูแลระบบสามารถตั้งค่าเปิดให้อัพเดตปรับปรุงแพคเกจเองอัตโนมัติ แต่ถ้าเป็นลินุกซดิสโทรชุมชน (Community version) ในการรับข้อมูลข่าวสารสามารถจะต้องสมัคร mailling list ของระบบปฏิบัติการที่ใช้งานอยู่ได้

5. อัพเดตคอนโทรลพาเนล
หากเป็นผู้ให้บริการเว็บโฮสติ้ง การอัพเดตปรับปรุงคอนโทรลพาเนลค่อนข้างมีความสำคัญ การอัพเดตก็เพื่ออุดช่องโหว่ของคอนโทรลพาเนลที่ใช้งาน (เช่น WHM/cPanel) เนื่องจากเป็นระบบที่ใช้งานเพื่อควบคุมส่วนต่างๆ ของระบบควบคุมโฮสต์ติ่ง ไม่ได้ปรับปรุงรุ่นของซอฟต์แวร์ Apache และ PHP ในระบบปฏิบัติการที่ใช้งานอยู่

6. ตรวจสอบและอัพเดตแอพพลิเคชัน
ควรตรวจสอบและปรับปรุ่งแอพพลิเคชันพื้นฐานบนระบบปฏิบัติการลินุกซ์เดสก์ท็อป เช่น Firefox (เว็บเบราว์เซอร์), LibreOffice (ชุดโปรแกรมสำนักงาน) ส่วนเซิร์ฟเวอร์อาจต้องทดสอบแอพพลิเคชันก่อนว่าเซิฟร์เวอร์รองรับไหม เนื่องจากบ้างครั้งการอัพเดตเว็บแอพพลิเคชันแล้วกับพบว่าเซิร์ฟเวอร์ทำงานช้าจนผิดปกติ อาจเกิดจากแอพพลิเคชันยังไม่ได้ออปติไมซ์ เลยกินทรัพยากรบนเครื่องเซิร์ฟเวอร์ทำให้กระทบต่อบริการอื่นๆ ได้ที่รันอยู่บนเครื่องเซิร์ฟเวอร์เครื่องนี้

7. ตรวจสอบเครื่องมือสำหรับใช้รีโมทจัดการระบบ
สำหรับระบบปฏิบัติการลินุกซ์เดสก์ท็อปเครื่องมือที่ใช้ก็อย่างเช่น โปรแกรม NX Client, VNC และ SSH เป็นต้น แต่ถ้าเป็นเซิร์ฟเวอร์ที่ฝากวางไว้กับผู้ให้บริการ (Co-located) หรือการเช่าใช้ทรัพยากรจากเซิร์ฟเวอร์ผู้ให้บริการ (Dedicated server) ต้องตรวจสอบว่าสามารถรีโมทไปยังเซิร์ฟเวอร์เครื่องของเราได้ไหม (การรีโมทเข้าถึงคอนโซท, รีโมทเพื่อรีสตาร์ท หรือแม้กระทั่งโทรติดต่อกับ support ได้หรือไม่)

8. ตรวจสอบข้อผิดพาดของฮาร์ดแวร์
ทำการตรวจสอบ Log file ของฮาร์ดแวร์ หรืออาจใช้ระบบ Centralized Log Server สำหรับเก็บ Log เซิร์ฟเวอร์ไซต์ต่างๆ หรือเขียนสคริปต์เฝ้ามองเฉพาะอุปกรณ์ เช่น ฮาร์ดดิสก์, Network การ์ด
หรือแม้กระทั่งอุณหภมิของซีพียู

9. ตรวจสอบการใช้งานของเซิร์ฟเวอร์
ตรวจสอบการใช้งานทรัพยากรบนเซิร์ฟเวอร์ เช่น พื้นที่ดิสก์, CPU, Memory และ Network เพราะบางครั้งการทำงานพร้อมๆ กันหลายๆ งานในเวลาเดียวกันอาจเกิดการ overload ของเซิร์ฟเวอร์ การตรวจสอบขั้นตอนนี่จึงสามารถวางแผนเพิ่มทรัพยากรให้กับเซิร์ฟเวอร์ เพื่อรองรับการทำงานของผู้ใช้ได้ดียิ่งขึ้น หรือการเปลี่ยนย้ายเซิรฟ์เวอร์เป็นเครื่องใหม่ (Migrate installation to new hardware)

10. ตรวจสอบผู้ใช้งานในระบบ
หากมีพนักงานลาออก เพื่อเป็นการรักษาความปลอดภัยและความเสี่ยง ผู้ดูแลระบบจะต้องทำการลบบัญชีผู้ใช้นั้นออกจากระบบทันที หรือปิดการใช้งาน (disable account) หากยูสเซอร์เนมของผู้ใช้มีการใช้งานร่วมกันควรเปลี่ยนรหัสผ่านใหม่

11. เปลี่ยนรหัสผ่าน
แนะนำให้ทำการเปลี่ยนรหัสผ่านเข้าสู่ระบบต่างๆ เช่น ล็อกอินเข้าเครื่อง, ระบบเมล และอื่นๆ ในทุกๆ 6-12 เดือน โดยเฉพาะอย่างยิ่งการทำงานเป็นทีม (Support ที่ได้สิทธิเข้าถึงระบบ) หรือการให้รหัสผ่านกับบุคคลอื่น

12. ตรวจสอบความปลอดภัยระบบ
ตรวจสอบค่าคอนฟิกต่างๆ ของระบบ ตัวอย่างเครื่องมือตรวจสอบ เช่น Nessuse โดยอาจจะวางแผนการตรวจสอบอย่างน้อย 4 ครั้งต่อปี หรือทำการอัพเกรดระบบปฏิบัติไปยังเวอร์ชันล่าสุด

ที่มา – Server Maintenance Tips