系統管理員最佳實踐準則
本文翻譯自 iSystemAdmin 的 《Best Practices for System Administration Daily Work》
Hi,各位好!希望你們每日的系統管理工作都進行的一切順利。有時候每天做相同的工作會顯得很單調,但這種感覺只會在你沒有嘗試在服務器上搗鼓 些新花樣時才會出現。你得接受挑戰更新你的系統軟件、做些自動化處理、對系統做細致的監控還有對系統做備份。每天除了要干這些活以外,優秀的系統管理員通 常還會遵循一些實踐準則。今天就讓我同大家分享一些系統管理員的最佳實踐準則吧,這些技巧會讓你的系統保持健康和安全。
檢查日志信息
首先要做的事情是檢查系統中的日志文件。你得檢查所有的安全性告警、硬件相關的錯誤和消息、本地和遠程登錄提示、應用程序告警和錯誤信息、應用 程序崩潰消息,如果可能的話,還有控制臺輸出的消息。每個系統都有自己的方式來提供日志信息。Windows 下的 Even Viewer 可以使你在同一處看到所有的日志信息。對于 UNIX 和 Linux,你需要檢查 /var/log 和/var/adm 文件夾。/var/log/messages、/var/log/auth、/var/log/dmesg、/var/log/maillog、/var/log/syslog是經常用到的日志文件。可能還有一些其他的地方需要你去查看,這取決于你的應用程序和系統配置情況。
檢查完日志信息后,你可能需要制定一些計劃來修正錯誤或者任何安全隱患,這取決于你從日志中得到了什么以及對日志信息的理解程度。為了更好的理解有關日志管理方面的知識,你可以從由 Anto A. Chuvakin 和 Kevin J. Schmid 合著的《Logging and Log Management: The Authoritative Guild to Dealing with Syslog, Audit Logs, Events, Alerts and other IT ‘Noise’》一書中得到啟發。
檢查前一天的備份情況
做備份是一個優秀系統管理員的良好習慣,這會幫助你的業務能持續進行處理。就算發生了災難性的事故——不管是有意的或無意的——業務也能不受影 響。每天,當你開始工作時,檢查完日志信息后你還需要確保前一天的備份操作已經執行成功了。檢查日志信息能給你一些提示,但你仍然需要仔細的去單獨檢查一 遍有關備份情況的日志信息。O’reilly 出版的《Backup & Recovery: Inexpensive Backup Solutions for Open Systems》是有關系統備份和恢復這一主題中最好的資源之一。
磁盤空間檢查
大多數系統管理員會忘記去檢查系統中到底還有多少可用的磁盤空間,以及剩下的這些空間還能撐多久。比較好的方法是刪除舊的日志信息,或者將日志 信息壓縮以節省磁盤空間。最佳實踐方式是在單獨的磁盤分區中設置日志文件夾,這樣增加的日志文件并不會對你的郵件服務和系統分區帶來太大的影響。在我們之 前的《10本適合于系統管理員的最佳書籍》一文中有提到一些有關這個主題的參考資源,很不錯的。
系統完整性檢查
完整性檢查就好像是對你的系統做法醫檢測一樣。這可不僅僅只是檢查日志文件這么簡單了。下面舉些例子,但不 僅限于這些。你可能要檢查一下某些特定文件的時間戳,檢查一下 root 和其它用戶在 shell 中的操作記錄,檢查日志文件的連續性等等。如果你發現兩個日志項之間有一些不尋常的間隔,那你就可以考慮是有人故意刪除了某些日志行,或者當你發現某個不 應該被修改的二進制文件或者文本文件的時間戳發生了更改,那么就可以認為有黑客在系統中安裝了 root-kit。有很多反 root-kit 的工具,你只要 Google 一下就可以了。對于 UNIX/Linux 系統來說,最簡單的笨辦法就是準備一個能記錄詳細細節的文件,就像這樣:
ls –alR > /tmp/FullList.txt
現在,你把所有的文件都記錄在/tmp/FullList.txt 中了。再生成一次該文件,然后用 diff 工具或者類似的命令來做比對。想成為對付這種漏洞的大師嗎?你可以去看看由 Bill Blunden 所撰寫的《The RootKit Arsenal: Escape and Evasion in the Dark Corners of the System》
計劃任務和調度檢查
幾乎每一位系統管理員針對幾乎所有的系統都會有一些規劃好的任務待處理。你需要檢查調度程序是否按順序在執行這些任務。同時,也要確保第二天的 任務規劃條目已經設定好。如果由于任何需要,今天將要執行或者已經執行過的任務需要做修改,那么請在調度程序中完成設定。通常,你每天需要檢查調度程序兩 次。第一次是早上上班時,第二次是晚上離開辦公室的時候。有太多關于 Cron 服務和任務調度方面的書籍了。除了前面說的《10本適合于系統管理員的最佳書籍》外,你還可以看看由O’reilly 出版的 Eleen Frisch 的《Essential System Administration, Third Edition》。
文檔
你的每一個操作活動和過程都應該記錄下來。當你新安裝了一次系統后,按照時間順序來看系統中所有關于權限方面的改動細節都應該記錄下來。根據你所在公司的規定,你可以根據需要管理好文檔的軟拷貝或硬拷貝。當出現問題時,這份文檔將幫助你更好的定位診斷系統的故障源。
進程檢查
這是系統管理員常常做的一項操作,但對于他們所看到的結果卻從未認真過。他們僅僅只是利用這個命令來檢查他的進程是否在運行,但從未仔細檢查過 是否有不受歡迎的進程正在運行。要試著得到有關進程所有者的所有細節信息。確保在運行的進程中沒有你不希望其運行的。如果你看到任何這樣的“不受歡迎 者”,你應該反復檢查進程的位置以及你的記錄文檔。如果那個進程確實是你不知道的,kill 掉它然后從系統中刪除之。更好的方式是格式化整個系統(…沒有那個系統管理員希望這樣吧),因為出現這種情況表示您的系統很可能已經被攻陷了。
物理檢查
有時候這會是被我們永遠遺忘的記憶死角。服務器的物理存放位置,硬件方面的安全性以及設備的清潔程度對于服務器穩定出色的工作都是非常重要的。 出于各種原因,你可能無法每天都去檢查你的服務器的物理狀態,但你應該設定一個工作例程,在固定的時間周期中去檢查設備的物理情況。
最后做下總結,如果你希望成為一名非常優秀且成功的系統管理員,你需要有一套自己的實踐準則,就像宗教儀式那樣。提高知識儲備會使你懂得很多東西,但沒有好的實踐,你就不會成功。祝你好運,愉快的享受“系統管理”吧!
關于作者
Sifat 是一名資深系統管理員,他現在仍然喜歡在控制臺上手敲各種命令。Sifat 在 IT 和通信行業擁有 14 年的系統操作和管理經驗,在 IT 組織、IT 流程管理、成本控制等方面擁有成功的經驗。在有效降低軟件和硬件整合和虛擬化的成本和運營費用上頗有心得。Sifat 獲得了 ITIL 和 VMware 的專業資格認證。
英文原文:iSystemAdmin 編譯:伯樂在線—— 陳舸