程序員,你調試過的最難的 Bug 是?
調試 Bug?每個程序員工作中必須品。在 Quora 上有一個和 Bug 相關的熱門問答帖:《What’s the hardest bug you’ve debugged? 你調試過的最難 Bug 是?》。在眾多回復中,Dave Baggett 的經歷最讓人驚嘆,得到了 2400 多個頂。
感謝@cugbabyebar 的熱心翻譯。
</blockquote>回想起這個 bug,仍然讓我有些痛苦。作為一個程序員,在發現 bug 時,你學會了首先在自己代碼中找問題,或許在測試一萬次之后,你會把問題歸咎于編譯器。只有在這所有的都不起作用之后,你才會把問題歸咎于硬件。
這是我遭遇一個硬件 bug 的故事。
拋開別的不說,我曾為《Crash Bandicoot》寫存儲卡(讀寫)代碼。對于一個自大的游戲程序員,這就像是在公園里散步一樣輕松愉快,我認為只要幾天就寫完了。我中止調試六個禮拜。在此期間我做一些其他的事情,但我一直回來處理這個 bug——幾天內每天幾個小時。這個 bug 實在煩人。
這個 bug 的癥狀是,當你需要保存你的進度時,代碼會訪問存儲卡,而大部分情況下沒有什么問題…但是偶爾讀寫會超時…沒有任何明顯的原因。一個短小的寫入經常毀掉存儲卡。玩家要保存進度,我們不僅不保存,還擦除他們存儲卡上的全部東西。天哪。
過了一段時間,我們在 Sony 的制作人 Connie Booth 慌了。我們顯然不能帶著這個 bug 發布游戲,而六個星期之后我對于問題出在哪一點線索都沒有。通過 Connie 我們向其他 PS1 開發者求助:有沒有人出現過像我們這樣的情況?沒有。絕對沒有任何人在存儲卡系統上出現任何問題。
在你絞盡腦汁之后,你能做的唯一一個調試方法就是分而治之:一點點去除程序中的代碼,直到留下的代碼很少但你仍然出問題。像木雕一樣去除沒有問題的代碼,留下的就是你的 bug 所在。
在這樣的背景下挑戰在于,視頻游戲是很難去除某一部分的。在你刪除模擬重力或者顯示字符的代碼后,如何運行游戲?
你必須做的是用一個假裝做真正的事情,但實際上只是做很簡單的不會出現 bug 事情的東西來替換掉整個模塊。你必須寫新的支撐代碼來讓這些玩意正常工作。這是一個緩慢而痛苦的過程。
長話短說:我做完了。我移除了大片大片的代碼,相當多,只留下了初始化代碼——就是準備游戲運行系統,初始化底層硬件等等。當然,我不能顯示加載/保存菜單,因為我截除了所有的圖像代碼。但是我能夠假裝用戶使用(不可見的)加載/保存屏幕并且請求保存,然后寫入卡中。
我最終以一個帶有這個 bug 的很少量的代碼結束——但問題仍然隨機出現!在大多數情況下沒啥問題,但是偶爾會失效。基本上所有的 Crash 的實際代碼都被移除了,但還是這樣。這實在是莫名其妙:留下來的代碼基本上都沒做什么事。
在那時——估計是凌晨 3 點——一個想法蹦了出來。讀寫(I/O)涉及精確定時。無論是硬盤、存儲卡、藍牙發送器——隨便啥——做讀寫的底層代碼都是根據時鐘來的。
時鐘讓不直接連接到 CPU 的硬件設備和 cpu 運行的代碼同步。時鐘決定了波特率——數據從一頭傳到另一頭的速率。如果計時有什么問題,硬件或者軟件或者兩者都會亂七八糟的。這真的,真的很糟糕,并且通常導致數據損壞。
如果我們的初始化代碼以某種方式弄亂了計時會怎么樣?我又看了一遍測試程序中和計時有關的代碼,并注意到我們將 PS1 上的可編程計時器設置到了 1kHz(1000 跳每秒)。這是比較快了,當 PS1 啟動的時候,默認狀態大概是 100Hz。因此,大多數游戲將他們的計時器設置為 100Hz。
這個游戲的帶頭(和除我外的唯一)開發者 Andy,將計時器設置為 1kHz,使得 Crash 的動作計算更加準確。Andy 喜歡矯枉過正,如果我們要模擬重力,我們應該盡可能的提高精度!
然而如果提高計時器頻率莫名其妙的干擾了整個程序的計時,故而將這個計時器設置到存儲卡的波特率上會怎樣呢?
我將計時器代碼注釋掉。然后我就無法復原這個 bug 了。但是這并不表示 bug 被修復了,這個問題是隨機發生的。萬一我只是運氣好呢?
幾天過去了,我還是在玩我的測試程序。Bug 沒有再出現。我回到全部的 Crash 代碼中,修改了加載/保存代碼,在訪問存儲卡之前將可編程計時器重置為默認設置(100Hz),之后設置回 1kHz。從此之后沒有發現問題再次出現。
但是…為什么?
我重新回到測試程序上,試著檢測當計時器設置為 1kHz 時出現的那些錯誤的模式。終于,我注意到這些錯誤出現在使用 PS1 手柄的人身上。因為我自己很少這樣做,所以我沒有注意到(為啥我要在測試加載/保存代碼的時候用手柄)。但是有一天我們的美工等我去完成測試(我確定那時候我在爆粗口),而他緊張的擺弄著手柄。卡損壞了。“等下,怎么回事?喂,再來一次!”
一旦我發現了這兩件事是聯系著的,就很容易重現 bug:開始寫入存儲卡,動一下手柄,存儲卡損壞。在我看來完全是硬件 bug。
我去找 Connie 告訴他我的發現。她轉述給設計過 PS1 的硬件工程師。她被告知:“不可能,這不可能是硬件問題。”我跟她說問一下我能不能直接和他說。
那個工程師給我打電話了,他用著他的爛英語,我用著我更爛的日語,我們爭論一會。我最后說:“我給你一個 30 行的測試程序,讓你在動手柄的時候能夠出現這問題。”他答應了。他向我保證,這是浪費時間,而他正在一個新項目上很忙,但因為我們是 Sony 很重要的開發者,他會試的。
第二天晚上(我們在洛杉磯,而他在東京,所以對于我來說是晚上而他是到了第二天),他給我打電話,不好意思的向我道歉。這是個硬件問題。
我還是沒有完全搞清楚問題到底在哪,但是我的印象中,從 Sony 總部的反饋聽到的是,如果將可編程計時器設置到足夠高的時鐘頻率,會影響到主板上時鐘晶振附近的一些東西。這些東西之一就是存儲卡的波特率控制器,同時也設置手柄的波特率。我不是搞硬件的,所以對于細節我相當模糊。
但是主旨是主板上兩個獨立部分的串擾,以及手柄接口和存儲卡接口數據發送的結合在 1kHz 的時鐘頻率下會導致丟位,從而數據丟失,以致卡損壞。
這是我全部編程生涯中,唯一一次因為量子力學 debug 的問題。
翻譯: 伯樂在線 - CuGBabyBeaR 譯文鏈接: http://blog.jobbole.com/50995/
來自: blog.jobbole.com本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!