簡單的問題復雜著解決
英文原文:Solving easy problems the hard way ]
這段時間互聯網上火熱的流傳著一個智力測試題。題目出現的形式有多種,但大多看起來是這個樣子:
如果是學齡前兒童,5-10分鐘能解決這個問題,普通程序員要 1 個小時,受過更高教育的人 …
8809=6
7111=0
2172=0
6666=4
1111=0
3213=0
7662=2
9313=1
0000=4
2222=0
3333=0
5555=0
8193=3
8096=5
7777=0
9999=4
7756=1
6855=3
9881=5
5531=0
2581=?
謎底揭示 …
.
.
.
.
.
.
.
.
.
.
答案跟每個數字里有多少個圈圈有關。在形狀上,8有 2 個圈,所以記兩次。0是一個大圈,記 1 次。所以 2581=2。很有趣,不是嗎?這是一種通過隱含的計算方式得出的另一種數值對應關系。
而困擾著我的卻是如何能以一種不基于數字形狀的方法來找到這種數值對應關系。我如何能編程讓計算機來解決這個問題?我認真思考了一下,因為我喜歡自認為是一個計量經濟學家,這道題看起來頗像一個可以通過一個 OLS(ordinary least squares)表達式來解決的聯立方程式。那么,如何能講將這個問題和涉及到的數據轉化成一個小小的 OLS 表達式呢?我需要將每行的數字隊列轉換成一個描述數字出現頻率的表格。這樣,對于 8809=6來說,我需要重構出來的數據應該類似于這樣:
1,0,0,0,0,0,0,0,2,1 = 6
在這種形式的公式中,9個數字分別代表著數字1-9在每串數據中出現的次數。我不知道如何得出這張頻次表,于是,按照我的習慣,我把這個問題做了一個簡潔的描述,張貼在 StackOverflow.com 上,如我愿的得到了一個極好的方案。一旦我建好了頻次表,問題就變成了一個簡單的關于 10 個獨立變量的線性表達式。
我的整個運算腳本——如果你十分感興趣的話——就是下面這些,你可以把它粘貼到R語言解釋器里運行。
## read in the training data ## more lines than it should be because of the https requirement in Github temporaryFile <- tempfile () download.file ("https://raw.github.com/gist/2061284/44a4dc9b304249e7ab3add86bc245b6be64d2cdd/problem.csv",destfile=temporaryFile, method="curl") series <- read.csv (temporaryFile) ## munge the data to create a frequency table freqTable <- as.data.frame ( t(apply (series[,1:4], 1, function (X) table (c(X, 0:9))-1)) ) names (freqTable) <- c("zero","one","two","three","four","five","six","seven","eight","nine") freqTable$dep <- series[,5] ## now a simple OLS regression with no intercept myModel <- lm (dep ~ 0 + zero + one + two + three + four + five + six + seven + eight + nine, data=freqTable) round (myModel$coefficients)
Created by Pretty R at inside-R.org
最終的輸出結果如下:
> round (myModel$coefficients) zero one two three four five six seven eight nine 1 0 0 0 NA 0 1 0 2 1
你可以看到,0,6和 9 對應的值是1,而 8 對應的值是2。其它數字對應的都是0。而 4 得出的是 NA,這是因為數字序列中沒有出現4。
哈哈。我也跟學齡前兒童一樣聰明了。而且我還用程序做了驗證。
來自: 外刊IT評論