谷歌開源獵星代碼,AI時代的天文愛好者們一起尋找那顆屬于自己的星
去年 12 月份,谷歌訓練了一個神經網絡,通過分析美國宇航局(NASA)Kepler 空間望遠鏡獲得的一些數據,發現了兩顆系外行星。這項工作作為將機器學習的方法應用到天體物理中的典型案例,或將大大加速人類對系外行星的探索步伐。
而在今天,谷歌開源了他們的代碼。任何有興趣的同學都可以下載代碼和數據,在自己的機器上運行。
注:系外行星,指在太陽系之外的行星。天文學家估計銀河系中可能包含多達4,000 億顆系外行星。截至 2016 年 2 月 22 日,已經被認定的系外行星總數為 2085 顆,這些行星分屬 1331 個行星系,其中有 509 個多行星系。- via Wikipedia
天文學家怎么發現系外行星?
or 獵星入門
我們知道,行星是不發光的,我們之所以能夠看到水、金、火、木、土星,是因為它們反射了太陽光線,但這些光線相比于恒星來說是微不足道的。當距離遙遠時,即使那些巨大的恒星都可能難以察覺,更何況那些系外行星。
天文學家于是想到了另外一種辦法——當行星經過恒星的前方時會遮擋一部分光線,這就會導致我們測量的恒星亮度稍微下降,當離開后又會恢復,于是在恒星亮度曲線上就會出現“U形”凹陷;通過這種方法,天文學家可以間接地證明系外行星的存在。
不過,還有一些其他原因可能會導致測得的恒星亮度降低,例如雙星系統、恒星黑子(類似太陽黑子)或者宇宙線打擊到空間望遠鏡上所造成的儀器噪聲。
為了在 Kepler 空間望遠鏡的數據中搜索行星,天文學家們使用了自動化軟件來檢測可能由行星遮光引起的信號,然后手動跟蹤去確定這些信號到底是行星還是誤報。為了避免檢測到太多的信號,以至于他們沒有那么多人手來處理,天文學家們對自動檢測設置了一個截止點:只有信噪比超過固定閾值才會被提取出來;否則就丟掉。不過即使這樣,仍然有大量的信號需要檢測。例如到目前為止,已經有超過 30000 個信號被手動檢測過,其中約 2500 個被驗證為系外行星。
可能你也會想到,設置閾值是否會導致一些可能真實的行星信號被丟掉呢?答案是肯定的。但是,限于勞動強度太大,而降低閾值假陽性檢測率會伴隨著迅速增加,也即能夠檢測到實際行星的比例將越來越低。
然而,這些丟掉的信號里面可能存在一些我們很關切的天體——潛在的宜居行星(類似地球的行星)。這些宜居行星一般相對較小,而且圍繞在相對較暗的恒星周圍運動,其遮光信號將非常弱。因此在閾值以下丟掉的這些信號可能隱藏著仍未發現的寶藏。
來吧!機器學習!
考慮到數據的龐大和人力的密集,自然而言想到的一個方法就是:機器學習。
基于以上的考慮,Google Brain 團隊找到了 UT Austin 大學的 Andrew Vanderburg,Vanderburg 是一位著名的天體物理學家,專注于研究系外行星探測。他們合作開發了一個神經網絡(CNN 模型),用來在低信噪比檢測的信號中搜索系外行星。
就像所有基于神經網絡的模型一樣,這個模型也需要訓練集。幸運的是,如前面所述,我們已經擁有 30000 個 Kepler 信號,這些信號已經由天文學家們人工手動檢測和分類過了。
Google 團隊使用了其中一半的數據用作訓練,其中有 3500 個信號經過驗證為行星或行星候選者。該網絡的輸入是同一個光曲線的兩個獨立視圖:一個寬視圖,允許模型檢查光曲線上其他地方的信號(例如,雙星會引起次級信號);一個是放大視圖,使模型能夠仔細檢查信號的形狀(例如將“U形”信號和“V形”信號區分開來)。
當完成模型訓練后,Google 團隊的研究人員用它研究了光曲線的的特征,以檢驗模型的輸出是否與我們的期望相符。方法很簡單,就是系統地掩蓋輸入光曲線的某一個小區域,來檢測模型輸出的變化。結果顯示,如果掩蓋那些對判斷信號特別重要的區域,模型輸出也會相應的改變;但如果掩蓋的是不重要的區域,則不會產生顯著的影響。
舉例來說,下面這張為雙星(而不是系外行星)的光曲線圖,模型做出了正確的預測;其中綠色突顯的點是最能影響模型輸出的區域,因為它們是對應于雙星系統的次級信號。當這些點被掩蓋后,模型的輸出中判斷為系外行星的概率就從0% 突然躍升到 40%。
經過以上的驗證后,研究人員對模型的預測能力就充滿了信心。他們選擇了 670 顆恒星,期望能在它們的光曲線中搜索到新的系外行星。之所以挑選這 670 顆恒星,是因為我們已知這些恒星有多個軌道行星,研究人員們相信這些恒星中應該還擁有一些尚未被發現的行星。
研究人員選取了遠低于天文學家之前設置的信噪比閾值。正如預期的那樣,神經網絡模型判斷的結果顯示大部分信號為虛假信號,但令人興奮的是,有少數極有可能是系外行星的候選者。隨后經過檢測判定了其中兩顆為系外行星: Kepler-90i 和 Kepler-80g。
Amazing!!
一起獵星吧!
從 670 顆恒星中找到了兩顆新的系外行星。這項工作可能只是一個開始,而且遠沒有完成,因為開普勒觀測到的數據為 20 萬顆恒星。誰知道當把這項技術應用到整個數據集時我們會發現什么。
獨樂了不如眾樂樂,Google Brain 團隊今天開源了他們的代碼。有興趣的同學不妨加入這場大眾的獵星行動,一起來尋找那顆可能屬于自己的星球。
人工智能時代的天文愛好者,可能不再是拿著昂貴的器材到野外去看星空了,而是使用更強大的工具——機器學習,來搜索宇宙。
代碼地址:https://github.com/tensorflow/models/tree/master/research/astronet
via Google Blog
來自: 雷鋒網