爬蟲開源:微博終結者
http://www.baiduhome.net/lib/view/home/1492480434728
微博終結者爬蟲
關于聊天對話系統我后面會開源一個項目,這個repo目的是基于微博構建一個高質量的對話語料,本項目將繼續更進開發
這個項目致力于對抗微博的反爬蟲機制,集合眾人的力量把微博成千上萬的微博評論語料爬取下來并制作成一個開源的高質量中文對話語料,推動中文對話系統的研發。 本系統現已實現:
- 爬取指定id用戶的微博數,關注數,粉絲數,所有微博內容以及所有微博對應的評論;
- 作者考慮到制作對話系統的可行性以及微博語料的難處理性,爬取過程中,所有微博會保存為可提取的形式,具體可以參照爬取結果保存樣例;
- 本項目不依賴于任何第三方爬取框架,但手動實現了一個多線程庫,當爬取多用戶時會開啟上百條線程工作,爬取速度在每小時百萬級別;
- 本項目最終目的是為了充分利用龐大的微博平臺構建一個開源高質量的中文對話系統(據作者所知,很多公司對自己的數據視如珍寶,鄙之);
- 除此之外,本項目還可以用于指定用戶評論分析,比如爬取羅永浩的微博可以分析他第二年錘子手機的銷量(牛逼把)
希望更多童鞋們contribute進來,還有很多工作要做,歡迎提交PR!
為人工智能而生
中文語料一直以來備受詬病,沒有機構或者組織去建立一些公開的數據集,反觀國外,英文語料相當豐富,而且已經做的非常精準。
微博語料作者認為是覆蓋最廣,最活躍最新鮮的語料,使用之構建對話系統不說模型是否精準,但新鮮的詞匯量是肯定有的。
爬取結果
指定用戶的微博和評論形式如下:
E
4月15日#傲嬌與偏見# 超前點映,跟我一起去搶光它 [太開心] 傲嬌與偏見 8.8元超前點映 順便預告一下,本周四(13號)下
午我會微博直播送福利,不見不散哦[壞笑] 電影傲嬌與偏見的秒拍視頻 <200b><200b><200b>
E
F
<哈哈哈哈哈哈狗->: 還唱嗎[doge]
<緑麓>: 綠麓!
<哈哈哈哈哈哈狗->: [doge][doge]
<至誠dliraba>: 哈哈哈哈哈哈哈
<五只熱巴肩上扛>: 大哥已經唱完了[哆啦A夢吃驚]
<哈哈哈哈哈哈狗->: 大哥[哆啦A夢吃驚]
<獨愛Dear>: 10:49坐等我迪的直播[喵喵][喵喵][喵喵]
<四只熱巴肩上扛>: 對不起[可憐]我不趕
<四只熱巴肩上扛>: 哈狗[哆啦A夢花心][哆啦A夢花心]
<至誠dliraba>: 哈狗來了 哈哈哈
<四只熱巴肩上扛>: [攤手]綠林鹿去哪里了!!!!
<哈哈哈哈哈哈狗->: 阿健[哆啦A夢花心]
<至誠dliraba>: 然而你還要趕我出去[喵喵]
<四只熱巴肩上扛>: 我也很絕望
<至誠dliraba>: 只剩F墻而來的我了
<四只熱巴肩上扛>: [攤手]我能怎么辦
<四只熱巴肩上扛>: [攤手]一首歌唱到一半被掐斷是一個歌手的恥辱[攤手]
<至誠dliraba>: 下一首
<四只熱巴肩上扛>: 最害怕就是黑屋[攤手]
<至誠dliraba>: 我腦海一直是 跨過傲嬌與偏見 永恒的信念
F
說明:
- E E 表示微博內容的開頭和結果
- F F表示所有評論的開頭和結尾
- 每條評論中 <> 是發起評論的用戶id, $$ 中是at用戶的id
Future Work
現在爬取的語料是最原始版本,大家對于語料的用途可以從這里開始,可以用來做話題評論機器人,但作者后面將繼續開發后期處理程序,把微博raw data變成對話形式,并開源。 當然也歡迎有興趣的童鞋們給我提交PR,選取一個最佳方案,推動本項目的進展。
Contact
對于項目有任何疑問的可以聯系我 wechat: jintianiloveu , 也歡迎提issue
Copyright
(c) 2017 Jin Fagang & Tianmu Inc. LICENSE Apache 2.0
項目主頁:http://www.baiduhome.net/lib/view/home/1492480434728
本文由用戶 PatsyHerrin 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!