使用 Python 編寫 MapReduce 作業:mrjob

jopen 12年前發布 | 18K 次閱讀 mrjob Python開發

mrjob 可以讓用 Python 2.5+ 來編寫 MapReduce 作業,并在多個不同平臺上運行,你可以:

  • 使用純 Python 編寫多步的 MapReduce 作業
  • 在本機上進行測試
  • 在 Hadoop 集群上運行
  • 使用 Amazon Elastic MapReduce (EMR) 在云上運行

pip 的安裝方法:pip install mrjob
使用 Python 編寫 MapReduce 作業:mrjob

示例代碼:

from mrjob.job import MRJob


class MRWordCounter(MRJob):

    def mapper(self, key, line):
        for word in line.split():
            yield word, 1

    def reducer(self, word, occurrences):
        yield word, sum(occurrences)


if __name__ == '__main__':
    MRWordCounter.run()

項目主頁:http://www.baiduhome.net/lib/view/home/1374753060871

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!