使用 Python 編寫 MapReduce 作業:mrjob
mrjob 可以讓用 Python 2.5+ 來編寫 MapReduce 作業,并在多個不同平臺上運行,你可以:
- 使用純 Python 編寫多步的 MapReduce 作業
- 在本機上進行測試
- 在 Hadoop 集群上運行
- 使用 Amazon Elastic MapReduce (EMR) 在云上運行
pip 的安裝方法:pip install mrjob

示例代碼:
from mrjob.job import MRJob
class MRWordCounter(MRJob):
def mapper(self, key, line):
for word in line.split():
yield word, 1
def reducer(self, word, occurrences):
yield word, sum(occurrences)
if __name__ == '__main__':
MRWordCounter.run()
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!