Python 獲取SVN 文件
背景:
最近要從SVN 服務器的一個文件夾里面check out 八十幾個文件,但是這個文件夾比較大,里面有幾千個文件。
由于服務器在印度,check out 非常緩慢而且經常莫名其妙地斷開連接。
(吐槽下:誰在維護這個服務器啊,服務器太慢啦,為什么把這么多文件放在同一個文件夾啊)
于是我放棄將整個文件夾check out出來的想法,準備單獨check out 這八十幾個文件。
平時取單個文件的時候,我是通過瀏覽器訪問SVN服務器,使用瀏覽器的"文件另存為"功能來下載文件,
但是這八十幾個文件一個"另存為",又太... 好吧,我承認我有點懶...
于是我寫了這個Python腳本...
核心思想:
使用urllib2模塊來模擬瀏覽器訪問SVN服務器.
SVN服務器是要校驗權限的,因此使用HTTPBasicAuthHandler來添加用戶名和密碼,進行授權.
為了維護的方便,將要check out的文件列表放在一個文本文件里面,每一個文件占一行.
將需要check out文件所在文件夾的URL(baseurl),用戶名(user),密碼(passwd)和存儲文件列表的文件名稱(fileList)放在配置文件里面.
另外做了幾個exception的處理: 文件不存在,用戶名 密碼 錯誤 和 URL 錯誤.
要注意的是 HTTPError 是 URLError 的子集, 因此要先捕獲HTTPError, 不然錯誤總是被URLError 捕獲.
代碼結構:
|__GetFilesFromSVN.py
|__config.ini
|__fileList.txt
代碼:
GetFilesFromSVN.py
#---------------------------------------------- # Author : Jeff Yu # Date : 2012-8-13 # Function : get files from SVN #---------------------------------------------- #---------------------------------- # Step1: Get INFO #---------------------------------- import sys,ConfigParser try: configFile = open("config.ini","r") except IOError: print "config.ini is not found" raw_input("") sys.exit() config = ConfigParser.ConfigParser() config.readfp(configFile) configFile.close() # get baseurl try: baseurl = config.get("INFO","baseurl") # incase last "/" is missing in baseurl baseurl = baseurl.rstrip("/") baseurl = "%s/"%baseurl except ConfigParser.NoOptionError: print "baseurl is not found under section INFO in config.ini." raw_input("") sys.exit() # get user try: user = config.get("INFO","user") except ConfigParser.NoOptionError: meg = "user is not found under section INFO in config.ini." raw_input("") sys.exit() # get passwd try: passwd = config.get("INFO","passwd") except ConfigParser.NoOptionError: meg = "passwd is not found under section INFO in config.ini." raw_input("") sys.exit() # get fileList try: fileList = config.get("INFO","fileList") except ConfigParser.NoOptionError: meg = "fileList is not found under section INFO in config.ini." raw_input("") sys.exit() #---------------------------------- # Step2: Auth #---------------------------------- import urllib2 realm = "Subversion Repositories" auth = urllib2.HTTPBasicAuthHandler() auth.add_password(realm, baseurl, user, passwd) opener = urllib2.build_opener(auth, urllib2.CacheFTPHandler) urllib2.install_opener(opener) #---------------------------------- # Step3: Create Folder #---------------------------------- import os folderName = "svnFile" if not os.path.exists(folderName): os.mkdir(folderName) #---------------------------------- # Step4: Get Files #---------------------------------- fr = open(fileList,'r') for i in fr: i = i.strip("\n") i = i.strip(" ") # ignore the blank line if i != "": url = "%s%s"%(baseurl,i) try: data = urllib2.urlopen(url) fw = open("%s/%s"%(folderName,i),'w') fw.write(data.read()) fw.close() print "Download: %s."%i except urllib2.HTTPError, e: # HTTPError is a subclass of URLError # need to catch this exception first mesg = str(e).split(" ") errCode = mesg[2].rstrip(":") if errCode == "401": # HTTP Error 401: basic auth failed print "Can not login in, please check the user and passwd in config.ini." break elif errCode == "404": # HTTP Error 404: Not Found print "Not Found: %s"%i else: print e print "Failed to download %s"%i except urllib2.URLError: # 1.SVN server is down # 2.URL is not correct print "Please check SVN Server status and baseurl in config.ini." break fr.close() raw_input("")config.ini
[INFO] baseurl = https://xxx/xxx/xxx/xxx/ user = 用戶名 passwd = 密碼 fileList= fileList.txtfileList.txt
aaaaa.txt bbbbb.txt ccccc.txt使用方法:
1.配置config.ini,配置好需要check out文件所在文件夾的URL(baseurl),用戶名(user),密碼(passwd)和存儲文件列表的文件名稱(fileList)
2.將要check out的文件列表放在文本文件里面(fileList.txt),每一個文件占一行.
3.雙擊GetFilesFromSVN.py運行,下載的文件將放在當前文件夾下用過名為svnFile的文件夾里面.
PS:獲取realm
在這個腳本中,我hardcode了一段代碼(064行) realm = "Subversion Repositories"
關于這個realm,可以使用下面腳本獲取:
import urllib2 import sys url = '這里寫URL' username = '這里寫用戶名' password = '這里寫密碼' req = urllib2.Request(url) try: handle = urllib2.urlopen(req) except IOError, e: pass else: print "This page isn't protected by authentication." sys.exit(1) getrealm = e.headers['www-authenticate'] print getrealm