python爬蟲xpath的語法

sdww 10年前發布 | 138K 次閱讀網絡爬蟲 Python

有朋友問我正則，，okey，其實我的正則也不好，但是python下xpath是相對較簡單的

簡單了解一下xpath：

XPath 是一門在 XML 文檔中查找信息的語言。XPath 可用來在 XML 文檔中對元素和屬性進行遍歷。

XPath 是 W3C XSLT 標準的主要元素，并且 XQuery 和 XPointer 都構建于 XPath 表達之上。

因此，對 XPath 的理解是很多高級 XML 應用的基礎。

這個是w3c上關于xpath的介紹，可以看出xpath是在xml文檔中查詢信息的語言

在 XPath 中，有七種類型的節點：元素、屬性、文本、命名空間、處理指令、注釋以及文檔（根）節點。XML 文檔是被作為節點樹來對待的。樹的根被稱為文檔節點或者根節點。

根節點在xpath中可以用“//”來啊表示

XPath 使用路徑表達式來選取 XML 文檔中的節點或節點集。節點是通過沿著路徑 (path) 或者步 (steps) 來選取的。

接下來一個例子

<?xml version="1.0" encoding="ISO-8859-1"?>
<bookstore>
<book>
  <title lang="eng">Harry Potter</title>
  <price>29.99</price>
</book>
<book>
  <title lang="eng">Learning XML</title>
  <price>39.95</price>
</book>
</bookstore></pre> 

這個是基本的語法（掌握了這些基本都可以抓取到）： 


</tr>

</tr>

</tr>

</tr>

</tr>

</tr>

</tr>
</tbody>
</table>
  
  
實例 
在下面的表格中，我們已列出了一些路徑表達式以及表達式的結果： 



表達式 
描述 

nodename 
選取此節點的所有子節點。 

/ 
從根節點選取。 

// 
從匹配選擇的當前節點選擇文檔中的節點，而不考慮它們的位置。 

. 
選取當前節點。 

.. 
選取當前節點的父節點。 

@ 
選取屬性。 





</tr>

</tr>

</tr>

</tr>

</tr>

</tr>
</tbody>
</table>

謂語（Predicates） 

謂語用來查找某個特定的節點或者包含某個指定的值的節點。 

謂語被嵌在方括號中。 

實例 

在下面的表格中，我們列出了帶有謂語的一些路徑表達式，以及表達式的結果： 




路徑表達式 
結果 

bookstore 
選取 bookstore 元素的所有子節點。 

/bookstore 

選取根元素 bookstore。 

注釋：假如路徑起始于正斜杠( / )，則此路徑始終代表到某元素的絕對路徑！ 
</td>
</tr>

bookstore/book 
選取屬于 bookstore 的子元素的所有 book 元素。 

//book 
選取所有 book 子元素，而不管它們在文檔中的位置。 

bookstore//book 
選擇屬于 bookstore 元素的后代的所有 book 元素，而不管它們位于 bookstore 之下的什么位置。 

//@lang 
選取名為 lang 的所有屬性。 

</tr>

</tr>

</tr>

</tr>

</tr>

</tr>

</tr>

</tr>

</tr>
</tbody>
</table>
</div>

選取未知節點 

XPath 通配符可用來選取未知的 XML 元素。 




路徑表達式 
結果 

/bookstore/book[1] 
選取屬于 bookstore 子元素的第一個 book 元素。 

/bookstore/book[last()] 
選取屬于 bookstore 子元素的最后一個 book 元素。 

/bookstore/book[last()-1] 
選取屬于 bookstore 子元素的倒數第二個 book 元素。 

/bookstore/book[position()<3] 
選取最前面的兩個屬于 bookstore 元素的子元素的 book 元素。 

//title[@lang] 
選取所有擁有名為 lang 的屬性的 title 元素。 

//title[@lang='eng'] 
選取所有 title 元素，且這些元素擁有值為 eng 的 lang 屬性。 

/bookstore/book[price>35.00] 
選取 bookstore 元素的所有 book 元素，且其中的 price 元素的值須大于 35.00。 

/bookstore/book[price>35.00]/title 
選取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值須大于 35.00。 

</tr>

</tr>

</tr>

</tr>
</tbody>
</table>
實例 
在下面的表格中，我們列出了一些路徑表達式，以及這些表達式的結果： 



通配符 
描述 

* 
匹配任何元素節點。 

@* 
匹配任何屬性節點。 

node() 
匹配任何類型的節點。 



</tr>

</tr>

</tr>

</tr>
</tbody>
</table>
</div>
選取若干路徑 
通過在路徑表達式中使用“|”運算符，您可以選取若干個路徑。 
實例 
在下面的表格中，我們列出了一些路徑表達式，以及這些表達式的結果： 



路徑表達式 
結果 

/bookstore/* 
選取 bookstore 元素的所有子元素。 

//* 
選取文檔中的所有元素。 

//title[@*] 
選取所有帶有屬性的 title 元素。 





</tr>

</tr>

</tr>



路徑表達式 
結果 

//book/title | //book/price 
選取 book 元素的所有 title 和 price 元素。 

//title | //price 
選取文檔中的所有 title 和 price 元素。 

/bookstore/book/title | //price 

選取屬于 bookstore 元素的 book 元素的所有 title 元素，以及文檔中所有的 price 元素。 
</td>
</tr>
</tbody>
</table>
  

這些就是xpath的語法內容 

在運用到python抓取時要先轉換為xml 

Import lxml 　　　　　　#首先要先導入庫 

etree.HTML() #這個就是轉換為xml的python的語法，HTML括號內填入目標站點的源碼，可以參照另一篇博文，《爬蟲下載百度貼吧圖片》
之后各位就可以抓取指定的內容了</div>
來自：http://www.cnblogs.com/lonenysky/p/4649455.html
                    
                    
                         本文由用戶 sdww 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。
                         轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。
                         本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！
                         本文地址：http://www.baiduhome.net/lib/view/open1437229113615.html
                         網絡爬蟲 Python
                    

                
                
                    
                        相關經驗
                        
  python爬蟲xpath的語法
   XPath 語法
   Dom4j使用Xpath語法讀取xml節點
   XPath 簡介
   Python Web 爬蟲匯總
                         
                    
                    
                        相關資訊
                        
  反對語法高亮的情況
   Aragog：Pinterest的爬蟲框架
   HTML5 – 新舊語法簡介
   如何用最小的代價完成爬蟲需求
   Go 爬蟲軟件，Pholcus 0.6.0 發布
                         
                    
                    
                        相關文檔
                        
   python 基本語法
    Selenium Xpath
    Xpath文檔
    python爬蟲
    XML XPath詳解
    JSP 語法
    python cookbook(第3版)高清中文完整版
    python cookbook第三版中文v2.0.0
    Selenium 中文文檔
                         
                    

                    目錄
                
            
        
      


    
      
        
          社區
            項目
問答
文庫
代碼
經驗
資訊
          安卓開發專欄
開發者周刊
Android Studio 使用推薦
Android開發推薦
        

        
          幫助中心
          文檔上傳須知
          關于我們
          關于深度開源
免責聲明
聯系我們
        
        © 2006-2019 深度開源 —— 開源項目,開源代碼,開源文檔,開源新聞,開源社區  杭州精創信息技術有限公司  

  浙公網安備 33018302001163 號  浙ICP備09019653號-31

表達式	描述
nodename	選取此節點的所有子節點。
/	從根節點選取。
//	從匹配選擇的當前節點選擇文檔中的節點，而不考慮它們的位置。
.	選取當前節點。
..	選取當前節點的父節點。
@	選取屬性。

路徑表達式	結果
bookstore	選取 bookstore 元素的所有子節點。
/bookstore	選取根元素 bookstore。注釋：假如路徑起始于正斜杠( / )，則此路徑始終代表到某元素的絕對路徑！ </td> </tr>
bookstore/book	選取屬于 bookstore 的子元素的所有 book 元素。
//book	選取所有 book 子元素，而不管它們在文檔中的位置。
bookstore//book	選擇屬于 bookstore 元素的后代的所有 book 元素，而不管它們位于 bookstore 之下的什么位置。
//@lang	選取名為 lang 的所有屬性。

路徑表達式	結果
/bookstore/book[1]	選取屬于 bookstore 子元素的第一個 book 元素。
/bookstore/book[last()]	選取屬于 bookstore 子元素的最后一個 book 元素。
/bookstore/book[last()-1]	選取屬于 bookstore 子元素的倒數第二個 book 元素。
/bookstore/book[position()<3]	選取最前面的兩個屬于 bookstore 元素的子元素的 book 元素。
//title[@lang]	選取所有擁有名為 lang 的屬性的 title 元素。
//title[@lang='eng']	選取所有 title 元素，且這些元素擁有值為 eng 的 lang 屬性。
/bookstore/book[price>35.00]	選取 bookstore 元素的所有 book 元素，且其中的 price 元素的值須大于 35.00。
/bookstore/book[price>35.00]/title	選取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值須大于 35.00。

通配符	描述
*	匹配任何元素節點。
@*	匹配任何屬性節點。
node()	匹配任何類型的節點。

路徑表達式	結果
/bookstore/*	選取 bookstore 元素的所有子元素。
//*	選取文檔中的所有元素。
//title[@*]	選取所有帶有屬性的 title 元素。

sesese色