時間:2017-05-10 10:55:43 作者:不思議游戲 瀏覽量:100

XPath提取
XPath 是一門在 HTML/XML 文檔中查找信息的語言。
XPath 使用路徑表達式在 XML 文檔中進行導航,可以通過FireFox firebug 或者Chrome 開發者工具快速獲取。
XPath節點屬性
innerHTML 獲取位于對象起始和結束標簽內的 HTML (HTML代碼,不包含開始/結束代碼)
innerText 獲取位于對象起始和結束標簽內的文本 (文本字段,不包含開始/結束代碼)
outerHTML 獲取對象及其內容的 HTML 形式 (HTML代碼,包含開始/結束代碼)
Href 獲取超鏈接
以網址 http://faq.locoy.com/q-681.html 為例,我們來設置標題和內容的XPath表達式,節點屬性 我們默認innerHTML就可以。
方法/步驟
1、首先,用谷歌瀏覽器打開 網頁, 然后打開Chrome開發者工具,快捷鍵為 “ F12 ”,反復按下F12可以切換狀態(打開或關閉)。 當然,你也可以在原網頁,直接右擊“審查元素”。
2、獲取標題的XPath,操作如下圖:

得出代碼為 //*[@id="mainContent"]/div[2]/h2

3、獲取內容的XPath,操作如下圖:

得出代碼為 //*[@id="cmsContent"]
然后放入即可。