按照上一步的方法先填寫內容頁所在區域的起始和結束標志性代碼,然后分析這個區域中包含的鏈接與我們說需要的內容頁地址鏈接規律,添加過濾代碼 。這里起始代碼為“<!--顯示-->”,結束代碼為“page" style="float:right">”過濾代碼為必須包含“read-”不得包含“#” 。
如圖:需要注意的是這里文章比較多會有很多分頁,所以需要填寫“列表分頁獲取”規則 。通常只需要指定分頁代碼的區域,如有必要可以填寫“組合生成列表頁分頁”規則 。
這里的列表分頁規則其實代碼為“
然后保存返回,可以通過“測試網址采集”來測試規則是否正確,不正確可以返回修改規則,正確的話可以開始編寫“第二步采集內容規則” 。編寫“第二步采集內容規則” 先打開內容頁以及內容頁的源碼,找到需要提取的信息的前后代碼特征 。
以提取標題和內容為例 。首先復制文章標題,然后在源碼中查看該標題出現的幾處地方,找一處前后代碼在每一篇文章都一樣的地方,該例共出現了3處,第二處的代碼沒有其他干擾代碼 。
點擊“添加”,標簽名填“標題”,提取數據方式選擇前后截取,前后代碼分別為“”和“” 。如果采集的內容需要作進一步處理(如替換刪除編碼轉換過濾html等),在下方“數據處理”點擊添加填寫相應規則 。
再添加一個標簽,標簽名為“內容”,按照上述方法填寫內容的前后代碼片段,需要注意的是,前后代碼片段最好不要出現不完整的標簽(如:“”,一個完整的標簽應該是以“<”開始,以“>”結束,如果<>之間的內容在各個內容頁有一部分不一樣,將不一樣的部分用(*)代替即可),否則提取的內容會包含部分不完整的標簽 。通常正文包含的HTML會比較多,可以添加HTML過濾功能,建議僅保留段落(p)、圖片(img)、換行(br)等標簽 。
測試內容采集規則 保存規則后返回采集內容規則頁面,在右側“規則測試”的典型頁面文本框填上一個內容頁的地址,然后點擊測試,如果下面顯示到的內容符合預期說明可以了,如果未獲取到內容或者獲取到內容不正確,返回檢查并修改規則 。開始采集 選擇要采集的任務規則,勾選“采網址”和“采內容”復選框,點擊工具欄“開始”按鈕 。
后續工作 采集到的數據保存在數據庫,可以通過在任務名上點右鍵,選擇“打開DATA下任務文件夾”打開數據庫所在位置,該數據庫可以通過ACCESS打開和編輯 。如果想要重新采集,需要通過右鍵選擇“清空該任務網址庫”和“清空任務所有采集數據” 。
3.火車頭采集規則,如果在列表頁里面有多個參數,應該如何設置開始試了下,火車頭確實不行,因為它起始網址的參數就一個*,沒法對兩個動態的數據描述 。
那不妨換個角度來思考,為什么不把這些網址變成1級網址讓火車頭以采集的方式把它采集出來呢 。比如//i.html?_pgn=2&_skc=50&rt=nc把這個設置為起始網址(0級網址),那么你在設置采集網址的1級網址 。而//i.html?_pgn=2&_skc=50&rt=nc這個頁面肯定會有下一頁,那么下一頁的網址應該就是://i.html?_pgn=3&_skc=100&rt=nc,這個頁面的下一頁的網址就是//i.html?_pgn=4&_skc=150&rt=nc,依次類推,層層采集,最終會把你要得網址采集完 。那么可能會問起始網址就一個,怎么會采集到那么多的“下一頁”呢,這個可以用分頁的效果來實現,因為你設置好了分頁,火車頭就會自動跳到下一頁去采集,分頁的功能就把一個起始網址擴展出N個起始網址了!
- 傳感器實驗指導書前言怎么寫
- 干粉滅火器怎么看過期 滅火器干粉多久過期
- 量血壓的儀器哪種好 什么牌子量血壓儀器好
- 適配器是啥 適配器是什么用途
- android選擇器怎么寫
- 助理病史采集怎么樣寫
- 器字用顏體怎么寫
- 手指日語怎么寫
- 寬帶路由器怎么設置 華為寬帶路由器怎么設置
- 機器|給心臟充電的脫口秀演員王十七:等了17年的機器心臟,花了80萬!
