火車頭采集器多頁規則怎么寫( 二 )

2026-03-25 生活百科采集器

按照上一步的方法先填寫內容頁所在區域的起始和結束標志性代碼，然后分析這個區域中包含的鏈接與我們說需要的內容頁地址鏈接規律，添加過濾代碼。這里起始代碼為“<！--顯示-->”，結束代碼為“page" style="float:right">”過濾代碼為必須包含“read-”不得包含“#” 。
如圖：需要注意的是這里文章比較多會有很多分頁，所以需要填寫“列表分頁獲取”規則。通常只需要指定分頁代碼的區域，如有必要可以填寫“組合生成列表頁分頁”規則。
這里的列表分頁規則其實代碼為“

”，結束代碼為“title="下一頁">” 。如果勾選“自動識別分頁”的話，會自動提取a標簽的href屬性，如果不勾選自動識別的話，需要填寫組合生成列表頁分頁”規則。
然后保存返回，可以通過“測試網址采集”來測試規則是否正確，不正確可以返回修改規則，正確的話可以開始編寫“第二步采集內容規則” 。編寫“第二步采集內容規則” 先打開內容頁以及內容頁的源碼，找到需要提取的信息的前后代碼特征。
以提取標題和內容為例。首先復制文章標題，然后在源碼中查看該標題出現的幾處地方，找一處前后代碼在每一篇文章都一樣的地方，該例共出現了3處，第二處的代碼沒有其他干擾代碼。
點擊“添加”，標簽名填“標題”，提取數據方式選擇前后截取，前后代碼分別為“”和“” 。如果采集的內容需要作進一步處理（如替換刪除編碼轉換過濾html等），在下方“數據處理”點擊添加填寫相應規則。
再添加一個標簽，標簽名為“內容”，按照上述方法填寫內容的前后代碼片段，需要注意的是，前后代碼片段最好不要出現不完整的標簽（如：“”，一個完整的標簽應該是以“<”開始，以“>”結束，如果<>之間的內容在各個內容頁有一部分不一樣，將不一樣的部分用（*）代替即可），否則提取的內容會包含部分不完整的標簽。通常正文包含的HTML會比較多，可以添加HTML過濾功能，建議僅保留段落（p）、圖片（img）、換行（br）等標簽。
測試內容采集規則保存規則后返回采集內容規則頁面，在右側“規則測試”的典型頁面文本框填上一個內容頁的地址，然后點擊測試，如果下面顯示到的內容符合預期說明可以了，如果未獲取到內容或者獲取到內容不正確，返回檢查并修改規則。開始采集選擇要采集的任務規則，勾選“采網址”和“采內容”復選框，點擊工具欄“開始”按鈕。
后續工作采集到的數據保存在數據庫，可以通過在任務名上點右鍵，選擇“打開DATA下任務文件夾”打開數據庫所在位置，該數據庫可以通過ACCESS打開和編輯。如果想要重新采集，需要通過右鍵選擇“清空該任務網址庫”和“清空任務所有采集數據” 。
3.火車頭采集規則,如果在列表頁里面有多個參數,應該如何設置開始試了下，火車頭確實不行，因為它起始網址的參數就一個*，沒法對兩個動態的數據描述。
那不妨換個角度來思考，為什么不把這些網址變成1級網址讓火車頭以采集的方式把它采集出來呢。比如//i.html?_pgn=2&_skc=50&rt=nc把這個設置為起始網址（0級網址），那么你在設置采集網址的1級網址。而//i.html?_pgn=2&_skc=50&rt=nc這個頁面肯定會有下一頁，那么下一頁的網址應該就是：//i.html?_pgn=3&_skc=100&rt=nc，這個頁面的下一頁的網址就是//i.html?_pgn=4&_skc=150&rt=nc，依次類推，層層采集，最終會把你要得網址采集完。那么可能會問起始網址就一個，怎么會采集到那么多的“下一頁”呢，這個可以用分頁的效果來實現，因為你設置好了分頁，火車頭就會自動跳到下一頁去采集，分頁的功能就把一個起始網址擴展出N個起始網址了！

上一篇：塞文的英文怎么寫

下一篇：鄭州萬方科技學院快遞地址怎么寫