火車采集器電腦版應用擴展圖文教學
時間:2021-08-18 17:47:37 作者:無名 瀏覽量:55
火車采集器是一款通用型的
采集器,可以滿足大部分數據抓取的需要,火車采集器可以同時運行多個任務,采集不同的
網站或同一站點下的不同的欄目。您可以在任務列表樹里同時選中運行多個任務或是設置自動運行,有計劃的調度多個任務。同一站點下建議一次運行一到兩個任務,以防止網址
數據庫操作頻繁而鎖死。
火車采集器電腦版應用擴展圖文教學圖1
如上圖的。用戶如果需要在列表當中添加字段,archives 和addonarticle.這個用戶注意的是列表當中數據表擁有前綴,通常這就是用來插入ID記錄的。這個數據表前輟是可以使用多個的,應注意的是那個表里應有個自增字段。其它的update,delete等語句也是可以使用的(比如 delete * from table aaa)。入庫方式適合一般數據格式而不是很復雜的數據庫操作。如果是多表操作且表間關系復雜最好用web發布方式.
火車采集器電腦版應用擴展圖文教學圖2
另外的一些SQL函數也是支持的,比如替換標題內容,可以這樣使用:
UPDATE table set 字段名=REPLACE(字段名,'原字符串','替換的字符串') where 判斷語句
入庫只是執行用戶的簡單的SQL語句,所以請在入庫前進行測試,保存語句的正確.測試工作為入庫配置管理器(程序為LocoyDatabase.exe).
火車采集器電腦版應用擴展圖文教學圖3
外部編程插件的開發
使用外部編程插件,可以對你的數據做任意你想要的處理。處理過程是采集器先獲取網頁內容,然后將網頁內容,網頁地址等數據傳遞給插件,插件可以針對傳送過來的數據做處理,然后返回一定格式的數據給采集器.目前火車采集器里有四個位置可以使用插件.
1.采網址:是采集器對網址列表里的網址請求完數據未分析源碼前給插件使用.
2.采內容:采集默認頁后返回源代碼給插件處理.
3.采多頁:在多頁采集時每個頁面都將使用.
4.保存時:在采集器處理完數據,保存數據到數據庫之前,在網頁內容符合排除條件之前處理.
具體的插件開發請配合插件管理器進行開發.
具體插件的開發,請點擊插件管理器里的新建按鈕,即可以查看到相應的開發文件和開發示例.
第一個,如果標題小于一定字節,就用其它的字符替換掉標題。
- 軟件性質:國產軟件
- 授權方式:免費版
- 軟件語言:簡體中文
- 軟件大小:23789 KB
- 下載次數:4948 次
- 更新時間:2021/8/18 13:06:51
- 運行平臺:WinAll...
- 軟件描述:火車采集器是使用人數比較多的互聯網數據挖掘軟件。能采集99%的網頁,就算網頁需要... [立即下載]
相關資訊
相關軟件