<optgroup id="1tq5s"></optgroup>
    1. <ol id="1tq5s"><blockquote id="1tq5s"></blockquote></ol>
    2. <track id="1tq5s"></track>
      <legend id="1tq5s"><li id="1tq5s"></li></legend>

        <ruby id="1tq5s"><li id="1tq5s"></li></ruby>
          發布時間:2021-02-20    所屬分類:SEO工具   瀏覽:3686

          火車頭采集器使用教程(基礎版本)


          1、火車頭介紹

          2、什么是信息采集
          3、什么是火車頭

          4、火車頭是干啥的
          5、火車頭規則定制
          6、規則編寫流程
          7、采網址詳解
          8、采內容詳解
          9、注意事項


          什么是火車頭?


          火車頭采集器使用教程(基礎版本)  第1張



          我們打開一個網站,看到有一篇文章很不錯,于是我們就將文章的標題和內容復制了一下,將這篇文章轉到我們的網站上.我們的這個過程,就可以稱作一個采集,將別人網站上對自己有用的信息轉到自己網站上;互聯網上的內容,大多數都是通過復制-修改-黏貼的過程產生的,所以信息采集很重要,也很普遍,我們平臺發到網站上的文章,多數也是這樣的一個過程;為什么很多人感覺新聞更新很麻煩,因為這個工作是重復的,枯燥乏味的,浪費時間的;



          火車頭是目前國內使用人數最多、功能最完善、網站程序支持最全面、數據庫支持最豐富的軟件產品;現在是大數據時代,它可以快速、批量、海量的獲取到互聯網上的數據,并按照我們需要的格式存儲起來;說的簡單一點,對我們來說有什么用?我們需要更新新聞,需要發商機,如果讓你準備1000篇文章,你要用多久?5個小時?在有規則的情況下,火車頭只需要5分鐘!前提是有規則,所以我們要先學寫規則,寫規則如果數量的話,一個規則幾分鐘就好了,但剛開始學的時候會比較慢;



          名稱解釋與規則編寫流程


          n以火車頭8.6版本為準  第1步:打開—登錄  第2步:新建分組

          火車頭采集器使用教程(基礎版本)  第2張


          第3步:右擊分組,新建任務,填寫任務名;

          火車頭采集器使用教程(基礎版本)  第3張


          第4步:寫采集網址規則(起始網址和多級網址獲?。?


          火車頭采集器使用教程(基礎版本)  第4張


          第5步:寫采集內容規則(如標題、內容)


          火車頭采集器使用教程(基礎版本)  第5張


          第6步:發布內容設置


          勾選啟用方式二


          (1)保存格式:一條記錄保存為一個txt;
          (2)保存位置自定義;
          (3)文件模板不用動;
          (4)文件名格式:點右邊的倒立筆型選[標簽:標題];
          (5)文件編碼可以先選utf-8,如果測試時數據正常,但保存下來的數據有亂碼則選gb2312;


          火車頭采集器使用教程(基礎版本)  第6張


          第7步:采集設置,都選100;


           a.單任務采集內容線程個數:同時可以采集幾個網址;
           b.采集內容間隔時間毫秒數:兩個任務的間隔時間;
           c.單任務發布內容線程個數:一次保存多少條數據;
           d.發布內容間隔時間毫秒數:兩次保存數據的時間間隔;


          火車頭采集器使用教程(基礎版本)  第7張


          附注:如果網站有防屏蔽采集機制(如數據很多但只能采集一部分下來,或提示多久才能打開一次頁面),則適當調小a值和調大b的值;


          第8步:保存、勾選并開始任務(如果是同一分組的,可以在分組上批量選中)

          火車頭采集器使用教程(基礎版本)  第8張



          以前的方式:比如我要準備n篇文章,要先找到這個文章是在哪個網站上的(如是采集同行A還是同行B),是在其哪個欄目下的(如是產品信息還是新聞信息),在這個欄目下有n條信息,我要選哪一條,然后進去后把標題復制下來,把內容復制下來再進到另一個頁面把標題內容復制下來,以此類推,然后同樣的流程我要執行n遍;


          怎么轉換:怎么把這個流程轉化為軟件操作呢?我要準備n篇新聞,這就表明要n個標題+對應的內容,要n個新聞鏈接,這n個新聞鏈接是從一個網站的新聞欄目上找的,而這個網站的新聞欄目有可能是很多頁,比如10頁,這個時候再從同行A的網站—欄目—內頁;即先找到要采集的網站,打開這個網站的欄目頁(確定好是采集新聞還是產品),寫網址規則采集欄目下的所有新聞鏈接,然后寫內容規則采集所有新聞鏈接中的標題和內容,最后保存下來;



          采網址詳解-具體操作




          找到要采集網址的欄目頁,如新聞欄目
          復制欄目的第一頁鏈接url,起始網址右側中點添加,在單條網址中黏貼欄目的第一頁鏈接后點添加,如
          用右邊的(*)代替,因為第1頁已經添加了,還剩9頁,這時在等差數列那一行把項數改成9,首項是2(因為第2頁的鏈接是,然后點添加-完成;


          火車頭采集器使用教程(基礎版本)  第9張


          1、點對應右側的添加,然后如下圖所示是示例,右側大圖是說明;


          火車頭采集器使用教程(基礎版本)  第10張


          2、點擊保存后點右下角的
          看看是否能采集到新聞網址,
          如果能采集到則正確,雙擊一個新聞網址進到下一步;如果采集到的不正確,返回修改直到成功;網址過濾可以自己觀察其對應的規律;

          火車頭采集器使用教程(基礎版本)  第11張


          1、到采集內容規則這里后,把作者、時間、出處都選中后刪掉,如右面第一張圖,因為這些標簽正常情況下都用不到;
          2、選中標題標簽點修改,或直接雙擊該標簽,進入編輯界面;


          火車頭采集器使用教程(基礎版本)  第12張


          3、進入后標簽名的“標題”別改,改過后是要改對應的模板的;
          4、下面的數據提取方式:前后截取和開始結束字符串,也盡量用默認的,在不熟練的情況下不要改;
          5、點擊下面數據處理的添加—內容替換,如右圖;
          6、內容替換將標題后面的都替換為空,如果不替換的話采集的是頁面title,這時需要打開兩個新聞頁面,看看這兩個新聞頁面的公共部分是什么,把公共部分替換掉



          例:如下面兩個標題,“ - 常州姜東博客”是公共部分,即把其替換為“空”;


          【圖文】你知道螺旋加料機的加工方法嗎 螺旋加料機原理你了解嗎
          【圖文】氣動式加料機的優點是什么 你知道粉末加料機工作原理嗎

          火車頭采集器使用教程(基礎版本)  第13張


          例:如下面的則需要把“-健康網”替換成“空”;
          例:如下面的則需要把“-健康網”替換成“空”;
          我喜歡吃西瓜-健康網
          蘋果好吃嗎?-健康網



          1、選中內容點編輯,或直接雙擊進入到內容標簽編輯界面,標簽名千萬別改;
          2、寫開始和結束字符串,就是找能把所有新聞都包裹起來的,在所有新在所有新聞頁面中都是聞頁面中都有的,且是唯一的一段字符串;即這個頁面模板中的唯一代碼串;


          火車頭采集器使用教程(基礎版本)  第14張


          舉例:采集內容的時候,需要選擇內容區域,因為要采集的可能是n篇,如100篇,這個時候就需要想法怎么能寫一個采集到全部的,方法就是打開兩個新聞鏈接如,查看第一篇新聞的源文件,找到新聞正文,然后向上找離新聞第一句話最近的,在這個頁面中是唯一的一段代碼(如果不唯一,軟件能知道從第幾個開始嗎?),但又不是新聞中的內容,如<div id=“zoom”>,復制后在第二篇新聞頁面源文件中搜一下看看有沒有,如果有,則可采用;同理找到新聞最后一句話,向下找離其最近的頁面中唯一的一段代碼,復制后在第二篇新聞頁面源文件中搜一下看看有沒有,如果有,則可采用;


          數據處理:因為采集的是其他網站的信息,里面有可能有其他網站的資料,如公司名、聯系方式、品牌等信息,也可能有其他網站的超鏈接等信息,這個時候就需要對信息進行過濾處理;數據處理—添加—下面對應的參數HTML標簽過濾:滾動軸橫向拉到最后,在所有標簽前面打鉤后點確定;內容替換:


          將這個網站的信息替換成自己的,原則是先整后拆,有公司名、電話號(拆分)、手機號(拆分)、郵箱、公司地址(拆分)、品牌名、網址(拆分);其中拆分的意思是對這個數據進行拆解替換,這個時候就需要做如下替換:因為在新聞中,,這是時候就需要對其拆解替換才能替換干凈,可以多看一下他的新聞中,可能會用什么樣的格式;


          注:數據處理還有很多技巧,需要自己在使用的過程中琢磨,更是采集的核心,如果處理不好,有可能是為他人做嫁衣,所以一定要仔細觀察,考慮全面,如果處理好了,采集下來的文章甚至可以直接就發布(非自己企業站)



          注意事項()
          1、右擊分組:會出現如下圖菜單,正常都能用到;


          新建任務:在此分組上新建任務;
          運行該分組下所有任務:顧名思義;
          新建任務:在該分組下再建分組;
          編輯/刪除分組:編輯/刪除當前分組;
          導入/導出分組規則:可以導出當前分組下的所有任務,并導入到同版本火車頭上;
          導入任務至該分組:將導出的單個任務導入到該分組下面;
          黏貼任務到該分組下:要復制過任務后此項才出現,可以黏貼多個同樣的任務,然后再黏貼后的任務上進行編輯即可;


          火車頭采集器使用教程(基礎版本)  第15張



          開始任務:和菜單欄上的開始一樣;
          編輯任務:編輯已經寫好的任務;
          導出任務:可以將當前規則導出,在其他同版本工具上導入,但導入數據時需重復上面的第6步-發布內容設置,必須要重新選/填一遍;
          復制任務到黏貼板:復制后,選擇一個任務分組并右擊,可以黏貼不同數量的任務到那個分組中,這樣就避免同一個任務多次編寫了;
          清空任務所有采集數據:新如果之前采集過任務想重新采集的,則需求先清空;


          火車頭采集器使用教程(基礎版本)  第16張

          3、其他設置:頂部菜單欄中點擊工具—選項,配置全局選項和默認選項;
          全局選項:可以調整下同時運行任務最大個數,正常是5即可,可不調;
          默認選項:是否忽略大小寫點是;


          火車頭采集器使用教程(基礎版本)  第17張


          END 



          打賞 支付寶打賞 微信打賞

          上一篇:常州姜東:淺談消費主義與現在的過節

          下一篇:盤點一下百度自身“圈流”產品-百度生態產品



          除非注明,本站所有文章皆為本人原創,可隨意轉載但請保留鏈接或名字,謝謝!



          相關標簽: 火車.火車頭甘肅做網站贛縣做網站贛州做網站高安做網站高碑店做網站高平做網站高要做網站

          • 評論列表:

          發表評論:

          • 最新文章

          • 熱門文章

          • 隨機文章

          SEO姜東
            SEO姜東微信二維碼

            常州SEO姜東


            從事互聯網行業多年,希望分享各類互聯網、SEO理念、跨境電商,掃碼與我交流SEO


          與我詳談SEO

          常州SEO木木qq


          常州SEO木木qq

          特別推薦
          加我的微信:SEO-jiangd詳談網絡營銷
          老师好深好爽我要视频

            <optgroup id="1tq5s"></optgroup>
          1. <ol id="1tq5s"><blockquote id="1tq5s"></blockquote></ol>
          2. <track id="1tq5s"></track>
            <legend id="1tq5s"><li id="1tq5s"></li></legend>

              <ruby id="1tq5s"><li id="1tq5s"></li></ruby>