以織夢(mèng)官方站為例,我們采集站長(zhǎng)學(xué)院下的PHP教程欄目,打開(kāi)列表地址http://www.dedecms.com/web-art/PHP_jiaocheng。 登錄后臺(tái),進(jìn)入“采集節(jié)點(diǎn)管理”,新建一個(gè)節(jié)點(diǎn),選擇內(nèi)容模型為“普通文章”。
1.設(shè)置節(jié)點(diǎn)基本信息
先填寫(xiě)一個(gè)方便記憶的節(jié)點(diǎn)名稱,選擇目標(biāo)頁(yè)面編碼為GB2312,防盜鏈模式不做設(shè)置,因目標(biāo)站沒(méi)做限制,這一項(xiàng)就不做修改,系統(tǒng)默認(rèn)超時(shí)時(shí)間10秒。
2.設(shè)置列表網(wǎng)址獲取規(guī)則
這一步我們要做些設(shè)置,獲取文章列表地址,回到目標(biāo)站列表頁(yè),觀察分頁(yè)間的變化,可以發(fā)現(xiàn)只有“14_”后的數(shù)字有規(guī)律的遞增變化。
首頁(yè):http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_1.html
中間:http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_(*).html
末頁(yè):http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_172.html
復(fù)制一個(gè)分頁(yè)地址,回到“新增采集節(jié)點(diǎn)”頁(yè)面,選擇“來(lái)源屬性”為“批量生成列表網(wǎng)址”,把粘貼地址到“匹配網(wǎng)址”中,修改規(guī)律變化處為(*),“批量生成地址設(shè)置”處(*)輸入1到172,這里的意思是生成出列表第一頁(yè)到最后172頁(yè)的所有地址。
測(cè)試一下,在彈出框中我們可以看到循環(huán)出172條地址記錄,很順利的就設(shè)置好了。有時(shí)候會(huì)碰到較難獲取的列表,那我們可以把把沒(méi)規(guī)律的地址復(fù)制到”手工指定列表網(wǎng)址“文本框中來(lái)采集。
3.設(shè)置文章網(wǎng)址匹配規(guī)則
上面指定好了文章地址來(lái)源頁(yè),這一步就需要在這些頁(yè)面中找出符合要求的文章地址頁(yè)了。打開(kāi)一個(gè)列表頁(yè)面觀察,左欄的方框中包含了我們需要的全部地址,這種情況區(qū)分明顯的頁(yè)面,可以利“區(qū)域開(kāi)始的HTML”和“區(qū)域結(jié)束的HTMLL”設(shè)置進(jìn)行過(guò)濾。
不過(guò)也可以使用其他方法。把鼠標(biāo)移到各處鏈接地址,觀察瀏覽器左下角顯示的完整地址,我們需要的地址都包含“PHP_jiaocheng/20”,那我們把它填寫(xiě)到“必須包含”中。
兩種方法都能夠過(guò)濾出地址,碰上復(fù)雜頁(yè)面,可以配合起來(lái)使用,加上正則,幾乎沒(méi)有篩選不出的地址,附(圖5.1)對(duì)照。最后確定,進(jìn)入下一步“網(wǎng)頁(yè)內(nèi)容獲取規(guī)則”。