網(wǎng)站除了301重定向用來集中網(wǎng)站權(quán)重外,還有robots文件也是用來集中網(wǎng)站權(quán)重,通過站內(nèi)robots文件優(yōu)化,可以限制蜘蛛抓取,將一些對網(wǎng)站沒什么用的文件進(jìn)行屏蔽,讓蜘蛛更方便的抓取網(wǎng)站內(nèi)容,有利于我們提升網(wǎng)站排名。
1、什么叫robots文件
Robots文件是網(wǎng)站跟搜索引擎爬蟲程序(百度蜘蛛、谷歌機(jī)器人)一個(gè)溝通協(xié)議,通過這個(gè)協(xié)議可以告訴爬蟲程序,網(wǎng)站哪些內(nèi)容是允許抓取的,哪些內(nèi)容不允許抓取的。
robots文件全名叫robots.txt,這個(gè)文件名要小寫,這個(gè)文件必須放在網(wǎng)站的根目錄,文件名不能自己隨便命名。
注意:并不是所有的網(wǎng)站都有這個(gè)文件,但是我們在優(yōu)化網(wǎng)站的時(shí)候需要給網(wǎng)站做一個(gè)robots文件。織夢有自帶的robots文件,對于優(yōu)化的需求是不能滿足,所以就需要自己重新來優(yōu)化這個(gè)文件。
2、robots文件的書寫格式
User-agent: *
User-agent: 蜘蛛名稱
* 是一個(gè)通配符,代表的是所有蜘蛛的名稱。
Disallow:后面跟的禁止抓取的網(wǎng)址路徑
User-agent: *
Disallow: /plus/ad_js.php
如果想限制某個(gè)搜索引擎爬蟲程序抓取,那么就需要把*換成具體的爬蟲程序名稱就可以。
蜘蛛名稱:
?谷歌:googlebot
?百度:baiduspider
?MSN:MSNbot
?雅虎:Slurp
?有道:YoudaoBot
?搜搜:Sosospider
?搜狗:sogou spider
?360:360Spider (haosouSpider)
例如禁止百度蜘蛛抓取ad_js.php:
User-agent: baiduspider
Disallow: /plus/ad_js.php
禁止谷歌蜘蛛抓取ad_js.php:
User-agent: googlebot
Disallow: /plus/ad_js.php
Allow:允許抓取的文件目錄路徑
User-agent: baiduspider
Disallow: /plus/ad_js.php
Allow: /member/2.php
(Allow代表允許)
你在robots文件里面即使不寫允許記錄,只要沒禁止,那么也是可以被抓取的。
3、關(guān)于robots文件一些特殊的寫法
Disallow: /a/*.htm
禁止抓取a目錄里面所有以.htm結(jié)尾的文件。
Disallow: /a/2.html
禁止抓取a目錄里面所有以2.html文件。
Disallow: /a/3.htm
禁止抓取a目錄里面所有以3.htm文件。
Disallow: /*?* 禁止抓取網(wǎng)站里面所有帶有?的網(wǎng)址鏈接。
不建議直接寫在robots里面。
Disallow: /.jpg$ 禁止抓取網(wǎng)站所有以.jpg文件。
注意,分析一個(gè)哪些文件需要屏蔽不讓抓取,對于排名本身沒有作用的文件,比如Css文件、js文件,網(wǎng)站安全隱私的文件也可以屏蔽。
織夢站點(diǎn),哪些文件是可以屏蔽的:
1、后臺文件 dede
2、安裝文件 install (可以刪除)
3、會(huì)員文件 member
4、程序核心文件 include
5、數(shù)據(jù)庫文件 data
6、模板文件 templets
7、織夢插件文件 plus
8、上傳下載的文件 uploads
9、圖片文件 images (如果不希望被收錄屏蔽,如果希望收錄圖片那就不要屏蔽)
10、404頁面文件
11、Css文件和js文件
a文件可以屏蔽也可以刪掉,m這個(gè)文件是移動(dòng)站的模板放在這個(gè)里面的,目前不建議屏蔽。special,這個(gè)是專題頁面文件保存的目錄,以后我們重點(diǎn)利用專題頁面來做排名的,不能屏蔽,剩下的基本都是你的網(wǎng)站的目錄名稱文件,這些文件不要屏蔽。
建議我們在這個(gè)robots文件里面添加一條允許記錄,把站點(diǎn)地圖的鏈接允許寫入到robots文件里面。那是可以起到一個(gè)強(qiáng)調(diào)的作用,讓蜘蛛優(yōu)先抓取站點(diǎn)地圖文件。就是因?yàn)檎军c(diǎn)地圖上面包含了我們網(wǎng)站更新的內(nèi)容以及欄目的鏈接。
Sitemap: /sitemap.html
Allow: /sitemap.html
Sitemap: /sitemap.xml
Allow: /sitemap.xml
Sitemap: /sitemap.txt
Allow: /sitemap.txt
注意:書寫robots文件一定要結(jié)合具體的網(wǎng)站文件具體來書寫,不能完全復(fù)制。
如果企業(yè)網(wǎng)站不清楚的目錄文件都是干嘛的,大家問下建站人員,給寫一份目錄文件說明,Robots文件寫好以后一般蜘蛛需要一到兩周才會(huì)根據(jù)這個(gè)文件指定的鏈接來抓取。
如果你要檢測別人網(wǎng)站有沒有做這個(gè)robots文件,直接在瀏覽器輸入別人的域名后面加上robots.txt文件名即可查詢。
站內(nèi)的導(dǎo)出鏈接,導(dǎo)出鏈接會(huì)分散頁面權(quán)重的,這種導(dǎo)出鏈接就不能使用robots文件屏蔽,我們應(yīng)該使用nofollow來屏蔽,給鏈接加上nofollow,蜘蛛就不會(huì)跟蹤這條鏈接。就不會(huì)把這個(gè)鏈接判斷為導(dǎo)出鏈接。
<a href=http://www.baidu.com rel=nofollow>百度</a>
Meta robos標(biāo)簽來屏蔽蜘蛛抓取頁面,這種方法不常用,了解就可以,寫法如下:
寫在網(wǎng)頁頭部部分(head里面)
(1)<meta name="robots" content="index,follow" />
所有的蜘蛛可以抓取本頁面,而且可以抓取本頁面的其他鏈接也是可以被抓取的。
(2)<meta name="robots" content="index,nofollow" />
只能抓取當(dāng)前本頁面,這個(gè)頁面的其他鏈接是不允許跟蹤的。
(3)<meta name="robots" content="noindex,follow" />
禁止抓取當(dāng)前頁面,但是當(dāng)前頁面的其他鏈接是可以被抓取的。
總結(jié):如果你想屏蔽某個(gè)頁面的鏈接建議推薦使用robots.txt 以及采用鏈接的nofollow屬性
<a href=http:// www.******.com/caijing/ rel=nofollow>財(cái)經(jīng)</a>
如果你網(wǎng)站某些不是特別重要的欄目,不用做排名的欄目,只是用來展示的欄目,那么可以使用nofollow(例如:關(guān)于我們、聯(lián)系我們)
網(wǎng)站seo怎么優(yōu)化?好做嗎?對于這個(gè)問題,每個(gè)人都有自己的回答,但是萬變不離其中,基本上答案都相差不大,想要做好網(wǎng)站seo,我們就需要有自己的優(yōu)化思路和策略,這樣你的優(yōu)化...
閱讀: 168
很多人都說,網(wǎng)站內(nèi)鏈很重要,可以提升網(wǎng)站的收錄量,可以提升網(wǎng)站權(quán)重,可以起到站內(nèi)相互投票的作用。但是好處雖然多,很多人卻不知道網(wǎng)站內(nèi)鏈如何做優(yōu)化?不知道怎么做?今...
閱讀: 199
很多公司網(wǎng)站搭建好之后,不知道怎么做網(wǎng)站seo優(yōu)化,網(wǎng)站排名一直上不去,今天小編就為大家分享一下網(wǎng)站seo優(yōu)化技巧和步驟,希望對大家有所幫助。...
閱讀: 184
很多人對于網(wǎng)站文章內(nèi)容中的錨文本的作用不是很了解,覺得好像不做錨文本排名也能上去。今天就為大家介紹一下網(wǎng)站錨文本的作用是什么?...
閱讀: 162
很多站長在做網(wǎng)站優(yōu)化的過程中,經(jīng)常會(huì)發(fā)現(xiàn)百度快照的時(shí)間會(huì)出現(xiàn)倒退的情況,明明昨天還是前幾天的快照時(shí)間,今天一看卻是上個(gè)月的快照時(shí)間,很多站長不解,不知道是什么情況...
閱讀: 71