資訊熱點(diǎn)

當(dāng)前位置：首頁 > 行業(yè)資訊 > 網(wǎng)站優(yōu)化應(yīng)對(duì)蜘蛛頁面爬行異常

網(wǎng)站優(yōu)化應(yīng)對(duì)蜘蛛頁面爬行異常

發(fā)布時(shí)間：2023-8-25 分類：行業(yè)資訊

包含是指搜索引擎抓取的網(wǎng)頁，然后放入搜索引擎的庫中。當(dāng)人們搜索相關(guān)詞匯時(shí)，他們可以在搜索結(jié)果頁面顯示列表中看到已包含的頁面和頁面信息。我們正在談?wù)摗鞍撁妗?，您可以在搜索結(jié)果頁面上看到相關(guān)頁面。相反，“不包括網(wǎng)頁”更復(fù)雜，因?yàn)樵谒阉鹘Y(jié)果頁面中沒有看到相應(yīng)的頁面，這并不意味著網(wǎng)頁不在搜索引擎的庫中，或者不包括在內(nèi)。有可能這是760條記錄中當(dāng)前搜索詞嚴(yán)重排名的頁面，因此未顯示。

搜索引擎蜘蛛抓取包含網(wǎng)頁，然后將其索引到搜索引擎的索引庫中，并由用戶搜索前端以進(jìn)行此系列處理。對(duì)于想要優(yōu)化其網(wǎng)站的SEO員工或非專業(yè)SEO人員，了解頁面如何包含在搜索引擎中是非常有益的。幫助您進(jìn)入網(wǎng)站的SEO是非常有益的。只要有可能，請(qǐng)遵循包含規(guī)則并增加所包含網(wǎng)站的比例。

當(dāng)搜索引擎抓取網(wǎng)頁時(shí)，它可能會(huì)遇到各種情況，某些網(wǎng)頁被成功抓取，而某些抓取失敗。如何顯示頁面的實(shí)際抓取結(jié)果？主要通過返回代碼來指示抓取的成敗與遇到的問題。例如，我們經(jīng)常打開一個(gè)頁面，頁面是空白的，只顯示404。 404這是一個(gè)返回代碼，這意味著當(dāng)前已爬網(wǎng)的頁面已過期。當(dāng)遇到顯示404的頁面時(shí)，如果搜索是短期的，則蜘蛛將找不到該URL。

有時(shí)，它會(huì)返回503,503代表網(wǎng)站暫時(shí)不可用的返回代碼，可能是網(wǎng)站服務(wù)器關(guān)閉或其他臨時(shí)措施造成的頁面無法訪問，一般來說，蜘蛛會(huì)繼續(xù)抓取幾次。如果網(wǎng)站恢復(fù)正常，則URL仍被視為普通URI。處理時(shí)，如果服務(wù)器始終無法訪問，那么搜索引擎會(huì)從庫中完全刪除這些URL，這就要求我們保持站點(diǎn)的穩(wěn)定性，盡量避免臨時(shí)關(guān)機(jī)。返回碼403是禁止訪問狀態(tài)。一般來說，如503，如果多次訪問后仍處于禁止訪問狀態(tài)，搜索引擎將從庫中刪除。

在返回代碼中，有一個(gè)需要特別注意的類，即301. 301表示永久刪除，并且當(dāng)前URL被永久重定向到另一個(gè)uRL。通常，由于修訂等，一些URL需要永久地用新URL替換，必須使用返回碼301來處理它們，以便可以將權(quán)重結(jié)合在一起以避免網(wǎng)站上的流量丟失。

返回碼301的優(yōu)化寫入如下。

（1）創(chuàng)建一個(gè)htaccess.txt文件。

（2）在htaccess中。在txt中寫入返回碼30l的跳轉(zhuǎn)消息。

假設(shè)舊URL為abc.com，則需要重定向到www.abc.com。您需要在文件中寫入以下信息。

上的RewriteEngine

的RewriteCond％{HTTP_HOST} abc.com [NC]

RewriteRule ^（。*）$http://www.abc.com/$1[L,R=301]

（3）將htaccess.txt上傳到FTP，然后將htaccess.txt修改為.htaccess。

需要提醒的是，當(dāng)前的htaccess僅適用于Linux系統(tǒng)，并且需要虛擬主機(jī)支持，因此，在考慮htaccess文件處理返回碼301時(shí)，需要檢查虛擬主機(jī)是否完全受支持。

實(shí)際上，有多種方法可以處理重定向。簡單來說，重定向可以分為http30x重定向，元刷新重定向和js重定向。此外，谷歌和百度等大型搜索引擎公司已確認(rèn)支持Canonical標(biāo)簽。通過制定權(quán)威頁面，他們可以引導(dǎo)蜘蛛僅索引一個(gè)權(quán)威頁面。實(shí)際上，它也是間接重定向。在實(shí)際爬行過程中，蜘蛛會(huì)識(shí)別各種重定向效果。

有很多方法可以重定向，但從SEO的角度來看，如果它是一個(gè)永久重定向的頁面，請(qǐng)嘗試使用301的返回碼。另外，來自

根據(jù)時(shí)間結(jié)果，百度對(duì)Canonical的支持不如谷歌那么好。采用Canonical可能無法達(dá)到預(yù)期的效果。一些網(wǎng)站通過不同的路徑進(jìn)入相同的路徑

在一個(gè)頁面上，可能有多個(gè)URL。面對(duì)這種情況，可能需要一些處理技能。有關(guān)Canonical的使用，請(qǐng)參閱Canonical上的書。

外部鏈接等因素會(huì)對(duì)搜索排名產(chǎn)生影響。它是否也會(huì)對(duì)抓取過程產(chǎn)生影響？百度對(duì)其爬行策略有優(yōu)先描述，即執(zhí)行包括“深度優(yōu)先遍歷策略，寬度優(yōu)先遍歷策略，PR優(yōu)先策略，反鏈策略，社交共享指導(dǎo)策略等”。同時(shí)，這也表明每種策略都有各自的優(yōu)缺點(diǎn)。在實(shí)際情況中，通常是多種策略的組合以實(shí)現(xiàn)最佳結(jié)果。從這個(gè)官方描述中，我們可以看到PR優(yōu)先策略，反連鎖策略，社交分享等等。我們可以認(rèn)為百度在實(shí)際抓取時(shí)實(shí)際考慮了這些因素，但權(quán)重可能會(huì)有所不同，所以嘗試改進(jìn)網(wǎng)頁P(yáng)R，提高外部鏈的質(zhì)量，實(shí)現(xiàn)高質(zhì)量的社交共享，這對(duì)網(wǎng)站的SEO工作具有積極意義。

另外，對(duì)于在互聯(lián)網(wǎng)上存在大量“盜版”的“收集”，在抓取過程中，蜘蛛會(huì)判斷頁面是否已經(jīng)通過技術(shù)和URI進(jìn)行了爬行。不同但具有相同實(shí)際內(nèi)容的頁面的URL被規(guī)范化，即被視為URL。那就是告訴SEO工作人員不要通過創(chuàng)建大量頁面來獲得更多的搜索資源。如果頁面很多，但每個(gè)頁面的內(nèi)容都是高度重復(fù)的，或者只有uRL包含無效的參數(shù)來實(shí)現(xiàn)多個(gè)頁面，搜索引擎仍會(huì)放置這些URI。作為uRL處理，也就是說，網(wǎng)站頁面的數(shù)量不盡如人意。簡單的方法是將網(wǎng)頁拼湊在一起并部署大量長尾巴。但是，頁面質(zhì)量令人擔(dān)憂，效果會(huì)適得其反。如果搜索引擎將大量此類頁面判斷為低質(zhì)量頁面，則可能會(huì)影響整個(gè)站點(diǎn)的SEO效果。

蜘蛛的爬行過程實(shí)際上是一個(gè)基于鏈接的連續(xù)探索過程。如果鏈節(jié)之間存在短路，則蜘蛛無法向前爬。在真實(shí)的網(wǎng)站操作中，我們可以看到許多網(wǎng)頁實(shí)際上隱藏在網(wǎng)站的后端，并且無法抓取蜘蛛。例如，沒有保留的入口鏈接，或者門戶鏈接已經(jīng)過期等，并且這些無法獲取的內(nèi)容和信息對(duì)于蜘蛛來說是一個(gè)孤立的島嶼。對(duì)于SEO人員，它不是內(nèi)容的排水。同時(shí)，由于網(wǎng)絡(luò)環(huán)境或網(wǎng)站規(guī)范，蜘蛛無法爬行。

如何解決無法抓取信息的問題？幾種可行的方法如下。

·使用數(shù)據(jù)上傳通道，例如搜索引擎平臺(tái)提供的開發(fā)平臺(tái)，可以獨(dú)立提交數(shù)據(jù)。

·使用Sitemap提交方法。具有特殊結(jié)構(gòu)的大型網(wǎng)站或網(wǎng)站具有大量歷史頁面。這些歷史頁面中有許多具有SEO的價(jià)值，但蜘蛛無法通過正常爬行爬行。對(duì)于這些頁面，請(qǐng)構(gòu)建Sitemap文件并將其提交給百度和其他搜索引擎。這是非常必要的。

當(dāng)蜘蛛抓取網(wǎng)站時(shí)，它將遵循網(wǎng)站的協(xié)議進(jìn)行抓取，例如哪些網(wǎng)頁可以被搜索引擎抓取，哪些網(wǎng)頁不允許被搜索引擎抓取。常用協(xié)議包括HTTP協(xié)議，HTTPS協(xié)議和機(jī)器人協(xié)議。

HTTP協(xié)議指定客戶端和服務(wù)器端請(qǐng)求和響應(yīng)的條件?？蛻舳送ǔＪ侵缸罱K用戶，服務(wù)器是指網(wǎng)站。最終用戶通過瀏覽器，蜘蛛等向服務(wù)器指定端口發(fā)送HTTP請(qǐng)求。發(fā)送HTTP請(qǐng)求將返回相應(yīng)的HTTP頭信息，我們可以查看是否包含成功，服務(wù)器類型，網(wǎng)頁的最新更新時(shí)間等。

HTTPS協(xié)議是一種通常傳輸用戶安全數(shù)據(jù)的加密協(xié)議。 HTTPS在HTTP下添加SSL層。這種類型的頁面應(yīng)用程序是與支付相關(guān)或內(nèi)部機(jī)密信息相關(guān)的更多網(wǎng)頁。蜘蛛不會(huì)自動(dòng)抓取此類網(wǎng)頁。因此，從SEO的角度來看，在構(gòu)建站點(diǎn)時(shí)，嘗試區(qū)分頁面的性質(zhì)，并在非安全頁面上執(zhí)行HTTP處理，以實(shí)現(xiàn)網(wǎng)頁的爬行和包含。

本文由領(lǐng)先網(wǎng)絡(luò)菏澤網(wǎng)站建設(shè)公司負(fù)責(zé)人:https://www.lingchuangweb.com/原文，版權(quán)，請(qǐng)注明出處，并保留此鏈接，謝謝！

« 如何在設(shè)計(jì)中應(yīng)用雙鉆設(shè)計(jì)模型 | Piggy Wisdom Store第三方會(huì)員導(dǎo)入功能升級(jí)，數(shù)據(jù)對(duì)接更靈活 »

: 周一周五 8:30 - 18:00

魯ICP備14007395號(hào)-30

百度統(tǒng)計(jì)

客服QQ

国产麻豆精品精东影业AV网站,,,