Crawl Budget یا بودجه خزش سایت چیست؟ همه آنچه باید بدانید

در دنیای بهینه‌سازی برای موتورهای جستجو، تنها تولید محتوا کافی نیست؛ بلکه باید مطمئن شد که ربات‌های گوگل توان دسترسی به صفحات مهم سایت را دارند. در این مسیر، مفهومی به‌نام “بودجه خزش سایت” نقش کلیدی ایفا می‌کند. اگر مدیریت Crawl Budget به درستی انجام نشود، حتی بهترین صفحات سایت هم ممکن است هرگز دیده نشوند.

Crawl Budget یا بودجه خزش چیست؟

بودجه خزش سایت، تعداد صفحاتی است که موتورهای جستجو طی بازه زمانی مشخصی در یک وب‌ سایت خزیده و بررسی می‌ کنند. موتورهای جستجو (crawl budget) را بر اساس دو عامل محدودیت خزش (چند وقت یک‌ بار می‌ توانند بدون ایجاد مشکل crawl انجام دهند) و تقاضای خزش (چند وقت یک‌ بار تمایل دارند یک سایت را بررسی کنند) محاسبه می‌ نمایند.

اگر بودجه خزش را هدر دهید، موتورهای جستجو نمی‌ توانند وب‌ سایت را به طور مؤثر بررسی کنند که می‌ تواند بر عملکرد سئوی شما تأثیر منفی بگذارد.

بودجه خزش سایت چیست؟

تصویر(۱)

چرا موتورهای جستجو برای وب‌ سایت‌ ها بودجه خزش تعیین می‌ کنند؟

دلیل اینکه موتورهای جستجو برای وب‌ سایت‌ ها بودجه خزش تعیین می‌کنند این است که منابع محدودی دارند و باید توجه خود را بین میلیون‌ ها وب‌ سایت تقسیم نمایند. بنابراین، نیاز به روشی برای اولویت‌ بندی خزش خود دارند. اختصاص بودجه خزش برای هر وب‌ سایت، به آنها در این فرآیند کمک می‌ کند.

چگونه موتورهای جستجو بودجه خزش سایت را تعیین می‌ کنند؟

این امر بر اساس دو عامل انجام می‌ شود:

  • محدودیت خزش / لود سرور میزبان: یک وب‌سایت تا چه اندازه می‌ تواند خزیده شود و ترجیحا ملاک آن چیست؟
  • تقاضای خزش / زمان‌بندی خزش: کدام URL ها بر اساس میزان محبوبیت و دفعات بروزرسانی آنها ارزش خزش بیشتری دارند.

بودجه خزش یک اصطلاح رایج در سئو است و گاهی با عنوان crawl space (فضای خزش) یا crawl time (زمان خزش) نیز شناخته می‌ شود.

آیا Crawl Budget فقط مربوط به صفحات است؟

در واقع پاسخ “خیر” است. برای سادگی بحث، صفحات خطاب قرار می گیرند اما در حقیقت این مفهوم شامل هر فایلی است که موتورهای جستجو آن را بررسی می‌ کنند. برای مثال برخی از آنها شامل موارد زیر می شوند:

  • فایل‌ های JavaScript و CSS
  • نسخه‌ های موبایلی صفحات سایت
  • نسخه‌ های hreflang سایت
  • فایل‌ های PDF

محدودیت خزش در عمل چگونه کار می‌ کند؟

محدودیت خزش یک بخش مهم از crawl budget است. خزنده‌ های موتورهای جستجو به گونه‌ ای طراحی شده‌ اند که از فشار زیاد روی وب سرور جلوگیری کنند. آنها این کار را با دقت انجام می‌دهند. عوامل مختلفی بر محدودیت خزش تأثیر می‌ گذارند که برخی عبارتند از:

  • نشانه‌ هایی از مشکلات در پلتفرم: هر چند وقت یک‌ بار URL های درخواست شده منقضی می‌ شوند یا خطای سرور رخ می دهد.
  • تعداد وب‌ سایت‌هایی که روی یک میزبان اجرا می‌ شوند: اگر وب‌ سایت شما روی هاست اشتراکی و سروری که در آن صدها سایت دیگر اجرا می شوند، قرار دارد و وب‌ سایت بزرگی دارید، محدودیت خزش شما کم خواهد بود زیرا در سطح هاست تعیین می‌ شود. بنابراین باید آن را با سایر سایت‌ های موجود در همان سرور به اشتراک بگذارید. در این صورت، انتقال به یک سرور اختصاصی گزینه بهتری خواهد بود که در عین حال، زمان لود سایت برای بازدیدکنندگان را نیز کاهش می‌ دهد.
  • وب‌سایت‌ های جداگانه موبایل و دسکتاپ روی یک هاست: اگر سایت‌ های موبایل و دسکتاپ شما روی یک سرور اجرا شوند، محدودیت خزش آنها مشترک خواهد بود و لازم است این مورد را نیز در نظر داشته باشید.

تقاضای خزش در عمل چگونه کار می‌کند؟

تقاضای خزش، ارزش خزیدن مجدد URL ها را تعیین می کند. عوامل متعددی بر تقاضای خزیدن تأثیر می‌ گذارند که شامل موارد زیر می‌ شوند:

  • محبوبیت: تعداد لینک‌ های داخلی ورودی و خروجی یک URL و تعداد جستجوهایی که صفحه برای آنها رتبه کسب کرده است.
  • تازگی: هر چند وقت یک‌ بار URL بروزرسانی می‌ شود.
  • نوع صفحه: آیا بر اساس نوع صفحه، احتمال تغییر وجود دارد؟ به عنوان مثال، صفحه دسته‌بندی محصولات و صفحه شرایط و ضوابط را در نظر بگیرید. به نظر شما کدام یک بیشتر تغییر می‌ کنند و نیاز به خزش مکرر دارند؟

ظرفیت خزش موتورهای جستجو را فراموش نکنید

در حالی که سیستم‌ های خزش موتورهای جستجو منابع عظیمی دارند اما نهایتا ظرفیت آنها محدود است. بنابراین، در سناریویی که ۸۰٪ مراکز داده گوگل به طور همزمان از کار بیفتند، ظرفیت خزش آنها به شدت کاهش می‌ یابد و در نتیجه، بودجه خزش سایت‌ ها نیز کاهش پیدا می‌ کند.

دلایل اهمیت بودجه خزش سایت

دلایل اهمیت بودجه خزش سایت

تصویر(۲)

مطمئنا تمایل دارید موتورهای جستجو تا حد امکان صفحات قابل ایندکس سایت را پیدا کرده و درک کنند و این کار را در سریع‌ترین زمان ممکن انجام دهند. هرچه این صفحات زودتر ایندکس شوند، زودتر می‌توانید از آنها بهره ببرید.

اگر بودجه خزش سایت را هدر دهید، موتورهای جستجو نمی‌توانند وب‌سایت را به طور مؤثر بررسی نمایند. آنها زمان خود را روی بخش‌هایی از سایت که اهمیت ندارند، صرف می‌کنند که می‌تواند منجر به نادیده گرفته شدن بخش‌های مهم وب‌سایت شود. اگر موتورهای جستجو از وجود صفحات شما بی‌خبر باشند، خزش و ایندکس آنها را انجام نمی دهند و در نتیجه، نخواهید توانست از طریق موتورهای جستجو بازدیدکننده جذب کنید.

نتیجه این موضوع هدر دادن Crawl Budget است که به عملکرد سئوی شما آسیب می‌زند. توجه داشته باشید که بودجه خزش سایت معمولاً زمانی مشکل ساز می‌شود که وب‌سایت بزرگی داشته باشید (مثلاً ۱۰,۰۰۰ صفحه یا بیشتر).

بودجه خزش سایت شما چقدر است؟

از بین تمامی موتورهای جستجو، گوگل شفاف‌ترین اطلاعات را درباره بودجه خزش وب‌سایت ارائه می‌دهد.

بودجه خزش در Google Search Console

اگر وب‌ سایت خود را در Google Search Console اعتبارسنجی (verify) کرده‌ اید، می‌ توانید جزئیاتی درباره بودجه خزش سایت خود در گوگل دریافت کنید.

مراحل بررسی بودجه خزش سایت در گوگل سرچ کنسول:

  1. وارد Google Search Console شوید و وب‌ سایت موردنظر را انتخاب کنید.
  2. به Settings > Crawl Stats مراجعه نمایید.
  3. در این بخش، تعداد صفحاتی که گوگل روزانه خزیده است را مشاهده خواهید کرد.

به سراغ منبع اصلی بروید: لاگ‌ های سرور

بررسی لاگ‌ های سرور یکی از بهترین راه‌ ها برای مشاهده میزان فعالیت خزنده‌ های گوگل روی وب‌ سایت شما است. همچنین، مقایسه این داده‌ ها با گزارش‌ های Google Search Console می‌ تواند اطلاعات مفیدی ارائه دهد.

نحوه بهینه‌سازی بودجه خزش

بهینه‌سازی بودجه خزش به این معنا است که مطمئن شوید هیچ بخشی از آن هدر نمی‌رود. این کار اساساً شامل رفع دلایلی است که باعث هدر رفتن بودجه خزش سایت می‌شوند.

دلایل رایج هدر رفتن بودجه خزش:

  1. دسترسی به URLهای دارای پارامتر
    • مثال: https://www.example.com/toys/cars?color=black
    • در این مثال، پارامتر برای ذخیره انتخاب کاربر از یک فیلتر محصول استفاده شده است اما می‌ تواند منجر به ایجاد نسخه‌ های اضافی از صفحات شود که خزش غیرضروری ایجاد می‌ کند.
  2. محتوای تکراری (Duplicate Content)
    • صفحاتی که بسیار مشابه یا کاملاً یکسان‌ هستند، مانند:
      • صفحات کپی شده
      • صفحات نتایج جستجوی داخلی
      • صفحات تگ‌ ها
  3. محتوای کم‌ کیفیت
    • صفحاتی با محتوای کم یا بدون ارزش افزوده.
  4. لینک‌ های شکسته و لینک‌ های ریدایرکت شده
    • لینک‌ های شکسته: لینک‌ هایی هستند که به صفحات حذف‌ شده اشاره دارند.
    • لینک‌ های ریدایرکت شده: لینک‌ های ریدایرکت شده به URL هایی که خودشان ریدایرکت دارند.
  5. وجود URL های اشتباه در نقشه سایت XML
    • صفحات غیرقابل ایندکس و صفحات دارای وضعیت ۳xx، ۴xx و ۵xx، نباید در نقشه سایت XML قرار گیرند.
  6. صفحات با زمان لود بالا یا تایم‌ اوت
    • صفحات کند یا لود نشده به موتورهای جستجو نشان می‌ دهند که وب‌ سایت شما نمی‌ تواند درخواست‌ ها را مدیریت کند و این موضوع ممکن است باعث کاهش محدودیت خزش وب سایت شما شود.
  7. تعداد زیاد صفحات غیرقابل ایندکس
    • اگر سایت شامل تعداد زیادی صفحه غیرقابل ایندکس باشد، گوگل ممکن است زمان و منابع خود را روی آنها هدر دهد.
  8. ساختار نامناسب لینک‌ های داخلی
    • اگر ساختار لینک‌ های داخلی به درستی تنظیم نشده باشد، موتورهای جستجو ممکن است برخی از صفحات شما را نادیده بگیرند.

URLهای دارای پارامتر و قابل دسترس

در بیشتر موارد، URL هایی که دارای پارامتر هستند نباید برای موتورهای جستجو قابل دسترسی باشند زیرا می‌ توانند تعداد بی‌ پایانی URL ایجاد کنند و این باعث هدر رفت بودجه خزش سایت می شود. 

URL های دارای پارامتر، معمولاً زمانی استفاده می‌ شوند که فیلترهای محصولات در سایت‌ های فروشگاهی پیاده‌ سازی می‌ گردند. استفاده از این URL ها اشکالی ندارد. فقط باید اطمینان حاصل کنید که برای موتورهای جستجو قابل دسترسی نباشند.

نحوه جلوگیری از دسترسی موتورهای جستجو به URLهای دارای پارامتر:

  1. فایل robots.txt را برای کنترل موتورهای جستجو و جلوگیری از دسترسی به این URL ها استفاده کنید. اگر به هر دلیلی این امکان وجود ندارد، از تنظیمات مدیریت پارامتر URL در Google Search Console و Bing Webmaster Tools برای هدایت گوگل و بینگ به صفحاتی که نباید خزیده شوند، استفاده کنید.
  2. مقدار nofollow را به لینک‌ های فیلتر اضافه نمایید اما توجه داشته باشید که از مارس ۲۰۲۰، گوگل احتمالا nofollow را نادیده می گیرد. بنابراین، در این مورد مرحله اول اهمیت بیشتری پیدا می‌ کند.

محتوای تکراری

اگر نمی‌ خواهید موتورهای جستجو زمان خود را روی محتوای تکراری صرف کنند، جلوگیری از ایجاد محتوای تکراری یا کاهش آن در سایت شما، اهمیت زیادی دارد.

نحوه کاهش محتوای تکراری:

  1. تنظیم ریدایرکت‌ برای انواع دامنه‌ ها (HTTP، HTTPS، بدون WWW و با WWW).
  2. غیرفعال کردن صفحات نتایج جستجوی داخلی برای موتورهای جستجو با استفاده از فایل robots.txt.
  3. غیرفعال کردن صفحات اختصاصی تصاویر
  4. دقت در استفاده از دسته‌ بندی‌ ها و برچسب‌ ها.

محتوایی با کیفیت پایین

صفحاتی با محتوای بسیار کم برای موتورهای جستجو جذاب نیستند. این نوع صفحات را به حداقل برسانید یا در صورت امکان به طور کامل از آنها اجتناب کنید. یک مثال از محتوای کم‌ کیفیت، بخش سؤالات متداول (FAQ) است که دارای لینک‌ هایی برای نمایش پرسش‌ ها و پاسخ‌ ها بوده و هر سؤال و پاسخ در یک URL جداگانه ارائه می‌ شود.

لینک‌ های شکسته و لینک‌ های ریدایرکت‌ شده

لینک‌ های شکسته و زنجیره‌ های طولانی از ریدایرکت‌ ها، بن‌ بست‌ هایی برای موتورهای جستجو هستند. مشابه مرورگرها، به نظر می‌ رسد گوگل نیز حداکثر پنج ریدایرکت زنجیره ای را در یک خزش دنبال می‌کند. مشخص نیست که سایر موتورهای جستجو چگونه با ریدایرکت‌ های پی‌ در پی برخورد می‌ کنند اما به شدت توصیه می‌ شود که از ریدایرکت‌ های زنجیره‌ ای به طور کامل اجتناب کنید و استفاده از ریدایرکت‌ ها را به حداقل برسانید.

مشخص است که با رفع مشکل لینک‌ های شکسته و ریدایرکت‌ شده، می‌ توانید سریعاً بودجه خزش هدر رفته را بازیابی کنید. علاوه بر این، تجربه کاربری بازدیدکنندگان نیز بهبود قابل توجهی می‌ یابد. همچنین ریدایرکت‌ های زنجیره‌ ای، موجب افزایش زمان لود صفحه شده و تجربه کاربری را مختل می‌ کنند.

URL های نادرست در نقشه سایت XML

تمام URL های موجود در نقشه سایت XML باید مربوط به صفحات قابل ایندکس باشند. موتورهای جستجو، مخصوصا در وب‌ سایت‌ های بزرگ، شدیدا به نقشه‌ های سایت متکی هستند تا تمامی صفحات را پیدا کنند. اگر نقشه وب‌سایت شامل صفحات حذف‌ یا ریدایرکت‌ شده باشد، بودجه خزش سایت را هدر خواهد داد.

توسط بررسی‌ های منظم، URL های غیرقابل ایندکس را از نقشه سایت حذف کنید. علاوه بر این، بررسی نمایید که هیچ صفحه مهمی به اشتباه از نقشه سایت XML حذف نشده باشد. نقشه سایت XML یکی از بهترین راه‌ ها برای کمک به موتورهای جستجو در مدیریت Crawl Budget است.

نحوه یافتن مشکلات نقشه سایت XML در ابزارهای مختلف 

Google Search Console:

  1. وارد Google Search Console شوید.
  2. روی Indexing > Sitemaps کلیک کنید.
  3. روی نقشه سایت XML موردنظر کلیک نمایید.
  4. روی SEE PAGE INDEXING کلیک کنید.

یافتن مشکلات نقشه سایت XML در سرچ کنسول

تصویر(۳)

Bing Webmaster Tools:

  1. وارد حساب Bing Webmaster Tools شوید.
  2. به تب Configure My Site بروید.
  3. روی Sitemaps کلیک کنید.

ContentKing:

  1. وارد حساب ContentKing شوید.
  2. روی دکمه Issues کلیک کنید.
  3. روی XML Sitemap کلیک نمایید.
  4. در صورت وجود مشکل، پیام زیر را دریافت خواهید کرد:
    “Page is incorrectly included in XML sitemap”

یافتن مشکلات نقشه سایت XML 

تصویر(۴)

یک راهکار عالی جهت بهینه‌‌سازی بودجه خزش سایت تقسیم نقشه وب‌سایت XML به چندین نقشه کوچک‌ تر است که می‌ تواند روشی مؤثر باشد. می‌ توانید برای هر بخش از وب‌ سایت یک نقشه سایت جداگانه ایجاد کنید تا به سرعت متوجه مشکلات احتمالی شوید.

به عنوان مثال:

  • اگر بخش A نقشه سایت شامل ۵۰۰ لینک باشد و ۴۸۰ لینک ایندکس شده باشند، عملکرد خوبی دارید.
  • اما اگر بخش B نقشه سایت شامل ۵۰۰ لینک باشد و فقط ۱۲۰ لینک ایندکس شده باشند، باید آن بررسی کنید.
    • احتمالاً تعداد زیادی URL غیرقابل ایندکس در بخش B نقشه وب‌سایت قرار گرفته‌ اند که باعث اتلاف بودجه خزش سایت می‌ شوند.

صفحاتی با زمان لود بالا یا تایم‌ اوت‌

صفحات کند یا با خطای تایم‌ اوت، فرآیند خزش را مختل می‌ کنند. هنگامی که صفحات شما زمان لود طولانی دارند یا با خطای تایم‌ اوت مواجه می‌ شوند، موتورهای جستجو نمی‌ توانند تعداد زیادی صفحه را با توجه به بودجه خزش اختصاص‌ یافته برای وب‌ سایت شما، بازدید کنند. علاوه بر این، سرعت لود پایین، تجربه کاربری بازدیدکنندگان را به شدت تحت تاثیر قرار داده و نرخ تبدیل را پایین می‌ آورد.

صفحاتی با زمان لود بیش از دو ثانیه، یک مشکل محسوب می‌ شوند و حالت ایده‌ آل این است که صفحات شما در کمتر از یک ثانیه بارگذاری گردند. بنابراین توصیه می شود که به طور مرتب زمان بارگذاری صفحات خود را با ابزارهای مختلف مانند Pingdom، WebPageTest، GTmetrix و… بررسی کنید.

گوگل اطلاعات مربوط به زمان بارگذاری صفحه را در دو بخش ارائه می‌دهد:

  • Google Analytics: در مسیر Behavior > Site Speed
  • Google Search Console: در مسیر Settings > Crawl Stats

همچنین خطای تایم‌ اوت صفحات، در ابزارهای زیر قابل بررسی است:

  • Google Search Console: در مسیر Settings > Crawl Stats
  • Bing Webmaster Tools: در مسیر Reports & Data > Crawl Information

به طور منظم این موارد را بررسی کرده و در صورت نیاز اقدامات لازم را انجام دهید؛ البته توجه داشته باشید که صفحات سریع، کلید موفقیت در فضای آنلاین هستند.

تعداد بالای صفحات غیرقابل ایندکس

اگر وب‌ سایت شما تعداد زیادی صفحه غیرقابل ایندکس را شامل شود که همچنان در دسترس موتورهای جستجو قرار دارند، در واقع خزنده‌ های جستجو را مشغول صفحات بی‌ ربط کرده‌ اید. می بایست مدیریت Crawl Budget به نحوی انجام گردد که صرفا صفحات دارای اهمیت بالا بررسی شود. 

به انواع صفحات غیرقابل ایندکس در لیست زیر اشاره شده است:

  • ریدایرکت‌ ها (۳xx)
  • صفحاتی که پیدا نشده (۴xx)
  • صفحاتی با خطای سرور (۵xx)
  • صفحاتی دارای دستور noindex یا canonical URL

شیوه تشخیص تعداد صفحات غیرقابل ایندکس

با استفاده از ContentKing می‌ توانید تعداد کل صفحات پیدا شده و دسته‌ بندی آنها را مشاهده کنید.

پیدا کردن کل صفحات ایندکس شده با ContentKing 

تصویر(۵)

در این مثال نتایج به صورت زیر است:

  • تعداد کل URLهای یافت‌شده: ۶۳,۱۳۷
  • تعداد کل صفحات: ۲۰,۵۲۸
  • تعداد صفحات قابل ایندکس: ۴,۶۶۳
  • نسبت صفحات ایندکس‌شده به کل URL ها: ۷.۴ درصد (این یک نسبت ضعیف است و نیاز به بهینه‌سازی دارد.)

تعداد صفحات ایندکس شده و ایندکس نشده

تصویر(۶)

برای رفع این مشکل می توانید اقدامات زیر را انجام دهید:

  • پاک‌ سازی لینک‌ های غیرضروری
  • بهینه‌ سازی نقشه سایت XML
  • اصلاح لینک‌ های داخلی
  • بررسی و تنظیم canonical URL
  • بررسی تنظیمات Hreflang
  • بهینه‌ سازی لینک‌ های صفحه‌ بندی

ساختار ضعیف لینک‌ های داخلی

نحوه لینک‌ دهی صفحات وب‌ سایت شما به یکدیگر، نقش مهمی در بهینه‌سازی بودجه خزش سایت (Crawl Budget) ایفا می‌ کند. به این فرآیند ساختار لینک‌ دهی داخلی وب‌ سایت گفته می شود. جدا از بک‌ لینک‌ ها، صفحاتی که تعداد کمی لینک داخلی دارند، در مقایسه با صفحاتی که توسط صفحات زیادی به آنها لینک داده می‌ شود، توجه کمتری از موتورهای جستجو دریافت می‌ کنند.

از ایجاد ساختار لینک‌ دهی با سلسله‌ مراتب زیاد اجتناب کنید زیرا صفحاتی که در وسط سلسله‌ مراتب قرار دارند، معمولاً تعداد کمی لینک دریافت می کنند و ممکن است به ندرت خزیده شوند. این وضعیت برای صفحاتی که در پایین سلسله‌ مراتب قرار دارند بدتر خواهد بود زیرا به دلیل کمبود لینک‌ ورودی، ممکن است کاملاً توسط موتورهای جستجو نادیده گرفته شوند.

مطمئن شوید که صفحات مهم وب‌ سایت شما لینک‌ های داخلی زیادی دارند. صفحاتی که اخیراً خزیده شده‌ اند، معمولاً رتبه بهتری در موتورهای جستجو کسب می کنند. این موضوع را در نظر بگیرید و ساختار لینک‌ دهی داخلی خود را بر اساس آن تنظیم کنید.

به عنوان مثال، اگر یک مقاله وبلاگی از سال ۲۰۱۱ دارید که ترافیک ارگانیک زیادی جذب می‌ کند، اطمینان حاصل کنید به آن مقاله از سایر محتواها لینک می‌ دهید.

نتیجه گیری: نحوه افزایش بودجه خزش سایت

برای افزایش بودجه خزش سایت خود، باید اعتبار وب‌ سایت خود را افزایش دهید. بخش بزرگ این کار توسط کسب لینک‌ های بیشتر از وب‌ سایت‌ های خارجی انجام می‌ گردد. افزایش بودجه خزش به بهینه‌سازی ساختار سایت، بهبود سرعت بارگذاری، حذف صفحات کم‌ارزش و جلوگیری از محتوای تکراری نیز وابسته است. استفاده صحیح از فایل robots.txt، لینک‌سازی داخلی مؤثر و بروزرسانی مداوم محتوا نیز نقش مهمی دارند. با رعایت این اصول و نظارت مستمر بر عملکرد خزنده‌ها، می‌توان حضور مؤثرتری در نتایج جستجو داشت.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا