آیا چگونگی رفع خطای Blocked by robots.txt و Indexed, though blocked by robots.txt در گوگل سرچ کنسول شما را سردرگم کرده است؟ در ادامه می آموزید که این خطاهای ایندکس نشدن صفحات چه معنایی دارند، چرا اتفاق میافتند و چگونه می توانید آنها را به طور موثر برطرف کنید. این خطاهای ایندکس نشدن صفحات در Google Search Console، از زمان معرفی گزارش خطاهای GSC باعث اختلاف نظر بین متخصصان سئو شدهاند. در ادامه سعی شده است تا این موضوع برای همیشه حل شود و این خطاهای ایندکس نشدن صفحات بطور کامل بررسی و مقایسه گردد.
تصویر(۱)
تفاوت Blocked by robots.txt و Indexed, though blocked by robots.txt چیست؟
اصلی ترین تفاوت Blocked by robots.txt و Indexed, though blocked by robots.txt وجود عبارت Indexed به معنای “ایندکس شدن” است.
- خطای Blocked by robots.txt یعنی URL های شما در جستجوی گوگل نمایش داده نمیشوند.
- “Indexed, though blocked by robots.txt” یعنی URL های شما ایندکس شدهاند و در جستجوی گوگل نمایش داده میشوند، حتی اگر در فایل robots.txt مسدود شده باشند.
تصویر(۲)
اگر یک URL در robots.txt مسدود گردد، از موتورهای جستجو حذف میشود؟
هیچ آدرسی فقط به دلیل قرار گرفتن درون فایل robots.txt، کاملا از ایندکس شدن در موتورهای جستجو حذف نمیشود. اختلاف نظر بین متخصصان سئو در مورد خطای Blocked by robots.txt و Indexed, though blocked by robots.txt به این دلیل است که موتورهای جستجو همچنان می توانند URL مسدودشده را پردازش کنند حتی اگر در فایل robots.txt بلاک شده باشند. در مستندات راهنمای گوگل ذکر شده که این شرکت تضمین نمیکند صفحهای که در robots.txt مسدود شده، ایندکس نشود. این مورد توسط بسیاری از متخصصان سئو نیز مشاهده شده است.
تصویر(۳)
نحوه رفع ارور blocked by robots.txt در سرچ کنسول
در ادامه نحوه رفع ارور blocked by robots.txt در سرچ کنسول ذکر شده است.
بررسی دستی تمام صفحات مشخصشده در گزارش “Blocked by robots.txt”
در اولین مرحله رفع خطای Blocked by robots.txt می بایست تمامی صفحاتی که در گزارش Google Search Console با این خطا مشخص شدهاند را بررسی کنید. برای دسترسی به این گزارش، در Google Search Console، وارد منوی Pages شوید و بخش Blocked by robots.txt را بیابید.
سپس خروجی دادهها را تحت Google Sheets، Excel یا CSV دریافت نمایید تا بتوانید آنها را فیلتر کنید.
تصویر(۴)
از انسداد URL موردنظر مطمئن شوید
در مرحله بعدی رفع خطای Blocked by robots.txt می بایست فایل خروجی را بررسی کرده و URL های مهمی که باید در جستجو نمایش داده شوند را شناسایی کنید. وقتی با خطای Blocked by robots.txt مواجه میشوید، این یعنی شما عمداً از طریق فایل robots.txt به گوگل گفتهاید که آن URL را خزش (crawl) نکند.
گاهی اوقات، این کار کاملاً طبیعی است. برای مثال:
- ممکن است صفحات تشکر را از نمایش در نتایج جستجو حذف کنید.
- صفحات مربوط به تولید لید که فقط برای تیمهای فروش هستند، نیازی به نمایش در جستجو ندارند.
هدف شما به عنوان یک متخصص سئو این است که بررسی کنید آیا URL های موجود در این گزارش واقعاً باید توسط موتورهای جستجو نادیده گرفته شوند یا خیر. اگر این انسداد عمدی بوده است، نیازی به هیچ اقدامی نیست اما اگر به طور تصادفی این URL ها را مسدود کردهاید، مراحل بعدی را دنبال کنید.
رفع خطای Blocked by robots.txt با حذف دستور Disallow
اگر اشتباها یک URL را مسدود کردهاید می توانید جهت رفع خطای Blocked by robots.txt، دستور Disallow را به صورت دستی از فایل robots.txt حذف کنید. پس از حذف، URL را در نوار Inspect URL بالای Google Search Console وارد نمایید. سپس، روی Request Indexing کلیک کنید.
تصویر(۵)
اگر چندین URL تحت یک دایرکتوری قرار دارند ابتدا URL اصلی دایرکتوری را بررسی کنید زیرا این کار بیشترین تأثیر را خواهد داشت. هدف این است که موتورهای جستجو، صفحات را مجددا خزش کرده و URL ها را ایندکس کنند. رفع خطای Blocked by robots.txt با انجام این مراحل قابل انجام است.
درخواست بررسی مجدد فایل robots.txt
یکی دیگر از راههای رفع خطای Blocked by robots.txt و درخواست خزش مجدد صفحات مسدودشده، این است که از طریق Google Search Console درخواست بررسی مجدد بدهید. وارد Google Search Console شوید، به مسیر Settings > robots.txt بروید، سپس گزینه Request a recrawl را انتخاب کنید.
تصویر(۶)
با انجام این مراحل، گوگل صفحات مسدود شده را دوباره بررسی و مطابق با تغییرات جدید ایندکس خواهد کرد در نتیجه شاهد رفع خطای Blocked by robots.txt خواهید بود.
تصویر(۷)
پیگیری عملکرد قبل و بعد
در آخرین مرحله رفع خطای Blocked by robots.txt با پاکسازی دستورات Disallow در فایل robots.txt و ارسال URL ها برای خزش مجدد، میتوانید از وب سایت Wayback Machine استفاده کنید تا بررسی نمایید فایل robots.txt آخرین بار چه زمانی بروزرسانی شده است.
این کار به شما دید بهتری از تأثیر احتمالی دستور Disallow روی یک URL خاص میدهد. سپس عملکرد صفحه را حداقل به مدت ۹۰ روز پس از ایندکس شدن بررسی کنید.
نحوه رفع خطای indexed, though blocked by robots.txt
در ادامه نحوه رفع خطای Indexed, though blocked by robots.txt ذکر شده است.
بررسی دستی تمام صفحات مشخصشده در گزارش
همانند مراحل رفع خطای Blocked by robots.txt، برای این خطا نیز مجددا تمام صفحاتی که در گزارش Indexed, though blocked by robots.txt گوگل سرچ کنسول مشخص شدهاند را بررسی کنید.
برای دسترسی به این گزارش، وارد منوی Pages در Google Search Console شوید و بخش Indexed, though blocked by robots.txt را بیابید. سپس خروجی دادهها را تحت Google Sheets، Excel یا CSV دریافت نمایید تا بتوانید آنها را فیلتر کنید.
تصویر(۸)
از انسداد URL موردنظر مطمئن شوید
در مرحله بعد رفع خطای indexed, though blocked by robots.txt از خود بپرسید:
- آیا این URL واقعاً باید ایندکس شود؟
- آیا این صفحه شامل محتوای ارزشمند برای کاربران موتورهای جستجو است؟
اگر قرار بوده که این URL از موتورهای جستجو مخفی بماند، نیازی به اقدام خاصی نیست و این گزارش صحیح است اما اگر قرار نبوده این URL مسدود شود، به مراحل بعدی بروید.
حذف دستور Disallow از robots.txt و درخواست خزش مجدد
اگر به اشتباه یک دستور Disallow را در فایل robots.txt اضافه کردهاید، آن را به صورت دستی حذف کنید. سپس، URL را در نوار Inspect URL بالای Google Search Console وارد نمایید و روی Request Indexing کلیک کنید.
پس از آن همانند مراحل رفع خطای Blocked by robots.txt، در Google Search Console به Settings > robots.txt > Request a recrawl بروید.
این کار باعث میشود که گوگل صفحات شما را دوباره خزش کند، URL ها را ایندکس کرده و ترافیک ایجاد نماید.
اضافه کردن تگ noindex در صورت عدم تمایل به ایندکس شدن صفحه
اگر قصد دارید صفحهای به طور کامل از نتایج جستجو حذف شود، به جای Disallow در robots.txt، از تگ noindex استفاده کنید. همچنین باید دستور Disallow را از فایل robots.txt حذف نمایید. اگر هر دو را نگه دارید، گزارش Indexed, though blocked by robots.txt در Google Search Console همچنان تکرارشده و مشکل حل نخواهد شد.
چرا باید تگ noindex به جای Disallow در robots.txt استفاده شود؟
اگر میخواهید یک URL به طور کامل از نتایج جستجو حذف شود، باید از تگ noindex استفاده کنید. دستور Disallow در robots.txt تضمین نمیکند که یک صفحه ایندکس نشود. فایل robots.txt برای کنترل ایندکس شدن طراحی نشده بلکه جهت کنترل خزش استفاده میشود.
آیا باید همزمان تگ noindex و Disallow را برای یک URL تنظیم کرد؟
اگر از تگ noindex استفاده مینمایید، نباید Disallow را برای همان URL در robots.txt به کار ببرید. موتورهای جستجو باید بتوانند صفحه را خزش کنند تا تگ noindex را مشاهده نمایند. اگر همان URL در فایل robots.txt مسدود شود، موتورهای جستجو ممکن است نتوانند به آن دسترسی پیدا کرده و متوجه تگ noindex نشوند.
نتیجه گیری: ایجاد یک استراتژی شفاف برای خزش سایت
در این مقاله تلاش شد تا تفاوت و نحوه رفع خطای Blocked by robots.txt و indexed, though blocked by robots.txt بررسی گردد. اگر گزارش خطاهای robots.txt در Google Search Console افزایش پیدا کرد، ممکن است وسوسه شوید که تصمیمات خود را درباره انسداد برخی URL ها تغییر دهید. برخی URL ها باید از دید موتورهای جستجو مخفی بمانند. تمامی URL ها شامل محتوای ارزشمند جهت جستجو نیستند. بهترین راهحل برای رفع این خطا در Google Search Console بررسی مداوم صفحات خود است تا مشخص نمایید آیا محتوای آنها باید در دسترس موتورهای جستجو قرار گیرد یا خیر.