آیا گوگل از نسبت فشردهسازی در سئو (compression ratio) به عنوان یک سیگنال کیفیت استفاده میکند یا این صرفاً یک افسانه است؟ این نسبت به مفهوم قابلیت فشردهسازی مربوط میشود.
یک آزمایش سئو تلاش داشت تا تاثیر نسبت تراکم یا فشردهسازی بر رتبه را بررسی کند. به نظر میرسد برخی بر این باور هستند که هرچه compression ratio بالاتر باشد، رتبه سایت کاهش مییابد. برای درک مفهوم قابلیت و نسبت فشردهسازی در سئو، لازم است منابع اصلی درباره نسبتهای فشردهسازی و همچنین مقالات پژوهشی مربوطه بررسی شوند تا بتوان نتیجهگیری دقیقی درباره این موضوع انجام داد.
تصویر(۱)
compression ratio چیست؟
Compression Ratio یا نسبت فشردهسازی به عددی گفته میشود که نشان میدهد یک فایل (مثل HTML، CSS یا JS) پس از فشردهسازی، چقدر از حجم اولیهاش را از دست داده است. هرچه این نسبت بالاتر باشد، یعنی فایل قابلیت فشردهشدن بیشتری دارد. در وبسایتها، این فشردهسازی معمولاً توسط الگوریتمهایی مثل Gzip یا Brotli انجام میشود تا سرعت بارگذاری افزایش یابد و مصرف پهنای باند کاهش پیدا کند.
موتورهای جستجو صفحات وب را فشرده میکنند
قابلیت فشردهسازی در موتورهای جستجو، به میزان فشرده شدن صفحات وب اشاره دارد. کاهش حجم یک فایل به صورت ZIP، نمونهای از فشردهسازی است. موتورهای جستجو، صفحات وب ایندکسشده را فشرده میکنند زیرا این کار موجب صرفهجویی در فضا و پردازش سریعتر دادهها میشود. این فرایندی است که تمام موتورهای جستجو از آن استفاده میکنند.
وبسایتها و ارائهدهندگان هاست صفحات را فشرده میکنند
فشردهسازی صفحات وب اقدامی مفید است زیرا به رباتها کمک میکند تا صفحات را سریعتر بررسی کنند. این موضوع به گوگلبات نشان میدهد که سرور تحت فشار نیست و میتواند صفحات بیشتری را برای ایندکسکردن دریافت کند.
فشردهسازی باعث افزایش سرعت وبسایت شده و تجربه کاربری بهتری را برای بازدیدکنندگان فراهم میکند، در نتیجه نشان دهنده تاثیر حجم صفحه بر سئو می باشد. بیشتر ارائهدهندگان هاست این قابلیت را به صورت خودکار فعال میکنند زیرا نهتنها برای وبسایت و کاربران مفید است بلکه باعث کاهش مصرف پهنای باند سرورها نیز میشود. در نتیجه، همه از این فرایند سود میبرند. اما آیا افزایش نسبت فشردهسازی در سئو تاثیر مثبت دارد؟
تصویر(۲)
ارتباط بین سطوح بالای فشردهسازی و محتوای اسپم
محققان یکی از موتورهای جستجو متوجه شدند که صفحات وب با قابلیت فشردهسازی بالا، ارتباط زیادی با محتوای بیکیفیت دارند. این موضوع در یک پژوهش علمی با عنوان “Spam, Damn Spam, and Statistics: Using Statistical Analysis to Locate Spam Web Pages” که در سال ۲۰۰۶ توسط دو پژوهشگر برجسته، مارک نایورک و دنیس فترلی، انجام شد، مورد بررسی قرار گرفته است.
مارک نایورک هم اکنون به عنوان یک پژوهشگر برجسته در DeepMind فعالیت دارد. دنیس فترلی که اکنون مهندس نرمافزار در گوگل است، نویسنده بسیاری از مقالات مهم در زمینه جستجو، تحلیل محتوا و موضوعات مرتبط می باشد.
این مقاله پژوهشی نشان میدهد ۷۰٪ از صفحات وبی که با نسبت تراکم ۴.۰ یا بالاتر فشرده شدهاند، معمولاً صفحات بیکیفیت با تکرار زیاد کلمات هستند. در حالی که میانگین نسبت فشردهسازی سایتهای بررسیشده حدودا ۲.۰ بوده است.
میانگین نسبتهای فشردهسازی صفحات معمولی در این تحقیق به شرح زیر است:
- نسبت فشردهسازی ۲.۰: رایجترین نسبت تراکم در مجموعه دادهها ۲.۰ است.
- نسبت فشردهسازی ۲.۱: نیمی از صفحات نسبت فشردهسازی زیر ۲.۱ و نیمی دیگر بیشتر دارند.
- نسبت فشردهسازی ۲.۱۱: میانگین compression ratio صفحات تحلیلشده ۲.۱۱ است.
فیلتر کردن صفحات با سطح فشردهسازی بالا میتواند روشی اولیه و سریع برای شناسایی اسپم باشد. بنابراین منطقی است که موتورهای جستجو از این روش برای شناسایی صفحات با محتوای اسپم استفاده کنند. شناسایی اسپم پیچیدهتر از این است و موتورهای جستجو سیگنالهای متعددی برای افزایش دقت نتایج خود به کار می برند.
محققان این پژوهش در سال ۲۰۰۶ گزارش دادند که ۷۰٪ از سایتهای با سطح فشردهسازی ۴.۰ یا بالاتر، اسپم هستند. بدان معنا که ۳۰٪ دیگر اسپم محسوب نمیشوند. در هر مجموعه آماری، همواره موارد استثنا وجود دارد. همین موضوع نشان میدهد که چرا موتورهای جستجو معمولاً بیش از یک سیگنال را برای ارزیابی کیفیت محتوا استفاده میکنند.
تصویر(۳)
آیا موتورهای جستجو از قابلیت فشردهسازی استفاده میکنند؟
کاملاً منطقی است که فرض شود موتورهای جستجو از قابلیت فشردهسازی برای شناسایی محتوای اسپم واضح و آشکار استفاده میکنند اما در عین حال، این نیز منطقی است که اگر موتورهای جستجو فشرده سازی را به کار ببرند، احتمالاً در کنار سایر سیگنالها خواهد بود تا دقت معیارهای خود را افزایش دهند. با این حال، هیچکس به طور قطعی نمیداند که آیا گوگل از فشردهسازی استفاده میکند یا خیر.
تشخیص استفاده گوگل از فشردهسازی غیرممکن است
هیچ راه قطعی برای اثبات اینکه تاثیر نسبت فشردهسازی در سئو افسانه است یا خیر، وجود ندارد.
دلایل عدم تشخیص تاثیر فشردهسازی بر رتبه گوگل عبارتند از:
- اگر یک سایت نسبت فشردهسازی ۴.۰ یا بالاتر دارد و همزمان سایر سیگنالهای اسپم را نیز داشته باشد، احتمالاً آن سایت از نتایج جستجو حذف خواهد شد.
- اگر چنین سایتهایی در نتایج جستجو وجود نداشته باشند، هیچ راهی برای بررسی نتایج و آزمایش اینکه آیا گوگل از نسبت فشردهسازی به عنوان سیگنال اسپم استفاده میکند یا خیر، وجود ندارد.
منطقی است که فرض شود سایتهایی با نسبت فشردهسازی ۴.۰ یا بالاتر حذف شدهاند اما این موضوع قطعی نیست و نمیتوان آن را اثبات کرد.
جمع بندی: نسبت فشردهسازی در سئو نیازی به نگرانی ندارد
در این مقاله تلاش شد تا بررسی گردد که آیا افزایش نسبت فشردهسازی در سئو تاثیر مثبت دارد یا منفی؟ ناشران یا متخصصان سئو که سایتهای معمولی را منتشر میکنند، لازم نیست نگران قابلیت فشرده سازی باشند.
به عنوان مثال، گوگل صفحات تکراری را کانونیکالسازی (canonicalizes) میکند و سیگنالهای PageRank (رتبه صفحه) را به صفحه کانونیکال منتقل مینماید. این موضوع در وبسایتهای داینامیک مانند فروشگاههای اینترنتی کاملاً طبیعی می باشد. صفحات محصول ممکن است نرخ فشردهسازی بالاتری داشته باشند زیرا معمولاً محتوای زیادی در آنها وجود ندارد اما این مسئله مشکلی ایجاد نمیکند و گوگل همچنان میتواند این صفحات را رتبه بندی نماید.
فشردهسازی تنها زمانی به یک مسئله تبدیل میگردد که سطح بالایی از تکنیکهای اسپم، آشکارا به کار گرفته شود. علاوه بر این، موتورهای جستجو برای جلوگیری از نتایج نادرست، سیگنالهای اسپم را به صورت مجزا استفاده نمیکنند. بنابراین، منطقی است که اکثر وبسایتهای معمولی نیازی به نگرانی درباره نسبت تراکم و فشردهسازی نداشته باشند.