اعتبار محتوا در هوش مصنوعی چگونه تشخیص داده می شود؟

هوش مصنوعی مولد (Generative AI) با سرعتی چشمگیر از یک فناوری نوپا به ابزاری پرکاربرد در زندگی روزمره تبدیل شده است اما همزمان با این گسترش،  پرسش‌های مهمی درباره شفافیت خروجی‌ها و اعتبار محتوا در هوش مصنوعی مطرح می‌شود. یکی از چالش‌های اصلی این است که آنها بر چه اساسی تصمیم می‌گیرند، کدام محتوا قابل اعتماد بوده و کدام باید نادیده گرفته شود.

پژوهشی در دانشگاه کلمبیا نشان می‌دهد که در بیش از ۲۰۰ آزمایش روی موتورهای جستجوی هوش مصنوعی پیشرفته مانند ChatGPT، Perplexity و Gemini، حدود ۶۰ درصد پاسخ‌ها فاقد ارجاع دقیق بوده‌اند. علاوه بر این، ظهور مدل‌های «استدلال‌محور» باعث افزایش گزارش‌های مربوط به «توهمات» هوش مصنوعی شده است. چنین روندی فشار زیادی بر این موتورهای هوش مصنوعی وارد می‌کند تا ثابت کنند می توانند اطلاعات معتبر را به‌طور پیوسته در اولویت قرار دهند.

اعتبار محتوا در هوش مصنوعی چه معنایی دارد؟

سیستم‌های مولد، مفهومی انتزاعی و چند وجهی مانند «اعتماد» را به مجموعه‌ای از معیارهای فنی کاهش می دهند. نشانه‌های قابل مشاهده‌ای همچون تعداد ارجاع، شهرت دامنه و تازگی محتوا به‌عنوان شاخص‌های جانشین برای ویژگی‌هایی استفاده می‌شوند که انسان‌ها عموماً آنها را با اطلاعات معتبر پیوند می‌دهند.

چارچوب شناخته‌شده سئو تحت عنوان E-E-A-T (تجربه، تخصص، اعتبار و قابلیت اعتماد) همچنان جایگاه خود را حفظ کرده است؛ با این تفاوت که اکنون به‌صورت الگوریتمی تخمین زده می‌شوند تا اعتبار محتوا در هوش مصنوعی به‌درستی سنجیده شود. در عمل، این بدان معنا می باشد که موتورهای جستجو همچنان بر مجموعه‌ای از ویژگی‌های آشنا تأکید دارند؛ همان مؤلفه‌هایی که سال‌ها معیار سنجش اعتبار محتوا بوده و کانون توجه بازاریابان و ناشران قرار داشته‌اند.

ویژگی‌های محتوای معتبر در هوش مصنوعی

موتورهای هوش مصنوعی امروزی در تلاش هستند تا شاخص‌های پذیرفته‌شده اعتبار را در چهار بُعد بازآفرینی کنند:

  • دقت (Accuracy): تولید محتوایی که مبتنی بر واقعیت‌های قابل راستی‌آزمایی باشد، با شواهد و داده‌های معتبر پشتیبانی شود و از طرح ادعاهای بی‌پایه اجتناب گردد.
  • اعتبار (Authority): ارائه اطلاعات از سوی نهادهای رسمی، ناشران معتبر یا متخصصانی که صلاحیت و تخصص آنان در حوزه مربوطه اثبات شده است.
  • شفافیت (Transparency): فراهم‌سازی منابع به‌صورت شفاف و قابل شناسایی، همراه با استنادها و توضیحات زمینه‌ای مناسب که امکان ردیابی محتوا تا منشأ اصلی را میسر سازد.
  • پایداری در طول زمان (Consistency over time): نمایش ثبات و قابلیت اتکا، با تکرار و استمرار در ارائه مقالات متعدد یا بروزرسانی‌های گوناگون، به‌گونه‌ای که سابقه‌ای از اعتبار مستمر شکل گیرد.

نحوه تشخیص اعتبار محتوا در هوش مصنوعی

تصویر(۱)

اعتماد و اعتبار محتوا در هوش مصنوعی

اعتبار همچنان یکی از روشن‌ترین نشانه‌های اعتماد است و همین امر می‌تواند موجب شود تا موتورهای هوش مصنوعی، ناشران قدیمی و دامنه‌های شناخته‌شده را در اولویت قرار دهند. اعتبار محتوا در هوش مصنوعی اغلب از طریق بررسی پیشینه و تخصص دامنه‌ها سنجیده می‌شود.

طبق مطالعات انجام شده روی بیش از ۱ میلیون ارجاع در مدل‌هایی نظیر GPT-4o، Gemini Pro و Claude Sonnet، مقالات منتشرشده توسط سازمان‌های رسانه‌ای بزرگ حداقل در ۲۷% موارد مورد استناد قرار گرفته بودند. برای پرامپت‌های مبتنی بر تازگی، این سهم به ۴۹ درصد افزایش یافته است.

بر اساس تحلیل مرکز پژوهشی Pew، قابلیت AI Overviews سه برابر بیشتر از نتایج استاندارد موتور جستجو (SERP) به وب‌سایت‌های با پسوند .gov ارجاع می‌دهد. باید توجه داشت که اعتبار صرفاً با شهرت برند تعریف نمی‌شود و موتورهای مولد به‌طور فزاینده‌ای نشانه‌های تخصص دست‌اول را شناسایی می‌کنند.

برندهای کوچک‌تر و ناشران تخصصی که به‌طور مستمر چنین چیزی را نشان می‌دهند، می‌توانند به همان اندازه و گاه حتی متقاعدکننده‌تر از رسانه‌های بزرگ که صرفاً به خلاصه‌سازی تخصص دیگران می‌پردازند، در نتایج ظاهر شوند. در عمل، اعتبار در جستجوی مبتنی بر هوش مصنوعی به نمایش تخصص قابل راستی‌آزمایی و ارتباط موضوعی بازمی‌گردد.

نقش داده‌های آموزشی در ارزیابی اعتبار محتوا در هوش مصنوعی

نحوه تعریف اعتماد توسط موتورهای مولد، مدت‌ها پیش از آنکه یک عبارت وارد شود، آغاز می‌گردد. پایه‌ریزی این امر در داده‌هایی صورت می‌گیرد که مدل‌ها تحت آنها آموزش دیده‌اند و شیوه پالایش و گردآوری داده‌ها مستقیماً تعیین می‌کند چه نوع محتوایی به‌عنوان منبع معتبر تلقی شود.

مجموعه داده‌های پیش‌آموزش

بیشتر مدل‌های زبانی بزرگ (LLMs) منابع عظیم متنی را در اختیار دارند که معمولاً شامل موارد زیر هستند:

  • کتاب‌ها و مجلات علمی: منابعی که منتشر شده و مورد داوری علمی قرار گرفته‌اند، بنیان مدل را در چارچوب پژوهش‌های رسمی و دانشگاهی، استوار می‌سازند.
  • دانشنامه‌ها و منابع مرجع: دانش ساختار یافته و عمومی که پوشش گسترده‌ای از حقایق را ارائه می‌دهند.
  • آرشیوها و مقالات خبری: از سوی رسانه‌های معتبر، به‌عنوان منبعی برای ثبت زمانبندی اطلاعات و ارائه بستر زمینه‌ای مورد استفاده قرار می‌گیرند.
  • منابع عمومی و مخازن دسترسی آزاد: مانند انتشارات دولتی، راهنماهای فنی و اسناد حقوقی.

منابعی که عموماً کنار گذاشته می‌شوند نیز حائز اهمیت است:

  • وب‌سایت‌های اسپم و شبکه‌های لینک‌سازی.
  • وبلاگ‌های بی‌کیفیت و کارخانجات تولید محتوا
  • شبکه‌های شناخته‌شده نشر اطلاعات نادرست یا محتوای دستکاری‌شده.

استفاده از داده‌های آموزشی برای تعیین اعتبار محتوا در هوش مصنوعی

تصویر(۲)

پالایش و فیلترینگ داده‌ها

داده خام پیش‌آموزش، تنها نقطه آغاز است. توسعه‌دهندگان ترکیبی از روش‌ها را برای پالایش محتوای کم‌اعتبار استفاده می‌کنند، از جمله:

  • بازبین‌های انسانی که استانداردهای کیفی را اعمال می‌نمایند.
  • دسته‌بندهای الگوریتمی که برای شناسایی اسپم، نشانه‌های محتوای بی‌کیفیت یا اطلاعات نادرست آموزش دیده‌اند.
  • فیلترهای خودکار که محتوای مضر، سرقتی یا دستکاری‌شده را تنزل رتبه داده یا حذف می‌کنند.

این فرآیند پالایش حیاتی است زیرا اصولی را تعیین می‌کند که بر اساس آن مدل می‌تواند نشانه‌های اعتماد را شناسایی کرده و چارچوب اولیه اعتبار محتوا در هوش مصنوعی را برای استفاده عمومی شکل دهد.

نحوه رتبه‌بندی و اولویت‌بندی منابع قابل اعتماد توسط موتورهای مولد

زمانی که یک عبارت وارد می‌شود، موتورهای مولد لایه‌های اضافی منطق رتبه‌بندی را به‌کار می‌برند تا تصمیم بگیرند کدام منابع نمایش داده شوند. این سازوکارها به‌گونه‌ای طراحی شده‌اند که اعتبار، ارتباط موضوعی و بروز بودن را در تعادل نگه دارند. نشانه‌های مربوط به قابلیت اعتماد محتوا مانند دقت و اعتبار که پیش‌تر مورد بررسی قرار گرفتند، اهمیت دارند. همچنین موارد زیر نیز تاثیرگذار هستند:

  • تکرار استناد (citation frequency) و لینک دهی متقابل (interlinking).
  • تازگی (recency) و دفعات بروزرسانی.
  • وزن‌دهی مبتنی بر متن (contextual weighting).

۱. تکرار استناد و لینک دهی متقابل

موتورها منابع را به‌صورت مجزا ارزیابی نمی‌کنند. محتوایی که در چندین متن معتبر ظاهر می‌شود، وزن بیشتری می‌گیرد و شانس آن برای استناد یا خلاصه‌سازی افزایش می‌یابد. این نوع ارجاع متقابل، سیگنال‌های مکرر اعتبار را به طور ویژه‌ای ارزشمند می‌کند.

مدیرعامل گوگل اخیراً بر این پویایی تأکید کرده و یادآور شد که گوگل درباره اعتبار محتوا در هوش مصنوعی و صفحات وب به‌صورت دستی تصمیم نمی‌گیرد.

گوگل به نشانه‌هایی مانند تکرار لینک‌دهی از سوی صفحات قابل اعتماد متکی است. اصلی که به PageRank بازمی‌گردد و همچنان مدل‌های پیچیده‌تر رتبه‌بندی امروزی را شکل می‌دهد.

۲. تازگی و تکرار بروزرسانی

تازگی محتوا به‌ویژه هنگام تلاش برای حضور در AI Overviews گوگل حیاتی می باشد زیرا این بخش بر پایه سامانه‌های رتبه‌بندی اصلی گوگل ساخته می‌شود که بروز بودن را به‌عنوان یکی از مؤلفه‌های رتبه‌بندی در نظر می‌گیرند.

محتوایی که به‌طور فعال نگهداری و بروزرسانی می‌گردد، احتمال بیشتری دارد که درون نتایج هوش مصنوعی به‌خصوص برای عبارات مرتبط با موضوعات در حال تحول مانند مقررات، اخبار فوری یا یافته‌های پژوهشی جدید نمایش داده شود.

لینک دهی متقابل از نشانه‌های اعتماد است

تصویر(۳)

۳. وزن‌دهی مبتنی بر متن

رتبه‌بندی، یکسان و ثابت نیست. پرسش‌های فنی ممکن است منابع دانشگاهی یا مبتنی بر وب‌سایت‌های تخصصی را اولویت قرار دهند، در حالی که پرسش‌های خبری بیشتر به مطالب روزنامه‌نگاری متکی هستند.

این سازگاری به موتورهای جستجو اجازه می‌دهد نشانه‌های اعتماد را بر اساس نیت کاربر تنظیم کنند و سامانه وزن‌دهی دقیق ایجاد نمایند که اعتبار را با زمینه هماهنگ می‌کند.

معیارهای داخلی استدلال و اعتبار محتوا در هوش مصنوعی

حتی پس از طی مراحل آموزش و رتبه‌بندی در زمان درخواست، موتورهای جستجو همچنان به سازوکاری نیاز دارند تا میزان اطمینان خود نسبت به پاسخ‌های تولید شده را تعیین کنند. سپس معیارهای داخلی اعتماد یعنی سامانه‌های امتیازدهی که برای سنجش اعتبار محتوا در هوش مصنوعی طراحی شده‌اند، وارد عمل می‌شوند تا احتمال صحت یک گزاره را برآورد کنند. این امتیازها بر انتخاب منابع مورد استناد و همچنین تصمیم مدل در استفاده از عبارات مشروط یا ارائه پاسخ قطعی، تأثیر مستقیم دارند.

همانگونه که پیش‌تر ذکر شد، نشانه‌های اعتبار و ارجاع متقابل در اینجا نیز نقش دارند:

  • امتیازدهی اعتماد (Confidence scoring): مدل‌ها به گزاره‌هایی که تولید می‌کنند احتمال درونی اختصاص می‌دهند. امتیاز بالا نشان‌دهنده اطمینان بیشتر است، در حالی که امتیاز پایین می‌تواند اقدامات حفاظتی مانند سلب مسئولیت یا پاسخ‌های جایگزین را فعال کند.
  • تنظیم آستانه‌ها (Threshold adjustments): آستانه‌های اعتماد ثابت نیستند. برای پرسش‌هایی که اطلاعات پراکنده یا کم‌کیفیت دارند، موتورهای جستجو ممکن است تمایل خود به ارائه پاسخ قطعی را کاهش دهند یا به منابع خارجی استناد کنند.
  • هماهنگی میان منابع (Alignment across sources): مدل‌ها خروجی‌های چندین منبع را مقایسه می‌کنند و زمانی که توافق وجود داشته باشد، وزن بیشتری به پاسخ‌ها می‌دهند. اگر نشانه‌ها متفاوت باشند، سیستم ممکن است آن را با قطعیت اعلام نکند.

چالش‌های تعیین اعتبار محتوا در هوش مصنوعی

با وجود سیستم‌های امتیازدهی و مکانیسم‌های ایمنی که در موتورهای مولد تعبیه شده‌اند، ارزیابی اعتبار در مقیاس وسیع همچنان فرآیندی رو به تکامل است.

چالش‌های پیش‌رو شامل موارد زیر هستند:

۱. عدم توازن منبع

نشانه‌های اعتبار محتوا در هوش مصنوعی اغلب به سمت ناشران بزرگ، انگلیسی‌زبان و رسانه‌های غربی متمایل می‌شوند. هرچند این دامنه‌ها وزن بالایی دارند اما اتکای بیش از حد به  آنها می‌تواند موجب ایجاد نقاط کور یعنی نادیده گرفتن تخصص محلی یا غیرانگلیسی که شاید دقیق‌تر باشد، شود و دامنه دیدگاه‌های ارائه‌شده را محدود کند.

چالش‌های تعیین اعتبار محتوا در هوش مصنوعی

تصویر(۴)

۲. تحول مداوم دانش

اجماع علمی تغییر می‌کند، مقررات اصلاح می‌شوند و پژوهش‌های جدید می‌توانند به‌سرعت فرضیات قبلی را نقض کنند. آنچه امسال دقیق تلقی می‌شود، ممکن است سال بعد منسوخ باشد و همین موضوع باعث می‌شود سیگنال‌های الگوریتمیِ اعتماد، ناپایدارتر از آن چیزی باشند که به نظر می‌رسند.

موتورها نیازمند سازوکارهایی هستند که نشانگرهای اعتبار را به‌طور مستمر بروز و تنظیم کنند، در غیر این صورت خطر نمایش اطلاعات قدیمی وجود دارد.

۳. سیستم‌های غیرشفاف

چالش دیگر، مسئله شفافیت است. شرکت‌های هوش مصنوعی به‌ندرت ترکیب کامل داده‌های آموزشی یا نشانه‌های اعتماد را افشا می‌کنند. برای کاربران، این ابهام باعث می‌شود درک دلیل نمایش بیشتر برخی منابع نسبت به سایرین دشوار باشد. برای ناشران و بازاریابان نیز این موضوع تطبیق استراتژی‌های محتوایی با اولویت‌های واقعی موتورهای جستجو را پیچیده می‌سازد.

قدم بعدی اعتبار محتوا در هوش مصنوعی مولد

با نگاهی به آینده، موتورها (مدل‌های هوش مصنوعی) تحت فشار هستند تا شفافیت و پاسخ‌گویی بیشتری از خود نشان دهند. نشانه‌های اولیه حاکی از آن است که بهبودهای مختلفی در حال شکل‌گیری هستند.

منابع قابل راستی‌آزمایی

انتظار می‌رود تأکید بیشتری بر خروجی‌هایی وجود داشته باشد که مستقیماً به منشأ خود قابل ارجاع هستند. ویژگی‌هایی همچون ارجاعات تحت لینک، دنبال کردن منشا و مشخص کردن منابع، طراحی شده‌اند تا به کاربران کمک کنند اعتبار یک سند معتبر را تشخیص دهند.

مکانیزم های دریافت بازخورد

مدل‌های هوش مصنوعی سعی دارند نحوه دریافت بازخورد کاربران را نظام‌مندتر کنند. اصلاحات، امتیازدهی‌ها و گزارش خطاها می‌توانند در بروزرسانی مدل‌ها به‌کار روند و کمک کنند تا نشانه‌های اعتماد را در طول زمان اصلاح کنند. این فرآیند چرخه‌ای ایجاد می‌کند که در آن اعتبار صرفاً به‌صورت الگوریتمی تعیین نمی‌شود بلکه استفاده واقعی نیز روی آن تاثیر خواهد داشت.

تعیین اعتبار در مدل‌های هوش مصنوعی

تصویر(۵)

تبدیل نشانه‌های اعتماد به استراتژی

اعتماد در هوش مصنوعی مولد تنها توسط یک عامل تعیین نمی‌شود. این اعتماد از تعامل میان داده‌های آموزشی پالایش‌شده، منطق رتبه‌بندی و معیارهای داخلی پدید می‌آید و تمام آنها از میان سیستم‌های مبهمی عبور می‌کنند که همچنان در حال تکامل‌ هستند.

برای برندها و ناشران، نکته کلیدی همسویی با نشانه‌هایی است که موتورهای جستجو هم‌اکنون آنها را شناسایی کرده و ارزشمند می دانند. مواردی مانند:

  • اولویت‌بندی شفافیت: به منابع استناد کنید، تخصص‌ها را به نویسندگان منتسب نمایید و شرایطی فراهم کنید که ردیابی ادعاها تا منشأ اصلی‌شان آسان باشد.
  • نمایش تخصص: محتوای تولید شده توسط متخصصان واقعی موضوع موردنظر را مشخص نمایید؛ صرفاً به ارائه خلاصه‌ای از کارهای دیگران بسنده نکنید.
  • بروز نگه داشتن محتوا: صفحات را به‌طور منظم بروزرسانی کنید تا منعکس‌کننده آخرین تحولات باشند، خصوصا در مورد موضوعاتی که وابسته به زمان هستند.
  • ایجاد سیگنال‌های اعتبار: از سایر دامنه‌های مورداعتماد، استناد و بک‌لینک دریافت کنید تا اعتبار (Authority) خود را تقویت نمایید.
  • بررسی بازخوردها: نحوه نمایش محتوای خود در پلتفرم‌های هوش مصنوعی را زیر نظر بگیرید و بر اساس خطاها، شکاف‌های اطلاعاتی یا فرصت‌های جدید، استراتژی خود را اصلاح کنید.

جمع‌بندی

اعتبار محتوا در هوش مصنوعی مولد، مفهومی ایستا و قطعی نیست بلکه پدیده‌ای پویا و در حال اصلاح است که از تعامل میان داده‌های آموزشی، سازوکارهای رتبه‌بندی، معیارهای داخلی اعتماد و بازخورد کاربران شکل می‌گیرد. چالش‌هایی مانند غلبه بر منابع بزرگ، ناپایداری دانش و شفافیت محدود نشان می‌دهند که این مسیر همچنان نیازمند اصلاح و تکامل می باشد. با این حال، فرصت‌های تازه‌ای نیز برای ناشران، برندها و تولیدکنندگان محتوا فراهم شده است؛  آنها می‌توانند با تکیه بر شفافیت، نمایش تخصص، بروزرسانی مداوم و ایجاد لینک‌های معتبر، جایگاه خود را در زمینه جستجو و تولید محتوای مبتنی بر هوش مصنوعی تثبیت کنند. 

آینده این حوزه به توانایی متخصصان در ایجاد تعادل میان نوآوری و اعتماد وابسته است؛ تعادلی که می‌تواند به شکل‌گیری اکوسیستمی شفاف‌تر، پاسخگوتر و در نهایت قابل اعتمادتر منجر شود.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا