جستجوی چندوجهی در Azure AI چگونه عمل می کند؟

جستجوی چندوجهی یا Multimodal search، به قابلیت پردازش، درک و بازیابی اطلاعات از چند نوع محتوای مختلف شامل متن، تصویر، ویدیو و صدا گفته می‌شود. در جستجوی چندوجهی در Azure AI، به‌صورت پیشفرض از دریافت اسناد حاوی متن، تصویر و همچنین بازیابی محتوای آنها پشتیبانی می‌کند. به طوری که امکان انجام جستجوهایی که ترکیبی از این دو نوع داده هستند فراهم می‌شود.

معمولاً ایجاد یک زنجیره پردازش چندوجهی قدرتمند، شامل مراحل زیر است:

  1. استخراج تصاویر موجود در متن و محتوای متنی از فایل ها
  2. توصیف تصاویر به زبان طبیعی
  3. تبدیل متن و تصاویر به بردارهای عددی در یک فضای مشترک
  4. ذخیره‌سازی تصاویر برای استفاده بعدی به‌عنوان توضیحات (Annotations)

برای جستجوی چندوجهی، لازم است ترتیب اطلاعات همانگونه که در فایل‌ها ظاهر می‌شود حفظ گردد و امکان اجرای جستجوهای ترکیبی که شامل جستجوی متنی کامل (Full-text search)، جستجوی برداری و رتبه‌بندی معنایی (Semantic Ranking) می شوند را داشته باشد.

در عمل، یک برنامه مجهز به جستجوی چندوجهی می‌تواند پرسش‌هایی نظیر «فرایند تایید یک فرم منابع انسانی چگونه است؟» را پاسخ دهد حتی اگر تنها توضیح معتبر دربارهٔ این فرایند، در قالب یک نمودار درون فایل PDF وجود داشته باشد.

نحوه عملکرد جستجوی چندوجهی در Azure AI

تصویر(۱)

چرا باید از جستجوی چندوجهی در Azure AI استفاده شود؟

در گذشته، جستجوی چندوجهی به سیستم‌های جداگانه‌ای برای پردازش متن و تصویر نیاز داشت که اغلب به کدنویسی سفارشی و پیکربندی‌های سطح پایین توسط توسعه‌دهندگان وابسته بودند. نگهداری از این سیستم‌ها هزینه، پیچیدگی و زمان بیشتری را به همراه داشت.

جستجوی چندوجهی در Azure AI، این چالش‌ها را توسط یکپارچه‌سازی تصاویر با زنجیره پردازش بازیابی اطلاعات متنی، برطرف کرده است. راه‌اندازی سیستم با استفاده از یک زنجیره پردازش یکپارچه چندوجهی، ساده‌تر شده و اطلاعاتی که در نمودارها، اسکرین‌شات‌ها، اینفوگرافیک‌ها، اسکن فرم‌ها و سایر محتواهای تصویری پیچیده قرار دارند، قابل استخراج خواهند بود.

جستجوی چندوجهی گزینه‌ای ایده‌آل برای سناریوهای بازیابی همراه با تولید (Retrieval-Augmented Generation – RAG) است. با درک منطق ساختاری تصاویر، این قابلیت باعث می‌شود اپلیکیشن یا عامل هوش مصنوعی دقت بیشتری در بررسی جزئیات تصویری داشته باشد. همچنین فارغ از متنی یا تصویری بودن منابع، پاسخ‌هایی دقیق و قابل ارجاع به منابع اصلی، ارائه می‌شود.

قابلیت های جستجوی چندوجهی در Azure AI

تصویر(۲)

عملکرد جستجوی چندوجهی در Azure AI

برای ساده‌سازی ایجاد پایپ لاین چندوجهی، Azure AI Search یک ابزار راه‌انداز (Wizard) با نام Import data (new) در پرتال Azure ارائه می‌دهد. این ابزار به کاربر کمک می‌کند تا منبع داده را پیکربندی کرده، تنظیمات استخراج و غنی‌سازی (Enrichment) را مشخص نماید و یک شاخص چندوجهی (Multimodal Index) بسازد که شامل متن، ارجاعات به تصاویر استخراج‌شده و نمایش بردارها (Vector Embeddings) است.

این Wizard، مراحل زیر را برای ساخت زنجیره پردازش چندوجهی طی می‌کند:

  1. استخراج محتوا: ابزار استخراج یا چیدمان متن، وظیفه دریافت متن صفحات، تصاویر موجود در آن و فراداده‌های ساختاریافته را بر عهده دارند. ابزار استخراج محتوا، از اشکال چندضلعی یا شماره صفحات پشتیبانی نمی‌کند و فرمت فایل‌های پشتیبانی‌شده نیز متفاوت هستند.
    برای استخراج یا حفظ ساختار جداول، باید یک وب API سفارشی بسازید که از Azure AI Content Understanding استفاده کند.
  2. بخش‌بندی متن:  ابزار Text Split، متن استخراج‌شده را به بخش‌هایی کوچک و قابل‌مدیریت تقسیم می‌کند تا در مراحل بعدی همچون Embedding، قابل استفاده باشد.
  3. توصیف تصاویر: ابزار GenAI Prompt تصاویر را به زبان طبیعی خلاصه و توصیف می‌کند. این توصیف‌ها برای جستجوی متنی و ایجاد Embedding به کمک مدل‌های زبانی بزرگ (LLM) کاربرد دارند.
  4. ایجاد Embedding: ابزار Embedding متن و تصویر را به بردارهای عددی تبدیل می‌کند تا بتوان از طریق آنها جستجوی مبتنی بر شباهت یا ترکیبی انجام داد. می‌توان به‌صورت مستقیم از مدل‌های Azure OpenAI، Azure AI Foundry یا Azure AI Vision استفاده نمود.
    در صورت نیاز، می‌توان مرحله توصیف تصویر را حذف کرده و متن و تصاویر استخراج‌شده را مستقیماً از طریق ابزار AML یا Azure AI Vision multimodal embeddings به مدل Embedding چندوجهی ارسال نمود.
  5. ذخیره‌سازی تصاویر استخراج‌شده: Knowledge Store تصاویر استخراج‌شده را نگهداری می‌کند تا مستقیماً در اختیار برنامه‌های کلاینت قرار گیرند. در این روش، موقعیت مکانی تصویر درون شاخص چندوجهی ذخیره می‌شود و امکان بازیابی ساده در زمان درخواست آن را فراهم می‌سازد.

ابزارهای جستجوی چندوجهی در Azure AI

تصویر(۳)

ابزارهای موجود برای استخراج محتوای چندوجهی

زنجیره پردازش چندوجهی، با تجزیه هر فایل به بخش‌های متنی، تصاویر داخل متن و متادیتای مربوطه، آغاز می‌شود. جستجوی چندوجهی در Azure AI، برای این مرحله دو ابزار داخلی استخراج و چیدمان متن را ارائه می‌دهد. هر دو ابزار، قابلیت استخراج متن و تصویر را دارند اما در میزان جزئیات چیدمان، متادیتای خروجی و هزینه متفاوت هستند.

ویژگی

ابزار استخراج متن

ابزار چیدمان متن

استخراج متادیتای موقعیت متن (شامل صفحات و چندضلعی‌ها)

خیر

بله

استخراج متادیتای موقعیت تصویر (شامل صفحات و چندضلعی‌ها)

بله

بله

استخراج متادیتا بر اساس نوع فایل

فقط فایل‌های PDF

پشتیبانی از انواع مختلف فایل طبق مدل چیدمان Azure AI Document Intelligence

نحوه محاسبه هزینه استخراج داده

استخراج تصویر طبق تعرفه جستجوی مبتنی بر هوش مصنوعی Azure محاسبه می‌شود.

طبق تعرفه مربوط به چیدمان متن محاسبه می‌شود.

سناریوهای پیشنهادی

برای نمونه‌سازی سریع یا روندهای پردازشی تولیدی که به موقعیت دقیق یا جزئیات چیدمان نیاز ندارند.

برای روندهای RAG و وظایف مبتنی بر عامل که به شماره صفحه دقیق، هایلایت‌های داخل صفحه یا نمایش نمودارها در رابط کاربری نیاز دارند.

جدول(۱)

همچنین، می‌توان از یک ابزار سفارشی برای فراخوانی مستقیم Azure AI Content Understanding استفاده کرد؛ قابلیتی که به‌صورت پیشفرض توسط جستجوی چندوجهی در Azure AI پشتیبانی نمی‌شود اما برای استخراج محتوای چندوجهی کاربرد دارد.

ابزارهایی برای نمایش محتوای چندوجهی

جستجوی چندوجهی در Azure AI، بازیابی اطلاعات تصاویر را از دو مسیر مکمل توصیف تصویری (Image Verbalization) یا نمایش مستقیم (Direct Embeddings) امکان‌پذیر می نماید. شناخت تفاوت این دو رویکرد، کمک می‌کند تا بتوان هزینه، زمان پاسخ و کیفیت نتایج را متناسب با نیاز اپلیکیشن تنظیم نمود.

 نمایش محتوای چندوجهی در هوش مصنوعی Azure

تصویر(۴)

۱. توصیف تصویر و سپس نمایش متن

در این روش ابزار GenAI Prompt هنگام دریافت داده‌ها، از یک مدل زبانی بزرگ (LLM) استفاده می‌کند تا برای هر تصویر استخراج‌شده، یک توضیح مختصر و طبیعی تولید نماید؛ این توصیف به‌صورت متن ذخیره می‌شود و در کنار متن اطراف آن، قرار می گیرد تا بتوان آن را با استفاده از مدل‌های Azure OpenAI، Azure AI Foundry یا Azure AI Vision به بردار تبدیل کرد.

از آنجایی که اکنون خروجی تصویر به یک زبان تبدیل شده، جستجوی مبتنی بر هوش مصنوعی Azure می‌تواند:

  • روابط و موجودیت‌های موجود در نمودارها را تحلیل نماید.
  • کپشن‌های آماده‌ای تولید کند که یک مدل زبانی بتواند به همان صورت در پاسخ‌ها از آنها استفاده نماید.
  • بخش‌های مرتبط را برای اپلیکیشن‌های RAG بازگرداند.

افزایش عمق معنایی، مستلزم یک فراخوانی به LLM برای هر تصویر و همچنین افزایش جزئی در زمان indexing است.

۲. نمایش مستقیم چندوجهی

روش دوم، ارسال مستقیم تصاویر و متون استخراج‌شده به یک مدل نمایش چندوجهی است که آنها را در یک فضای برداری مشترک قرار می دهد. تنظیمات این روش ساده است و در زمان ایندکس‌کردن نیازی به استفاده از مدل‌های زبانی ندارد. این روش برای سناریوهایی مانند جستجوی مبتنی بر شباهت بصری بسیار مناسب است. از آنجا که این نوع نمایش کاملا ریاضیاتی است، نمی‌تواند توضیحی درباره‌ دلیل ارتباط بین دو تصویر ارائه دهد.

۳. ترکیب هر دو روش

بسیاری از راهکارها به استفاده همزمان از هر دو مسیر نیاز دارند. نمودارها، فلوچارت‌ها و سایر تصاویر توضیح‌محور باید توصیف شوند تا اطلاعات معنایی برای استفاده در RAG و عوامل هوشمند فراهم گردد. در مقابل، اسکرین‌شات‌ها، تصاویر محصول یا آثار هنری به‌صورت مستقیم نمایش داده می‌شوند تا امکان جستجوی سریع بر اساس شباهت وجود داشته باشد.

با استفاده از قابلیت‌های سفارشی‌سازی در جستجوی مبتنی بر هوش مصنوعی Azure، می‌توان ایندکس و زنجیره پردازش را به گونه ای پیکربندی نمود که هر دو نوع بردار را ذخیره کرده و هنگام جستجو، به‌صورت همزمان بازیابی نماید.

ابزارهای جستجو در محتوای چندوجهی

اگر زنجیره پردازش چندوجهی با ابزار GenAI Prompt راه‌اندازی شده باشد، می‌توان جستجوهای ترکیبی را روی متن‌های معمولی و تصاویر توصیف‌شده انجام داد. همچنین این امکان وجود دارد که توسط فیلترگذاری، نتایج جستجو را به انواع خاصی از محتوا، برای مثال فقط متن یا فقط تصویر، محدود کرد.

هرچند ابزار GenAI Prompt از جستجوهای مبتنی بر تبدیل متن به بردار در حالت ترکیبی پشتیبانی می‌کند اما قابلیت تبدیل تصویر به بردار را ندارد. تنها مدل‌های نمایش چندوجهی هستند که امکان تبدیل تصاویر به بردار را در زمان جستجو فراهم می‌کنند. برای استفاده از تصاویر به‌عنوان ورودی جستجو در ایندکس چندوجهی، باید ابزار AML یا Azure AI Vision Multimodal Embeddings به همراه equivalent vectorizer (بردارساز معادل) به کار رود.

جمع بندی

جستجوی چندوجهی در Azure AI به‌عنوان یک ابزار قدرتمند برای مدیریت و بازیابی مؤثر اطلاعات شناخته می شود. این فناوری توسط ترکیب فیلترهای چندبعدی، رتبه‌بندی هوشمند و یکپارچگی با سایر سرویس‌های Azure، امکان تحلیل دقیق و ارائه نتایج هدفمند را فراهم می‌کند. بهره‌گیری از این قابلیت‌ها می‌تواند کیفیت تصمیم‌گیری و تجربه کاربری را به‌طور قابل‌توجهی بهبود بخشد و نقش مهمی در توسعه ابزارهای هوشمند سازمان‌ها ایفا کند.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا