جستجوی چندوجهی یا Multimodal search، به قابلیت پردازش، درک و بازیابی اطلاعات از چند نوع محتوای مختلف شامل متن، تصویر، ویدیو و صدا گفته میشود. در جستجوی چندوجهی در Azure AI، بهصورت پیشفرض از دریافت اسناد حاوی متن، تصویر و همچنین بازیابی محتوای آنها پشتیبانی میکند. به طوری که امکان انجام جستجوهایی که ترکیبی از این دو نوع داده هستند فراهم میشود.
معمولاً ایجاد یک زنجیره پردازش چندوجهی قدرتمند، شامل مراحل زیر است:
- استخراج تصاویر موجود در متن و محتوای متنی از فایل ها
- توصیف تصاویر به زبان طبیعی
- تبدیل متن و تصاویر به بردارهای عددی در یک فضای مشترک
- ذخیرهسازی تصاویر برای استفاده بعدی بهعنوان توضیحات (Annotations)
برای جستجوی چندوجهی، لازم است ترتیب اطلاعات همانگونه که در فایلها ظاهر میشود حفظ گردد و امکان اجرای جستجوهای ترکیبی که شامل جستجوی متنی کامل (Full-text search)، جستجوی برداری و رتبهبندی معنایی (Semantic Ranking) می شوند را داشته باشد.
در عمل، یک برنامه مجهز به جستجوی چندوجهی میتواند پرسشهایی نظیر «فرایند تایید یک فرم منابع انسانی چگونه است؟» را پاسخ دهد حتی اگر تنها توضیح معتبر دربارهٔ این فرایند، در قالب یک نمودار درون فایل PDF وجود داشته باشد.

تصویر(۱)
چرا باید از جستجوی چندوجهی در Azure AI استفاده شود؟
در گذشته، جستجوی چندوجهی به سیستمهای جداگانهای برای پردازش متن و تصویر نیاز داشت که اغلب به کدنویسی سفارشی و پیکربندیهای سطح پایین توسط توسعهدهندگان وابسته بودند. نگهداری از این سیستمها هزینه، پیچیدگی و زمان بیشتری را به همراه داشت.
جستجوی چندوجهی در Azure AI، این چالشها را توسط یکپارچهسازی تصاویر با زنجیره پردازش بازیابی اطلاعات متنی، برطرف کرده است. راهاندازی سیستم با استفاده از یک زنجیره پردازش یکپارچه چندوجهی، سادهتر شده و اطلاعاتی که در نمودارها، اسکرینشاتها، اینفوگرافیکها، اسکن فرمها و سایر محتواهای تصویری پیچیده قرار دارند، قابل استخراج خواهند بود.
جستجوی چندوجهی گزینهای ایدهآل برای سناریوهای بازیابی همراه با تولید (Retrieval-Augmented Generation – RAG) است. با درک منطق ساختاری تصاویر، این قابلیت باعث میشود اپلیکیشن یا عامل هوش مصنوعی دقت بیشتری در بررسی جزئیات تصویری داشته باشد. همچنین فارغ از متنی یا تصویری بودن منابع، پاسخهایی دقیق و قابل ارجاع به منابع اصلی، ارائه میشود.

تصویر(۲)
عملکرد جستجوی چندوجهی در Azure AI
برای سادهسازی ایجاد پایپ لاین چندوجهی، Azure AI Search یک ابزار راهانداز (Wizard) با نام Import data (new) در پرتال Azure ارائه میدهد. این ابزار به کاربر کمک میکند تا منبع داده را پیکربندی کرده، تنظیمات استخراج و غنیسازی (Enrichment) را مشخص نماید و یک شاخص چندوجهی (Multimodal Index) بسازد که شامل متن، ارجاعات به تصاویر استخراجشده و نمایش بردارها (Vector Embeddings) است.
این Wizard، مراحل زیر را برای ساخت زنجیره پردازش چندوجهی طی میکند:
- استخراج محتوا: ابزار استخراج یا چیدمان متن، وظیفه دریافت متن صفحات، تصاویر موجود در آن و فرادادههای ساختاریافته را بر عهده دارند. ابزار استخراج محتوا، از اشکال چندضلعی یا شماره صفحات پشتیبانی نمیکند و فرمت فایلهای پشتیبانیشده نیز متفاوت هستند.
برای استخراج یا حفظ ساختار جداول، باید یک وب API سفارشی بسازید که از Azure AI Content Understanding استفاده کند. - بخشبندی متن: ابزار Text Split، متن استخراجشده را به بخشهایی کوچک و قابلمدیریت تقسیم میکند تا در مراحل بعدی همچون Embedding، قابل استفاده باشد.
- توصیف تصاویر: ابزار GenAI Prompt تصاویر را به زبان طبیعی خلاصه و توصیف میکند. این توصیفها برای جستجوی متنی و ایجاد Embedding به کمک مدلهای زبانی بزرگ (LLM) کاربرد دارند.
- ایجاد Embedding: ابزار Embedding متن و تصویر را به بردارهای عددی تبدیل میکند تا بتوان از طریق آنها جستجوی مبتنی بر شباهت یا ترکیبی انجام داد. میتوان بهصورت مستقیم از مدلهای Azure OpenAI، Azure AI Foundry یا Azure AI Vision استفاده نمود.
در صورت نیاز، میتوان مرحله توصیف تصویر را حذف کرده و متن و تصاویر استخراجشده را مستقیماً از طریق ابزار AML یا Azure AI Vision multimodal embeddings به مدل Embedding چندوجهی ارسال نمود. - ذخیرهسازی تصاویر استخراجشده: Knowledge Store تصاویر استخراجشده را نگهداری میکند تا مستقیماً در اختیار برنامههای کلاینت قرار گیرند. در این روش، موقعیت مکانی تصویر درون شاخص چندوجهی ذخیره میشود و امکان بازیابی ساده در زمان درخواست آن را فراهم میسازد.

تصویر(۳)
ابزارهای موجود برای استخراج محتوای چندوجهی
زنجیره پردازش چندوجهی، با تجزیه هر فایل به بخشهای متنی، تصاویر داخل متن و متادیتای مربوطه، آغاز میشود. جستجوی چندوجهی در Azure AI، برای این مرحله دو ابزار داخلی استخراج و چیدمان متن را ارائه میدهد. هر دو ابزار، قابلیت استخراج متن و تصویر را دارند اما در میزان جزئیات چیدمان، متادیتای خروجی و هزینه متفاوت هستند.
|
ویژگی |
ابزار استخراج متن |
ابزار چیدمان متن |
|
استخراج متادیتای موقعیت متن (شامل صفحات و چندضلعیها) |
خیر |
بله |
|
استخراج متادیتای موقعیت تصویر (شامل صفحات و چندضلعیها) |
بله |
بله |
|
استخراج متادیتا بر اساس نوع فایل |
فقط فایلهای PDF |
پشتیبانی از انواع مختلف فایل طبق مدل چیدمان Azure AI Document Intelligence |
|
نحوه محاسبه هزینه استخراج داده |
استخراج تصویر طبق تعرفه جستجوی مبتنی بر هوش مصنوعی Azure محاسبه میشود. |
طبق تعرفه مربوط به چیدمان متن محاسبه میشود. |
|
سناریوهای پیشنهادی |
برای نمونهسازی سریع یا روندهای پردازشی تولیدی که به موقعیت دقیق یا جزئیات چیدمان نیاز ندارند. |
برای روندهای RAG و وظایف مبتنی بر عامل که به شماره صفحه دقیق، هایلایتهای داخل صفحه یا نمایش نمودارها در رابط کاربری نیاز دارند. |
جدول(۱)
همچنین، میتوان از یک ابزار سفارشی برای فراخوانی مستقیم Azure AI Content Understanding استفاده کرد؛ قابلیتی که بهصورت پیشفرض توسط جستجوی چندوجهی در Azure AI پشتیبانی نمیشود اما برای استخراج محتوای چندوجهی کاربرد دارد.
ابزارهایی برای نمایش محتوای چندوجهی
جستجوی چندوجهی در Azure AI، بازیابی اطلاعات تصاویر را از دو مسیر مکمل توصیف تصویری (Image Verbalization) یا نمایش مستقیم (Direct Embeddings) امکانپذیر می نماید. شناخت تفاوت این دو رویکرد، کمک میکند تا بتوان هزینه، زمان پاسخ و کیفیت نتایج را متناسب با نیاز اپلیکیشن تنظیم نمود.

تصویر(۴)
۱. توصیف تصویر و سپس نمایش متن
در این روش ابزار GenAI Prompt هنگام دریافت دادهها، از یک مدل زبانی بزرگ (LLM) استفاده میکند تا برای هر تصویر استخراجشده، یک توضیح مختصر و طبیعی تولید نماید؛ این توصیف بهصورت متن ذخیره میشود و در کنار متن اطراف آن، قرار می گیرد تا بتوان آن را با استفاده از مدلهای Azure OpenAI، Azure AI Foundry یا Azure AI Vision به بردار تبدیل کرد.
از آنجایی که اکنون خروجی تصویر به یک زبان تبدیل شده، جستجوی مبتنی بر هوش مصنوعی Azure میتواند:
- روابط و موجودیتهای موجود در نمودارها را تحلیل نماید.
- کپشنهای آمادهای تولید کند که یک مدل زبانی بتواند به همان صورت در پاسخها از آنها استفاده نماید.
- بخشهای مرتبط را برای اپلیکیشنهای RAG بازگرداند.
افزایش عمق معنایی، مستلزم یک فراخوانی به LLM برای هر تصویر و همچنین افزایش جزئی در زمان indexing است.
۲. نمایش مستقیم چندوجهی
روش دوم، ارسال مستقیم تصاویر و متون استخراجشده به یک مدل نمایش چندوجهی است که آنها را در یک فضای برداری مشترک قرار می دهد. تنظیمات این روش ساده است و در زمان ایندکسکردن نیازی به استفاده از مدلهای زبانی ندارد. این روش برای سناریوهایی مانند جستجوی مبتنی بر شباهت بصری بسیار مناسب است. از آنجا که این نوع نمایش کاملا ریاضیاتی است، نمیتواند توضیحی درباره دلیل ارتباط بین دو تصویر ارائه دهد.
۳. ترکیب هر دو روش
بسیاری از راهکارها به استفاده همزمان از هر دو مسیر نیاز دارند. نمودارها، فلوچارتها و سایر تصاویر توضیحمحور باید توصیف شوند تا اطلاعات معنایی برای استفاده در RAG و عوامل هوشمند فراهم گردد. در مقابل، اسکرینشاتها، تصاویر محصول یا آثار هنری بهصورت مستقیم نمایش داده میشوند تا امکان جستجوی سریع بر اساس شباهت وجود داشته باشد.
با استفاده از قابلیتهای سفارشیسازی در جستجوی مبتنی بر هوش مصنوعی Azure، میتوان ایندکس و زنجیره پردازش را به گونه ای پیکربندی نمود که هر دو نوع بردار را ذخیره کرده و هنگام جستجو، بهصورت همزمان بازیابی نماید.
ابزارهای جستجو در محتوای چندوجهی
اگر زنجیره پردازش چندوجهی با ابزار GenAI Prompt راهاندازی شده باشد، میتوان جستجوهای ترکیبی را روی متنهای معمولی و تصاویر توصیفشده انجام داد. همچنین این امکان وجود دارد که توسط فیلترگذاری، نتایج جستجو را به انواع خاصی از محتوا، برای مثال فقط متن یا فقط تصویر، محدود کرد.
هرچند ابزار GenAI Prompt از جستجوهای مبتنی بر تبدیل متن به بردار در حالت ترکیبی پشتیبانی میکند اما قابلیت تبدیل تصویر به بردار را ندارد. تنها مدلهای نمایش چندوجهی هستند که امکان تبدیل تصاویر به بردار را در زمان جستجو فراهم میکنند. برای استفاده از تصاویر بهعنوان ورودی جستجو در ایندکس چندوجهی، باید ابزار AML یا Azure AI Vision Multimodal Embeddings به همراه equivalent vectorizer (بردارساز معادل) به کار رود.
جمع بندی
جستجوی چندوجهی در Azure AI بهعنوان یک ابزار قدرتمند برای مدیریت و بازیابی مؤثر اطلاعات شناخته می شود. این فناوری توسط ترکیب فیلترهای چندبعدی، رتبهبندی هوشمند و یکپارچگی با سایر سرویسهای Azure، امکان تحلیل دقیق و ارائه نتایج هدفمند را فراهم میکند. بهرهگیری از این قابلیتها میتواند کیفیت تصمیمگیری و تجربه کاربری را بهطور قابلتوجهی بهبود بخشد و نقش مهمی در توسعه ابزارهای هوشمند سازمانها ایفا کند.
