بازیابی اطلاعات (IR) در یادگیری ماشین چیست؟

بازیابی اطلاعات به عنوان یک روش کاملاً خودکار تعریف می‌شود که با بررسی گروهی از اسناد و تولید یک لیست اسناد مرتب شده که باید با معیارهای درخواست کاربر مرتبط باشد، به سؤال کاربر پاسخ می‌دهد. در نتیجه، مجموعه‌ای از الگوریتم‌هاست که ارتباط مطالب ارائه شده را با پرس‌و‌جوهای جستجو شده بهبود می‌بخشد. به عبارت دیگر، محتوا را براساس درخواست کاربر مرتب و رتبه‌بندی می‌کند. در پرس‌و‌جو و محتوای موجود در سند، یکپارچگی وجود دارد تا امکان دسترسی به سند فراهم شود.

مدل بازیابی اطلاعات چیست؟

یک مدل بازیابی (IR) صفحات مربوطه را براساس پرس‌و‌جوی کاربر انتخاب و رتبه‌بندی می‌کند. انتخاب و رتبه‌بندی سند را می‌توان با استفاده از توابع تطبیقی که مقادیر وضعیت بازیابی (RSV) را برای هر سند در یک مجموعه برمی‌گرداند، رسمیت بخشید، زیرا اسناد و پرس‌و‌جوها به یک روش نوشته می‌شوند. اکثر سیستم‌های IR محتوای سند را با استفاده از مجموعه‌ای از توصیف‌گرهای شناخته شده به‌عنوان کلمات از واژگان Vبه تصویر می‌کشند.

تابع تطبیق پرس و جو و سند در یک مدل IR به روش های زیر تعریف می‌شود:

● تخمین احتمال ارتباط کاربر برای هر صفحه و پرس‌و‌جو در رابطه با مجموعه‌ای از اسناد آموزشی q.

● در یک فضای برداری، تابع شباهت بین پرس و جوها و اسناد محاسبه می‌شود.

انواع مدل‌های بازیابی اطلاعات

● مدل کلاسیک IR

این ابتدایی‌ترین و ساده‌ترین مدل IR است. این نمونه بر اساس اطلاعات ریاضی است که به راحتی قابل تشخیص و درک است. سه مدل IR سنتی عبارتند از بولی، بردار و احتمالی.

● مدل IR غیر کلاسیک

این کاملاً مخالف مدل IR سنتی است. علاوه بر احتمال، شباهت و عملیات بولی، چنین مدل‌های IR مبتنی بر ایده‌های دیگری هستند. مدل‌های غیرکلاسیک IR شامل مدل‌های نظریه موقعیت، مدل‌های منطق اطلاعات و مدل‌های تعامل هستند.

● مدل IR جایگزین

این یک پیشرفت در مدل سنتی IR است که از برخی رویکردهای منحصر به فرد از حوزه های دیگر استفاده می‌کند. مدل‌های IR جایگزین شامل مدل‌های فازی، مدل‌های خوشه‌ای و مدل‌های نمایه‌سازی معنایی پنهان (LSI) هستند.

مسئله کلاسیک در سیستم بازیابی اطلاعات (IR)

بازیابی Ad-hoc مشکل کلاسیک در یک سیستم بازیابی اطلاعات است. مسائل بازیابی موقت، نوعی مشکل کلاسیک در نمونه بازیابی اطلاعات است که در آن یک پرس‌و‌جو به زبان طبیعی برای به دست آوردن اطلاعات مربوطه ارائه می‌شود.

پس از بازگشت پرس‌و‌جو، اطلاعاتی که معیارهای جستجوی ما را برآورده نمی‌کنند، به یک مشکل بازیابی موقت تبدیل می‌شوند. به عنوان مثال، فرض کنید چیزی را در اینترنت جستجو می‌کنیم و برخی از سایت‌های خاص مرتبط با جستجوی ما را برمی‌گرداند، اما ممکن است نتایج غیر مرتبطی نیز وجود داشته باشد. این به دلیل مشکل بازیابی موقت است.

مولفه‌های بازیابی اطلاعات/ مدل IR

● اکتساب

اسناد و موارد دیگر از وب سایت‌های مختلف انتخاب می‌شوند.

1.اسنادی که عمدتاً مبتنی بر متن یا کل متون، عنوان و چکیده هستند.

2.سایر اشیاء مبتنی بر تحقیق مانند داده‌ها، آمار، عکس‌ها، نقشه‌ها، حق چاپ، مناظر صوتی و غیره…

3.جستجوگرهای وب، داده‌ها را می‌گیرند و در یک پایگاه داده ذخیره می‌کنند.

● نمایندگی

نمایش سیستم بازیابی اطلاعات عمدتاً شامل نمایه‌سازی موارد زیر است:

● نمایه‌سازی ممکن است به روش‌های مختلفی انجام شود، از جمله کلمات کلیدی متن آزاد (حتی در کل متون) یا واژگان تنظیم‌شده، فرهنگ جامع یا روش‌های دستی و خودکار.

● جمع بندی و چکیده

● اطلاعات کتابشناختی: نویسنده، عنوان، منابع، تاریخ و غیره.

● اطلاعات در مورد اَبَرداده

● طبقه بندی و خوشه‌بندی

● سازماندهی میدانی و محدود

● شاخص پایه، محدودیت‌های شاخص تکمیلی

● سازماندهی پرونده

به طور عمده دو دسته سازماندهی پرونده وجود دارد که عبارتند از: ترتیبی و معکوس. مخلوط این دو ترکیبی است.

ترتیبی: اسناد را بر اساس داده‌های سند سازماندهی می‌کند.

معکوس شده: فهرستی از رکوردها را در زیر هر عبارت، اصطلاح به اصطلاح ارائه می‌دهد.

ترکیبی: ترکیب شاخص‌های معکوس و همچنین اسناد متوالی.

هنگامی که فقط نقل قول‌ها بازیابی می‌شوند، نیازی به فایل‌های سند وجود ندارد. این منجر به رویکردهایی برای فایل‌های بزرگ و کارایی بازیابی رایانه می‌شود.

● پرس و جو

هنگامی که کاربر یک پرس و جو را به سیستم وارد می‌کند، یک فرآیند IR آغاز می‌شود. پرس‌و‌جوها، مانند رشته‌های جستجو در موتورهای جستجوی وب، بازنمایی صریح درخواست‌های اطلاعاتی هستند. یک پرس‌و‌جو در سیستم بازیابی اطلاعات به طور منحصر به فرد یک شی خاص را در یک مجموعه شناسایی نمی‌کند. در عوض، موارد متعددی شاید با درجات مختلف اهمیت، ممکن است با پرس و جو مطابقت داشته باشند.

اهمیت سیستم بازیابی اطلاعات

با افزایش قدرت محاسباتی و کاهش هزینه‌های ذخیره‌سازی، تعداد داده‌هایی که روزانه با آنها سروکار داریم به شدت افزایش می‌یابد. با این حال، بدون مکانیزمی برای به دست آوردن و جستجوی داده‌ها، اطلاعاتی که جمع‌آوری می‌کنیم بی‌فایده است. سیستم بازیابی اطلاعات برای درک داده‌ها حیاتی است. در نظر بگیرید که کشف اطلاعات در اینترنت بدون گوگل یا سایر موتورهای جستجو چقدر دشوار خواهد بود. بدون روش های بازیابی اطلاعات، اطلاعات دانش نیستند.

سیستم‌های نمایه‌سازی و بازیابی متن ممکن است داده‌ها را در این مخازن داده فهرست‌بندی کنند و به کاربران اجازه دهند تا بر اساس آن جستجو کنند. بنابراین، سیستم‌های بازیابی به کاربران دسترسی آنلاین به اطلاعاتی را که ممکن است از آنها آگاه نباشند، ارائه می‌دهند و آنها ملزم به دانستن یا اهمیت دادن به محل نگهداری اطلاعات نیستند. کاربران می‌توانند تمام اطلاعاتی را که مدیر تصمیم گرفته است تا با یک جستجو فهرست کند استعلام کنند.

تفاوت بین بازیابی اطلاعات و بازیابی داده‌ها

بازیابی داده‌ها (یک سیستم مدیریت پایگاه داده یا DBMS) با داده‌های ساختار یافته با معنایی کاملاً تعریف شده کار می‌کند، در حالیکه IR با داده‌های بدون ساختار و نیمه ساختار یافته سر و کار دارد. هنگامی که یک سیستم DBMS پرس‌و‌جو می‌شود، نتایج دقیق و صریح را برمی‌گرداند یا در صورت عدم تطابق دقیق، هیچ نتیجه‌ای را نمی‌دهد. در مقابل، پرس‌و‌جو از یک سیستم IR نتایج متعددی را با رتبه‌بندی به همراه دارد. خطاهای کوچک در سیستم بازیابی اطلاعات احتمالاً مورد توجه قرار نمی‌گیرند، اما یک شی خطا نشان دهنده شکست کامل در بازیابی داده است.

تعامل کاربر با سیستم بازیابی اطلاعات

● وظیفه کاربر

همه چیز با تبدیل اطلاعات توسط کاربر به یک پرس‌و‌جو شروع می‌شود. در یک سیستم بازیابی اطلاعات، مجموعه‌ای از کلمات برای انتقال معنایی اطلاعات درخواست شده استفاده می‌شود، در حالیکه، در یک سیستم بازیابی داده، یک عبارت پرس‌و‌جو برای انتقال محدودیت‌هایی که اشیاء برآورده می‌کنند استفاده می‌شود. برای مثال، فرض کنید شخصی قصد دارد چیزی را جستجو کند اما در نهایت به دنبال چیز دیگری می‌گردد. این نشان می‌دهد که فرد به جای جستجو در حال گشت و گذار است. گرافیک بالا درگیری کاربر با چندین کار را نشان می‌دهد.

● نمای منطقی اسناد

اسناد قبلاً با مجموعه‌ای از اصطلاحات یا کلمات کلیدی شاخص مشخص می‌شدند. در حال حاضر، رایانه‌های جدید اسناد را با استفاده از مجموعه‌ای کامل از کلمات به تصویر می‌کشند و تعداد کلمات کلیدی نماینده را کاهش می‌دهند. این را می‌توان با حذف کلمات توقف مانند مقالات و اتصالات انجام داد. عملیات متن همان چیزی است که هستند. این عملیات متنی پیچیدگی نمایش سند را از متن کامل به مجموعه‌ای از اصطلاحات شاخص کاهش می‌دهد.

گذشته، حال و آینده بازیابی اطلاعات

انسان نزدیک به 4000 سال است که دانش را برای بازیابی و استفاده سازماندهی می‌کند. یک مثال رایج، فهرست مطالب یک کتاب است. از آنجایی که حجم اطلاعات فراتر از چند جلد توسعه یافت، ایجاد ساختارهای داده تخصصی برای دسترسی سریعتر به داده‌های ذخیره شده ضروری شد.

شاخص یک ساختار داده قدیمی و محبوب برای بازیابی سریعتر اطلاعات است. این مجموعه‌ای از کلمات یا مفاهیم انتخاب شده با اشاره‌گرهای مرتبط به اطلاعات (یا اسناد) مرتبط است. شاخص‌ها، به هر شکلی، در قلب هر سیستم بازیابی اطلاعات معاصر قرار دارند. آنها به داده‌ها دسترسی سریع‌تری می‌دهند و اجازه می‌دهند عملیات پردازش پرس‌و‌جو سرعت بیشتری بگیرد.

برای هزاران سال، شاخص‌ها به صورت دستی به عنوان سلسله مراتب طبقه‌بندی ساخته می‌شدند. اخیراً، توسعه رایانه‌های قدرتمند امکان جمع‌آوری خودکار فهرست‌های عظیم را فراهم کرده است. نمایه‌های خودکار نمایی از مشکل بازیابی را ارائه می‌دهند که به طور قابل توجهی بیشتر به سیستم مرتبط است تا نیاز کاربر.

کتابخانه‌ها جزو اولین مؤسساتی بودند که فناوری‌های بازیابی اطلاعات را پیاده سازی کردند. در نسل اولیه، چنین سیستم‌هایی اساساً اتوماسیون فناوری‌های موجود (مانند کاتالوگ‌های کارت) بودند و امکان جستجو بر اساس نام و عنوان نویسنده را داشتند. افزایش قابلیت‌های جستجو در نسل دوم گنجانده شد که امکان جستجو بر اساس سرصفحه‌های موضوعی، کلمات کلیدی و برخی امکانات پیچیده‌تر پرس‌و‌جو را فراهم می‌کرد.

تاکید نسخه سوم، که اکنون در حال استفاده است، بر رابط‌های گرافیکی پیشرفته، فرم‌های الکترونیکی، عملکرد فرامتن و طراحی سیستم باز است. به دلیل پیشرفت در فناوری رایانه فعلی و رشد اینترنت، چندین تغییر اساسی و مهم رخ داده است.

اول، دسترسی به منابع اطلاعاتی متعدد به طور قابل توجهی ارزان ‌تر شد. این امکان دسترسی به مخاطبان بیشتری را نسبت به آنچه قبلا امکان پذیر بود، فراهم می‌کند. دوم، پیشرفت در تمام اشکال ارتباطات دیجیتال، دسترسی به شبکه را افزایش داد. این نشان می‌دهد که منبع اطلاعات حتی اگر در یک مکان دورافتاده واقع شده باشد قابل دسترسی می‌باشد و دسترسی سریع است. ثالثاً، آزادی آپلود هر اطلاعاتی که فرد ارزشمند بداند، به طور قابل توجهی به جذابیت وب کمک کرده است.

آیا تمایل به آشنایی با موقعیت شغلی کارشناس فناوری اطلاعات دارید؟اکنون بیاموزید.