بازیابی اطلاعات به عنوان یک روش کاملاً خودکار تعریف میشود که با بررسی گروهی از اسناد و تولید یک لیست اسناد مرتب شده که باید با معیارهای درخواست کاربر مرتبط باشد، به سؤال کاربر پاسخ میدهد. در نتیجه، مجموعهای از الگوریتمهاست که ارتباط مطالب ارائه شده را با پرسوجوهای جستجو شده بهبود میبخشد. به عبارت دیگر، محتوا را براساس درخواست کاربر مرتب و رتبهبندی میکند. در پرسوجو و محتوای موجود در سند، یکپارچگی وجود دارد تا امکان دسترسی به سند فراهم شود.
مدل بازیابی اطلاعات چیست؟
یک مدل بازیابی (IR) صفحات مربوطه را براساس پرسوجوی کاربر انتخاب و رتبهبندی میکند. انتخاب و رتبهبندی سند را میتوان با استفاده از توابع تطبیقی که مقادیر وضعیت بازیابی (RSV) را برای هر سند در یک مجموعه برمیگرداند، رسمیت بخشید، زیرا اسناد و پرسوجوها به یک روش نوشته میشوند. اکثر سیستمهای IR محتوای سند را با استفاده از مجموعهای از توصیفگرهای شناخته شده بهعنوان کلمات از واژگان Vبه تصویر میکشند.
تابع تطبیق پرس و جو و سند در یک مدل IR به روش های زیر تعریف میشود:
● تخمین احتمال ارتباط کاربر برای هر صفحه و پرسوجو در رابطه با مجموعهای از اسناد آموزشی q.
● در یک فضای برداری، تابع شباهت بین پرس و جوها و اسناد محاسبه میشود.
انواع مدلهای بازیابی اطلاعات
● مدل کلاسیک IR
این ابتداییترین و سادهترین مدل IR است. این نمونه بر اساس اطلاعات ریاضی است که به راحتی قابل تشخیص و درک است. سه مدل IR سنتی عبارتند از بولی، بردار و احتمالی.
● مدل IR غیر کلاسیک
این کاملاً مخالف مدل IR سنتی است. علاوه بر احتمال، شباهت و عملیات بولی، چنین مدلهای IR مبتنی بر ایدههای دیگری هستند. مدلهای غیرکلاسیک IR شامل مدلهای نظریه موقعیت، مدلهای منطق اطلاعات و مدلهای تعامل هستند.
● مدل IR جایگزین
این یک پیشرفت در مدل سنتی IR است که از برخی رویکردهای منحصر به فرد از حوزه های دیگر استفاده میکند. مدلهای IR جایگزین شامل مدلهای فازی، مدلهای خوشهای و مدلهای نمایهسازی معنایی پنهان (LSI) هستند.
مسئله کلاسیک در سیستم بازیابی اطلاعات (IR)
بازیابی Ad-hoc مشکل کلاسیک در یک سیستم بازیابی اطلاعات است. مسائل بازیابی موقت، نوعی مشکل کلاسیک در نمونه بازیابی اطلاعات است که در آن یک پرسوجو به زبان طبیعی برای به دست آوردن اطلاعات مربوطه ارائه میشود.
پس از بازگشت پرسوجو، اطلاعاتی که معیارهای جستجوی ما را برآورده نمیکنند، به یک مشکل بازیابی موقت تبدیل میشوند. به عنوان مثال، فرض کنید چیزی را در اینترنت جستجو میکنیم و برخی از سایتهای خاص مرتبط با جستجوی ما را برمیگرداند، اما ممکن است نتایج غیر مرتبطی نیز وجود داشته باشد. این به دلیل مشکل بازیابی موقت است.
مولفههای بازیابی اطلاعات/ مدل IR
● اکتساب
اسناد و موارد دیگر از وب سایتهای مختلف انتخاب میشوند.
1.اسنادی که عمدتاً مبتنی بر متن یا کل متون، عنوان و چکیده هستند.
2.سایر اشیاء مبتنی بر تحقیق مانند دادهها، آمار، عکسها، نقشهها، حق چاپ، مناظر صوتی و غیره…
3.جستجوگرهای وب، دادهها را میگیرند و در یک پایگاه داده ذخیره میکنند.
● نمایندگی
نمایش سیستم بازیابی اطلاعات عمدتاً شامل نمایهسازی موارد زیر است:
● نمایهسازی ممکن است به روشهای مختلفی انجام شود، از جمله کلمات کلیدی متن آزاد (حتی در کل متون) یا واژگان تنظیمشده، فرهنگ جامع یا روشهای دستی و خودکار.
● جمع بندی و چکیده
● اطلاعات کتابشناختی: نویسنده، عنوان، منابع، تاریخ و غیره.
● اطلاعات در مورد اَبَرداده
● طبقه بندی و خوشهبندی
● سازماندهی میدانی و محدود
● شاخص پایه، محدودیتهای شاخص تکمیلی
● سازماندهی پرونده
به طور عمده دو دسته سازماندهی پرونده وجود دارد که عبارتند از: ترتیبی و معکوس. مخلوط این دو ترکیبی است.
ترتیبی: اسناد را بر اساس دادههای سند سازماندهی میکند.
معکوس شده: فهرستی از رکوردها را در زیر هر عبارت، اصطلاح به اصطلاح ارائه میدهد.
ترکیبی: ترکیب شاخصهای معکوس و همچنین اسناد متوالی.
هنگامی که فقط نقل قولها بازیابی میشوند، نیازی به فایلهای سند وجود ندارد. این منجر به رویکردهایی برای فایلهای بزرگ و کارایی بازیابی رایانه میشود.
● پرس و جو
هنگامی که کاربر یک پرس و جو را به سیستم وارد میکند، یک فرآیند IR آغاز میشود. پرسوجوها، مانند رشتههای جستجو در موتورهای جستجوی وب، بازنمایی صریح درخواستهای اطلاعاتی هستند. یک پرسوجو در سیستم بازیابی اطلاعات به طور منحصر به فرد یک شی خاص را در یک مجموعه شناسایی نمیکند. در عوض، موارد متعددی شاید با درجات مختلف اهمیت، ممکن است با پرس و جو مطابقت داشته باشند.
اهمیت سیستم بازیابی اطلاعات
با افزایش قدرت محاسباتی و کاهش هزینههای ذخیرهسازی، تعداد دادههایی که روزانه با آنها سروکار داریم به شدت افزایش مییابد. با این حال، بدون مکانیزمی برای به دست آوردن و جستجوی دادهها، اطلاعاتی که جمعآوری میکنیم بیفایده است. سیستم بازیابی اطلاعات برای درک دادهها حیاتی است. در نظر بگیرید که کشف اطلاعات در اینترنت بدون گوگل یا سایر موتورهای جستجو چقدر دشوار خواهد بود. بدون روش های بازیابی اطلاعات، اطلاعات دانش نیستند.
سیستمهای نمایهسازی و بازیابی متن ممکن است دادهها را در این مخازن داده فهرستبندی کنند و به کاربران اجازه دهند تا بر اساس آن جستجو کنند. بنابراین، سیستمهای بازیابی به کاربران دسترسی آنلاین به اطلاعاتی را که ممکن است از آنها آگاه نباشند، ارائه میدهند و آنها ملزم به دانستن یا اهمیت دادن به محل نگهداری اطلاعات نیستند. کاربران میتوانند تمام اطلاعاتی را که مدیر تصمیم گرفته است تا با یک جستجو فهرست کند استعلام کنند.
تفاوت بین بازیابی اطلاعات و بازیابی دادهها
بازیابی دادهها (یک سیستم مدیریت پایگاه داده یا DBMS) با دادههای ساختار یافته با معنایی کاملاً تعریف شده کار میکند، در حالیکه IR با دادههای بدون ساختار و نیمه ساختار یافته سر و کار دارد. هنگامی که یک سیستم DBMS پرسوجو میشود، نتایج دقیق و صریح را برمیگرداند یا در صورت عدم تطابق دقیق، هیچ نتیجهای را نمیدهد. در مقابل، پرسوجو از یک سیستم IR نتایج متعددی را با رتبهبندی به همراه دارد. خطاهای کوچک در سیستم بازیابی اطلاعات احتمالاً مورد توجه قرار نمیگیرند، اما یک شی خطا نشان دهنده شکست کامل در بازیابی داده است.
تعامل کاربر با سیستم بازیابی اطلاعات
● وظیفه کاربر
همه چیز با تبدیل اطلاعات توسط کاربر به یک پرسوجو شروع میشود. در یک سیستم بازیابی اطلاعات، مجموعهای از کلمات برای انتقال معنایی اطلاعات درخواست شده استفاده میشود، در حالیکه، در یک سیستم بازیابی داده، یک عبارت پرسوجو برای انتقال محدودیتهایی که اشیاء برآورده میکنند استفاده میشود. برای مثال، فرض کنید شخصی قصد دارد چیزی را جستجو کند اما در نهایت به دنبال چیز دیگری میگردد. این نشان میدهد که فرد به جای جستجو در حال گشت و گذار است. گرافیک بالا درگیری کاربر با چندین کار را نشان میدهد.
● نمای منطقی اسناد
اسناد قبلاً با مجموعهای از اصطلاحات یا کلمات کلیدی شاخص مشخص میشدند. در حال حاضر، رایانههای جدید اسناد را با استفاده از مجموعهای کامل از کلمات به تصویر میکشند و تعداد کلمات کلیدی نماینده را کاهش میدهند. این را میتوان با حذف کلمات توقف مانند مقالات و اتصالات انجام داد. عملیات متن همان چیزی است که هستند. این عملیات متنی پیچیدگی نمایش سند را از متن کامل به مجموعهای از اصطلاحات شاخص کاهش میدهد.
گذشته، حال و آینده بازیابی اطلاعات
انسان نزدیک به 4000 سال است که دانش را برای بازیابی و استفاده سازماندهی میکند. یک مثال رایج، فهرست مطالب یک کتاب است. از آنجایی که حجم اطلاعات فراتر از چند جلد توسعه یافت، ایجاد ساختارهای داده تخصصی برای دسترسی سریعتر به دادههای ذخیره شده ضروری شد.
شاخص یک ساختار داده قدیمی و محبوب برای بازیابی سریعتر اطلاعات است. این مجموعهای از کلمات یا مفاهیم انتخاب شده با اشارهگرهای مرتبط به اطلاعات (یا اسناد) مرتبط است. شاخصها، به هر شکلی، در قلب هر سیستم بازیابی اطلاعات معاصر قرار دارند. آنها به دادهها دسترسی سریعتری میدهند و اجازه میدهند عملیات پردازش پرسوجو سرعت بیشتری بگیرد.
برای هزاران سال، شاخصها به صورت دستی به عنوان سلسله مراتب طبقهبندی ساخته میشدند. اخیراً، توسعه رایانههای قدرتمند امکان جمعآوری خودکار فهرستهای عظیم را فراهم کرده است. نمایههای خودکار نمایی از مشکل بازیابی را ارائه میدهند که به طور قابل توجهی بیشتر به سیستم مرتبط است تا نیاز کاربر.
کتابخانهها جزو اولین مؤسساتی بودند که فناوریهای بازیابی اطلاعات را پیاده سازی کردند. در نسل اولیه، چنین سیستمهایی اساساً اتوماسیون فناوریهای موجود (مانند کاتالوگهای کارت) بودند و امکان جستجو بر اساس نام و عنوان نویسنده را داشتند. افزایش قابلیتهای جستجو در نسل دوم گنجانده شد که امکان جستجو بر اساس سرصفحههای موضوعی، کلمات کلیدی و برخی امکانات پیچیدهتر پرسوجو را فراهم میکرد.
تاکید نسخه سوم، که اکنون در حال استفاده است، بر رابطهای گرافیکی پیشرفته، فرمهای الکترونیکی، عملکرد فرامتن و طراحی سیستم باز است. به دلیل پیشرفت در فناوری رایانه فعلی و رشد اینترنت، چندین تغییر اساسی و مهم رخ داده است.
اول، دسترسی به منابع اطلاعاتی متعدد به طور قابل توجهی ارزان تر شد. این امکان دسترسی به مخاطبان بیشتری را نسبت به آنچه قبلا امکان پذیر بود، فراهم میکند. دوم، پیشرفت در تمام اشکال ارتباطات دیجیتال، دسترسی به شبکه را افزایش داد. این نشان میدهد که منبع اطلاعات حتی اگر در یک مکان دورافتاده واقع شده باشد قابل دسترسی میباشد و دسترسی سریع است. ثالثاً، آزادی آپلود هر اطلاعاتی که فرد ارزشمند بداند، به طور قابل توجهی به جذابیت وب کمک کرده است.
آیا تمایل به آشنایی با موقعیت شغلی کارشناس فناوری اطلاعات دارید؟اکنون بیاموزید.