IPS است هدف و عملکرد سیستم های بازیابی اطلاعات
IPS است هدف و عملکرد سیستم های بازیابی اطلاعات

تصویری: IPS است هدف و عملکرد سیستم های بازیابی اطلاعات

تصویری: IPS است هدف و عملکرد سیستم های بازیابی اطلاعات
تصویری: قدرت پایدار از آلمان: لوکوموتیو الکتریکی - فناوری پیشرفته روی ریل | مستند WELT 2024, آوریل
Anonim

تصور زندگی بدون اینترنت و دسترسی تقریباً آنی به منابع اطلاعاتی برای یک فرد مدرن دشوار است. کاربر به ندرت به نحوه جستجوی محتوای مورد نظر در شبکه فکر می کند. اما این خیلی جالب است.

سیستم بازیابی اطلاعات (IPS) یک سیستم نرم افزاری و سخت افزاری پیچیده است که اطلاعات را به درخواست کاربر انتخاب می کند. اطلاعات بر روی سرورها به شکل دیجیتال ذخیره می شود، همانطور که قبلاً کتاب ها در قفسه کتابخانه ها قرار داشتند. این سیستم از زیرسیستم های زیادی تشکیل شده است. هر کدام وظیفه خود را در فرآیند پردازش درخواست کاربر و ارائه اطلاعات به صورت متنی یا صوتی به او انجام می دهند. تعدد وظایفی که باید حل شوند، پیچیدگی معماری سیستم های بازیابی اطلاعات مدرن (مخفف سیستم بازیابی اطلاعات) را تعیین می کند. نوعی "جعبه سیاه": در ورودی - متن درخواست، آنچه در داخل است - ناشناخته است، در خروجی - اطلاعات جامع.

فایل کارت در زندگی واقعی
فایل کارت در زندگی واقعی

جریان‌های ورودی

اطلاعاتی را درخواست می کند که یک شخص به صورت متنی در صفحه ابزار خود شکل می دهد،بخش کوچکی از درخواست های پردازش شده توسط موتور جستجو را تشکیل می دهد. آرایه های اصلی پرس و جوهای جستجو توسط روبات هایی تشکیل می شوند که درخواست انسانی را می پذیرند و جستجوی چند مرحله ای و بازخورد را با کاربر انجام می دهند. سیستم‌های بازیابی اطلاعات شامل Google، Yandex و سایرین معروف هستند که روزانه میلیون‌ها درخواست را پردازش می‌کنند.

اشیاء جستجوی منبع

مجموعه اشیاء اولیه مورد علاقه برای جستجو اسناد، سوابق، ویدئوها، تصاویر و موارد دیگر است. آنها خارج از IPS ایجاد می شوند. سیستم ذخیره سازی و بازیابی اطلاعات عمومی باید دارای یک سیستم کتابشناختی داخلی باشد - نوعی فهرست که به شما امکان می دهد هر نوع شی را جستجو کنید.

اشیاء یا تبدیل های دیجیتالی آنها به یک "منبع ورود" به IPS تبدیل می شوند. از میان آنهاست که اطلاعات مورد نیاز کاربر انتخاب می شود.

جستجو برای اطلاعات
جستجو برای اطلاعات

منابع خارجی

نمای انتخاب اطلاعات از منابع دانش خارجی استفاده می کند. این اطلاعاتی است که کاربر به دنبال آن است. عنوان فیلم، نقل قولی از کتاب و …. برای جستجوی کامپیوتری، این اطلاعات باید به یک پرس و جو در یک زبان الگوریتمی ترجمه شود. در IPS، این کار با استفاده از بلوک برای ایجاد، نمایه سازی و توسعه پرس و جو انجام می شود.

در حالت ایده‌آل، این سه فرآیند - بازنمایی، نمایه‌سازی و توسعه پرس و جو - باید بر منابع یکسان دانش تکیه کنند، اما در عمل، این امر قابل دستیابی نیست.

منابع دانش باید دائما بررسی و به روز شوند و به روز رسانی باید یکسان و یکسان باشد.هماهنگ شده و یک منبع خارجی از دانش همیشه از نظر زمانی قبل از استفاده از آن در موتورهای جستجو برای یک پرس و جو، گاهی اوقات چندین سال است.

سیستم بازیابی اطلاعات
سیستم بازیابی اطلاعات

اجراها

نمایش‌های اشیاء اصلی از داده‌های ورودی در ترکیبی ساخته شده‌اند یا مطابق با قوانین و الگوریتم‌های یک سیستم بازیابی اطلاعات خاص تبدیل شده‌اند.

View ها کپی هایی کم و بیش تغییر یافته از شی جستجوی اصلی هستند. در مجموعه متون کامل بدون ویرایش، هر متنی بازنمایی خاص خود است. در مجموعه اشیاء نمایشگاه ها و مصنوعات موزه، بازنمایی می تواند توصیفی دگرگون شده از شی با تصویر آن باشد. در برخی موارد، نمایش ممکن است تا حدی از شی اصلی و بخشی از توضیحات مشتق شده باشد: در موتورهای جستجوی کتابشناختی، نمایش ها از شی مشتق می شوند - به عنوان مثال، عنوان، نام نویسنده با حاشیه نویسی اثر ترکیب می شود.

پیدا کردن آنچه شما نیاز دارید
پیدا کردن آنچه شما نیاز دارید

فهرست قابل جستجو

از آنجایی که اطلاعات در سیستم های بازیابی اطلاعات در قالب یک نمایش ذخیره می شود، منطقی است که فرض کنیم جستجو بر اساس نمایش انجام شده و پس از انتخاب به کاربر داده می شود. در عمل اینطور نیست. به عنوان مثال، کاتالوگ‌های کتابخانه آنلاین فعلی معمولاً جستجوها را به چند فیلد محدود می‌کنند: نویسنده، عنوان، و زیرنویس‌ها در یک نمای که شامل فیلدهای دیگری است که جستجو نمی‌شوند. این دلیل کافی برای تشخیص ضروری استیک نما و یک فهرست قابل جستجو که قسمت جستجوی نما است. هر چیزی را که باید قابل جستجو باشد را تعریف می کند. یک نمایه قابل جستجو، مانند دیدگاه و شی منبع، می‌تواند به زیرشاخص‌های جداگانه تقسیم شود تا جستجوهای دقیق‌تر و هدفمندتری ارائه شود.

موتورهای جستجو معمولاً ساختاری مصنوعی برای تطبیق نتایج جستجوی معتبر دارند. این ساختار دومین جزء شاخص قابل جستجو است.

روی رویه، فرآیند نمایه سازی را می توان به روش های مختلف پیاده سازی کرد: یک نمایه قابل جستجو را می توان با: به دست آورد.

  • به معنای واقعی کلمه کپی کردن یک نمایش قابل جستجو؛
  • با کپی کردن جزئیات مشاهده. این ممکن است بخشی یا تمام نماهایی باشد که از نظر فیزیکی فقط به صورت قطعات وجود دارند و طبق قوانین ایجاد نمایه برای جستجو توزیع شده اند و در صورت لزوم جمع آوری می شوند.
مدیریت جستجو
مدیریت جستجو

قوانین طراحی درخواست و درخواست های رسمی

مهندسی پرس و جو تابعی است که بین یک پرس و جو کاربر و یک پرس و جو رسمی واسطه می شود. پرس و جوی کاربر را تغییر می دهد و آن را با دیکشنری های فرمان بازیابی، مشخصات فهرست و فهرست قبل از بازیابی تطبیق می دهد. در طلوع توسعه IPS، این نقش به طور سنتی به متخصصان IT واجد شرایط واگذار می شد.

توسعه پرسش‌های رایانه‌ای که می‌توانند پرس و جوهای فرهنگ لغت را با یک سیستم فهرست قابل جستجو مطابقت دهند، معمولاً به عنوان ماژول "ورودی فرهنگ لغت" نامیده می‌شود.اتوماسیون این تابع امیدوارکننده است و فرصت هایی را برای روش های جستجوی خبره و احتمالی ارائه می دهد.

یک درخواست رسمی پس از تبدیل درخواست کاربر به یک درخواست رسمی تبدیل می شود. نمونه‌هایی از چنین تبدیل‌های رسمی شامل برش، جایگزینی، عادی‌سازی، بردارسازی و سایر تبدیل‌های نمایش «خارجی» به نمایش‌های «داخلی» کامپیوتر IPS (رمزگشایی - سیستم بازیابی اطلاعات).

مجموعه پیوندهای سند استخراج شده

مجموعه منابع اطلاعاتی به دست آمده منطقاً زیرمجموعه‌ای از نماهایی است که توسط قوانین تطبیق اعمال شده به درخواست رسمی توسط یک فهرست قابل جستجو ایجاد می‌شود.

معمولا، اما نه لزوما، یک فرآیند مرتب‌سازی جداگانه برای مجموعه اطلاعات بازیابی شده وجود دارد. کاتالوگ های کتابخانه آنلاین معمولاً قبل از نمایش، مجموعه های دریافتی را بر اساس حروف الفبا توسط نویسنده مرتب می کنند. در سیستم‌های بازیابی اطلاعات که رتبه‌بندی‌های سخت‌گیرانه ایجاد می‌کنند، ترتیب رتبه‌بندی مقدم بر هر مرتب‌سازی مجدد است.

تحلیل داده ها
تحلیل داده ها

جریان‌های خروجی

خروجی نتایج جستجو به طور سنتی بر روی صفحه نمایش انجام می شود، اغلب به شکل جریانی از اشیا برای استفاده در جاهای دیگر یا برای اهداف دیگری، حلقه جستجوی اصلی را تکمیل می کند. چنین جریان هایی را می توان به دستگاه های تجسم ارسال کرد. ، ذخیره سازی برای پردازش بیشتر، یا استفاده به عنوان جریان ورودی به سایر خدمات انتخابی.

سیستم‌های بازیابی اطلاعات امکان بازخورد را می‌دهندخروجی هر فرآیند انتخاب خروجی هر فرآیند می تواند بازخوردی به سایر فرآیندها باشد. بازخورد می‌تواند مبنایی برای قضاوت متخصص در هر مرحله باشد.

توصیه شده: