أدى النمو السريع للبيانات المفتوحة والمهيكلة بصيغة RDF على الويب إلى تعزيز تطوير بحث مجموعات البيانات كموضوع بحثي مهم. الوظيفة الأساسية للأنظمة الحالية هي استرجاع مجموعات البيانات بشكل عشوائي (AHDR) استنادًا إلى بيانات التعريف الخاصة بالمجموعات، والتي تحتوي على معلومات محدودة وغالبًا ما تعاني من مشاكل في الجودة. للتغلب على هذه القيود، نقوم في هذه المقالة بالتحقيق بشكل منهجي في AHDR القائم على المحتوى لاستغلال بيانات RDF الفعلية في المجموعات. نتناول ثلاث مهام رئيسية في AHDR القائم على المحتوى بأساليب جديدة للتعامل مع الحجم الكبير والتركيب المعقد لبيانات RDF لتسهيل استرجاع المجموعات، وإزالة التكرار، واستخراج مقاطع المحتوى. تم دمج هذه الأساليب في نموذج أولي مفتوح المصدر عبر الإنترنت يسمى Caddie . تم تقييم فعالية وقابلية تطبيق مكوناته على مجموعة اختبار عامة ومن خلال دراسة مستخدمين.
درس وانغ وآخرون (الثلاثاء) هذا السؤال.