Key points are not available for this paper at this time.
प्राकृतिक रूप से उत्पन्न डेटासेट वाले वास्तविक-विश्व परिदृश्यों में, संदर्भ सारांश शोरयुक्त होते हैं और उनमें ऐसी जानकारी हो सकती है जो स्रोत पाठ से अनुमानित नहीं की जा सकती। बड़े समाचार कॉर्पस पर, निम्न गुणवत्ता के नमूनों को हटाने से मॉडल के भ्रम में कमी हुई है। फिर भी, छोटे और/या अधिक शोरयुक्त कॉर्पस के लिए, फ़िल्टरिंग प्रदर्शन के लिए हानिकारक है। सभी डेटा बरकरार रखते हुए संदर्भ की गुणवत्ता सुधारने के लिए, हम एक नया दृष्टिकोण प्रस्तावित करते हैं: चयनात्मक रूप से असमर्थित संदर्भ वाक्यों को पुनर्लेखित करना ताकि वे स्रोत डेटा को बेहतर प्रतिबिंबित करें। हम समर्थित वाक्यों को दूषित करके सकारात्मक और नकारात्मक संशोधनों का स्वचालित रूप से एक कृत्रिम डेटासेट उत्पन्न करते हैं और विपरीत शिक्षण के साथ संदर्भ वाक्य संशोधित करना सीखते हैं। संशोधनों की तीव्रता को एक नियंत्रित योग्य गुण के रूप में माना जाता है ताकि अनुमान के समय, विविध उम्मीदवारों को अधिक-उत्पन्न-फिर-पुनः-मूल्यांकित किया जा सके जो वफादारी और सारांशण के बीच संतुलन बनाए। हमारे तरीकों का परीक्षण करने के लिए, हम अस्पताल-कोर्स सारांशण के कार्य के लिए सार्वजनिक रूप से उपलब्ध MIMIC-III डिस्चार्ज सारांशों से शोरयुक्त संदर्भ निकालते हैं, और प्रशिक्षण के लिए डेटा में परिवर्तन करते हैं। मीट्रिक्स और मानव मूल्यांकन के अनुसार, संशोधित नैदानिक संदर्भों पर प्रशिक्षित मॉडल मूल या फ़िल्टर किए गए डेटा पर प्रशिक्षित मॉडलों की तुलना में कहीं अधिक वफादार, सूचनात्मक और प्रवाहपूर्ण हैं।
Building similarity graph...
Analyzing shared references across papers
Loading...
Griffin Adams
Han-Chin Shing
Qing Sun
Columbia University
Amazon (United States)
Building similarity graph...
Analyzing shared references across papers
Loading...
एडम्स et al. (Sat,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/6a07da7c9090d046d755e605 — DOI: https://doi.org/10.18653/v1/2022.findings-emnlp.296
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: