Key points are not available for this paper at this time.
यह पेपर सबसे पहले इनवर्स डॉक्यूमेंट फ्रिक्वेंसी (IDF), एक वैश्विक टर्म वेटिंग स्कीम, और सूचना दूरी के बीच संबंध को प्रकट करता है, जो कोल्मोगोरोव जटिलता द्वारा परिभाषित एक सार्वभौमिक मीट्रिक है। हम स्पष्ट रूप से एक सैद्धांतिक व्याख्या देते हैं कि किसी टर्म का IDF उस टर्म और खाली स्ट्रिंग के बीच सूचना दूरी के स्थान में दूरी के बराबर होता है, जिसमें कोल्मोगोरोव जटिलता को वेब दस्तावेजों और शैनन-फानो कोडिंग का उपयोग करके अनुमानित किया जाता है। हमारे निष्कर्षों के आधार पर, हम N-ग्राम IDF प्रस्तावित करते हैं, जो किसी भी लंबाई के शब्दों और वाक्यांशों को संभालने के लिए IDF का एक सैद्धांतिक विस्तार है। किसी भी N के N-ग्राम्स के बीच वज़न की तुलना करके, N-ग्राम IDF हमें अतिव्यापक N-ग्राम्स में से प्रमुख N-ग्राम्स निर्धारित करने और बिना किसी NLP तकनीकों के किसी भी लंबाई के प्रमुख शब्दांशों को पाठों से निकालने में सक्षम बनाता है। सभी संभावित N-ग्राम्स का वज़न प्रभावी ढंग से गणना करने के लिए, हम दो स्ट्रिंग प्रोसेसिंग तकनीकों को अपनाते हैं, अर्थात्, बेहतर_SUFFIX_ARRAY का उपयोग करके अधिकतम सबस्ट्रिंग निकालना और वेवलट ट्री का उपयोग करके दस्तावेज सूचीबद्ध करना। हमने प्रमुख शब्दांश निष्कर्षण और वेब खोज क्वेरी विभाजन पर परीक्षण किए, और पाया कि N-ग्राम IDF राज्य-ओफ़-द-आर्ट विधियों के साथ प्रतिस्पर्धात्मक था जो प्रत्येक आवेदन के लिए अतिरिक्त संसाधनों और प्रयासों का उपयोग करते थे। परिणामों ने N-ग्राम IDF की संभावनाओं को दर्शाया।
Building similarity graph...
Analyzing shared references across papers
Loading...
Masumi Shirakawa
Takahiro Hara
Shojiro Nishio
The University of Osaka
Building similarity graph...
Analyzing shared references across papers
Loading...
शिराकावा आदि (मॉन,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/6a07fe84dbca27ccccfe07f0 — DOI: https://doi.org/10.1145/2736277.2741628
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: