व्हायोश शुद्ध पायथन () में लागू एक तेज़, सुविधापूर्ण पूर्ण-पाठ अनुक्रमणिका और खोज लाइब्रेरी है।
लेकिन मुझे अन्य खोज इंजन, विशेष रूप से लुसेन आधारित (प्युलूसिन, ल्यूपीन ...) की तुलना में किसी भी गति / प्रदर्शन की तुलना नहीं मिल पाई है?
मुझे प्युलसीन का उपयोग करने के लिए उपयोग किया जाता है जो कि तेज लेकिन काफी गैर -पीथोनिक और संभालना आसान नहीं है (प्रत्यक्ष जावा-लुसेन आवरण)। प्युलूसिन का एक अजवायनिक आवरण है; Lupyne। हालांकि यह सुविधाजनक नहीं है जब लुसेन की मुख्य विशेषताएं आवश्यक होती है।
व्हायोश और अन्य के बीच कोई भी प्रदर्शन संकेत देता है।
{1} व्हाईट व्हाट ज़ापी / एक्सपीयन
व्हायोश और ज़ापपी / एक्सपीयन द्वारा समर्थित पाइथन खोज का परीक्षण करने के लिए मानक हैं।
बेंचमार्क कैसे काम करता है
एन दस्तावेज़ जेनरेट किए जाते हैं, खोज शब्द एक यादृच्छिक शब्द और 10 वर्ण लंबा है, प्लस 10 अतिरिक्त फ़ील्ड के साथ यादृच्छिक सामग्री के प्रत्येक 100 वर्ण (केवल दस्तावेज़ के आकार को पंप करने के लिए)।
अनुक्रमण के लिए, सभी फ़ील्ड अनुक्रमित हैं और संग्रहीत।
खोज के लिए, सभी शब्दों को यादृच्छिक क्रम में खोजा जाता है और सभी संग्रहीत फ़ील्ड पुनर्प्राप्त किए जाते हैं।
Whoosh के लिए, हमने अनुक्रमणिका बनाने के लिए बहुप्रोसेटिंग लेखक का इस्तेमाल किया - यह बताता है कि यह क्यों एक्सपीई की तुलना में अनुक्रमण के लिए तेज़ है (क्योंकि यह यू Sed सभी 4 कोर, न सिर्फ 1)।
खोज के लिए, ज़ापी / एक्सपीयन तेज है (कोई समानांतर प्रसंस्करण नहीं था)। लेकिन आप देखते हैं कि जेपी और व्हाट्सश के बीच की गति अंतर संभवतः जितना संभव हो उतना बड़ा नहीं है।
अनुक्रमणिका आकार लगभग 12 एमबी
< कोड> # फेनोम II X4 840, 8 जीबी रैम, एचडीडी # पायथन 2.7.2+ (डिफ़ॉल्ट, 4 अक्टूबर 2011, 20:06:09) # [जीसीसी 4.6.1] linux2 परम: DOC_COUNT: 3000 WORD_LEN: 10 EXTRA_FIELD_COUNT: 10 एक्सट्रा_फीलडी_एलईएन: 100 बेंचमार्किंग: एक्सपीईपी 0.5 / एक्सपीयन 1.2.5 इंडेक्सिंग 2.8 एस (1068.9 / एस) लगते हैं। 0.5 एस (6635.8 / एस) में लग रहा है बेंचमार्किंग: जोश 2.3.2 इंडेक्सिंग 0.8 सेकेंड (3575.6 / एस) लेता है (3714.8 / एस)
No comments:
Post a Comment