شماره چهارم دوره پنجم

تاريخ انتشار اين مقاله: 12 تیر 1385

قالب PDF  بازگشت  مجله الكترونيكي صفحه اصلي

انتظارات دربرابر واقعیتها : ویژگیهای مورد نظر موتورهای جستجو برای تحقیقات شبکه در اواسط سال 2005 [1]

 
نوشته :‌جوديت بار- ايلان[2]
ترجمه :‌ رضا رجبعلي بگلو
[3]

Email: rezarajab_beglou@yahoo.com


چکیده
تحقیقات شبکه براساس داده هایی از شبکه یا درباره آن مبتنی شده است . اغلب داده های جمع آوری شده ،  توسط موتورهای جستجو صورت می گیرد . در این مقاله ما " لیست آرزویی " مان را برای موتور جستجو مناسب و ایده آل توصیف کرده ایم ، و نیاز به ویژگیهای بخصوص تشریح  شده  ، و اینکه موتورهای جستجوی عمده  کنونی موجود می توانند ، حداقل تا اندازه ای  ، نیازمندیهای یک ابزار جستجویی مطلوب و نهایی را برآورده سازند آزمایش شده است . ابزارهای جستجویی عمده تجاری هستند و بسوی کاربر " حد متوسط " متمایل شده اند نه بسوی محققین شبکه ،  بنابراین قادرنیستند همه درخواستها را برآورده سازند . يك راه حل ممکن برای جامعه تحقیق بکارگیری بودجه لازم ، منابع ، و دانستن اینکه چگونه ابزار جستجویی تحقیق مدار ایجاد نمایند ، می باشد .


کلید واژه ها : موتورها جستجو ، وب سنجی ، جستجوی یاهو ، گوگل ، ام.اس.ان. 


مقدمه
با وجود اينكه شبکه  تنها 15 سال است که بوجود آمده است ،  یک منبع اطلاعاتی عمده و رسانه ارتباطی شده است و تاثیر خود را بر رفتار اطلاعاتی و ارتباطاتی هم در زندگی روزمره و هم در زندگی علمی داشته است . تحقیقات شبکه ای چند رشته ای[4] است . این تحقیقات بطور گسترده ای توسط دانشمندان رایانه و اطلاعات ، جامعه شناسان ، اقتصاددانان ، زبان شناسان ، روانشناسان ، دانشمندان ارتباطات و دیگران صورت می پذیرد . به منظور انجام مطالعه بر روی شبکه ، بیشتر محققان نیازمند داده هستند . بعضی از محققین ( مثل ثلوال[5] ، 2001 یا آلبرت ، جونگ و بارباسی[6] ، 1999) قادرند (  ازهر دو لحاظ  فني و اقتصادی ) ابزارهایی برای جمع آوری داده های ضروری را از شبکه ایجاد نمایند . سوسیبات[7] توسط تیم ثلوال توسعه یافته است  و برای هر کسی که منابعی دارد که می تواند توسط خزنده[8]  اداره شود و بروندادهای آن قابل ذخیره باشند ( گروه تحقیقات آماری سایبر متریکس[9] ، 2004 الف ) ، و نتایج جستجوهای ویژه برای بارگیری در دسترس است (گروه تحقیقات آماری سایبر متریکس ، 2004 ب ) ، بصورت رايگان قابل استفاده است. ديگران ( مثلا اسپينك[10] و يانسن[11] ، 2004 يا هوبرمن و آداميك[12] ، 1999) به اندازه كافي خوش شانس بودند تا به داده هاي جمع آوري شده توسط ابزارهاي جستجو تجاري دسترسي داشته باشند . بعضي از مطالعات شبكه اي توسط محققاني كه در مورد موتورهاي جستجو كار مي كردند اجرا شده است ( مثلا برودر[13] و ديگران ، 2000 يا فترلي[14] و ديگران 2004 ) ، بنابراين آنها مي توانستند به شبكه خزيده يا به داده هاي پايگاه داده موتورهاي جستجو دسترسي يابند .
ديگر محققين به آنهايي كه خوش شانس و مبتكر بوده اند و مي توانستند رايگان به ابزارهاي بازيابي اطلاعات دسترسي داشته باشند ، غبطه مي خورند : به موتورهاي جستجو ، يا به پايگاههاي داده پروژه هاي نگهداري شبكه ( مثل آرشيو اينترنت[15] ) . امروزه پروژه هاي نگهداري شبكه نیز دسترسي محدودي بوجود آورده اند ( بدليل مشكلات حق مولف ) يا حداقل ابزارهاي بازيابي و يا غير متني را فراهم مي نمايند ، بنابراين براي استفاده تحقيقات شبكه بسيار محدودند . لذا بهترين ابزارهاي جستجوي رايگان موتورهاي جستجو هستند . چشم انداز موتورهاي جستجو در سالهاي اخير تحت تغييرات عمده اي قرار گرفته اند ، و معمولا تنها چند بازيگر عمده معدود وجود دارد ( سوليوان[16] 2004) : گوگل، ياهو ، اسكجيوز/ تئوما[17] ،  و ام.اس.ان. . در اين مقاله ما گوگل ، ياهو و ام.اس.ان. را در نظر گرفته ايم ( هم اكنون اسكجيوز/ تئوما تعدادي از ويژگيهاي عمده تحقيقات شبكه اي ، مثل پيوند به صفحات را دارانيست  ) . اگزالید[18]  تازه واردي به صحنه جستجو است و تنها چيزي كه  باقي مي ماند اينست ،  ببينيم چگونه در آينده توسعه مي يابد . موتورهاي جستجوي اضافي با قابليتهاي بخصوص و مرتبط به تحقيقات شبكه اي ، ميتواند وجود داشته باشند ، اما به عقيده ما پوشش ابزارهاي جستجو يك ويژگي مركزي است ( مثلا در اين مورد ، اندازه فرق مي كند ) و بنابراين آزمودن ابزارهاي جستجو تنها محدود به اين موتورهاي جستجو مي شود . با توجه به کامسکور[19] ( 2005) ، گوگل ، ياهو و ام.اس.ان. با هم و در مجموع 5/82 % از نتايج شبكه اي در جولاي 2005 را تشكيل داده اند ( گوگل 5/36% ، ياهو 5/30% و ام.اس.ان.5/15% ) .
نماي كلي مقاله بدين ترتيب است : اول ويژگيهاي مطلوب را فهرست كرده و اهميت آن را براي تحقيقات شبكه اي توضيح مي دهيم . بعد آزمايش مي كنيم كه آيا سه موتور جستجويي كه در بالا ذكر شدند اين التزامات را به انجام مي رسانند و در نهايت دريافتمان را از يافته ها به بحث مي گذاريم . موتورهاي جستجو بطور مداوم درحال تغييرند ، بنابراين مي خواهيم بر اين نكته تاكيد داشته باشيم،‌ مواردي كه درباره اين ابزارها بدست آمده بر اساس يافته هاي ما در اواسط آگوست 2005 مي باشد . براي پشتيباني يافته ها ، ما هر مثالي را كه در مقاله ارائه شده ، ذخيره و‌ مستند كرده ، و نسخه هاي ذخيره شده مثالهاي جستجو و ديگر مستند سازيهايي كه مقاله بر اساس آن شكل گرفته در اختيار علاقمندان قرار داده مي شود .


انتظارات – لیستی از معیارها برای موتورهای جستجو :


1) پوشش
 اگر بدنبال تولید معیارهای کمی باشیم ، سپس  پوشش ابزار جستجو باید همسان ( همه دامنه های موجود) و جامع باشد . این برای معیار سنجش اندازه سایت یا دامنه و یا رويت پذيري آن ضروری است . ( مثلا تعداد لینکهاي داخلي و خارجي ) ، اما الزامات اساسی برای نمونه گیری سايتها و صفحات وب می باشد . این خواسته بطور 100 درصد قابل دستیابی نیست : صفحات وب جدید بطور پیوسته ایجاد میشوند و غیر ممکن است آنها را بطور مداوم ذخیره کرد . هنوز می خواهیم موتور کاوش تا حد ممکن ، بسیاری از صفحات وب را پوشش دهد .


2) پايايي [20]
با توجه به به واژه نامه آکسفورد ( 1989) پايايي " مقداری است که یک معیار در شرایط یکسان و برابر بطور مستمر نتایج هماهنگ و موزونی بوجود می آورد " . براي اينكه قادر به کار کردن با این موتورهای جستجو باشيم ، مجموعه نتایج باید برای یک دوره کوتاه زمانی ( مثلا یک ساعت یا یک روز ) پايدار( یا تقریبا پایدار) باشد . اين که نتایج جستجو در طول زمان تغییر می کند ، قابل پذيرش است ، زیرا تغيیرات پویا در شبکه رخ می دهد و پایگاه داده موتورهای جستجوی بروز میشوند . هرچند ، هنگامی که مشخص شوددلایل تغییرات عمده ، با دلايل ذکر شده در بالا بوجود نمی آیند ، اگر نوسانات عمده ای در نتایج بازیابی بوجود آید ، قابل پذيرش نيست .


3) مستندسازي  شفاف ، بی پرده  و واضح
شرکتهای موتورهای جستجو باید بطور واضح استفاده کنندگان خود را از ويژگيها ، قابلیتها و رويكردها و روشهاي عملیاتی مطلع سازند و بی وقفه هر مشکلی را در ارتباط با ابزار جستجویی اعلام دارند . به منظور اين كه قادر باشيم از نتایج ابزارهای جستجویی برای تحقیقات اینترنت استفاده كنيم ، ضروري است که ويژگيهاي موتورهای جستجو با توجه خصوصيات ذكر شده عمل نمايد و اگر استفاده کنندگان از این ويژگيها آگاه نیستند باید هر چه زودتر مطلع شوند .


4) بهنگام بودن[21]
پایگاه داده موتورهای جستجو باید بطور متناوب بروز شوند ، تا تصوير فوري[22] که موتورهای جستجو از شبکه دارند ، باید هرچه بیشتر شبیه به واقعیت شبکه باشد . تازگی پایگاه داده با معیار ( آلفا و بتا) بریوتون و سیبنکو [23] ، قابل اندازه گیری است .


5) نمایه سازی تمام مدرك
هنگامی که قصد ما ایجاد لیستي جامع ازمدارك است ، داشتن یک ویژگی معین مبتني بر متن ، سپس حتی اگر عبارت جستجو در پائین مدرك ظاهر شود( مثلا در منابع كتابشناختي )مدرك باید بخشی ازاين لیست باشد .


6) زمان پاسخگویی ، دسترس پذیری
وقفه ها[24] می توانند باعث مشکلات پايایی شوند ،زیرا این وقفه ها ممکن است تعداد نتایج بازیابی را تغییر دهند( كه اغلب بدون اینکه موتور جستجو اطلاعاتی درباره تغییرات ناگهانی در نتایج ، گزارش نمایند ، همراه است ). یک ابزار جستجو كه غیر دسترس پذیر يا دارای وقفه هاي زيادي است ، تداخلهای زیادی در فرایند جستجو ايجاد مي نمايد . زمانیکه شبکه به خودی خود پویاست واجب است که همه جستجوها برای یک تحقیق معین در کوتاهترین بازه زمانی ممکن انجام شود .


7) عینیت – بدون تاثير از عوامل تجاري و بدون تاثیربرمحیط
ما بدنبال ابزاري کامل می گردیم که به هیچ وجه سوگیری نداشته باشد و ما را قادر سازد تا شبکه را درحالیکه از این ابزار استفاده می کنیم ، مورد مطالعه قرار دهیم ، و نه بررسی تصویری  که از طریق " چشمهای موتور جستجو " به ما رسیده است ،‌ بپردازيم . این درخواست مطلوب ماست . هدف واقعی ما نزدیک شدن به این وضعیت است . موتور جستجو باید ابزاری باشد که اجازه دهد تا از طریق آن به اطلاعات دسترسی داشته باشیم . موتور جستجو نباید خود شبکه را تحت تاثیر خود قرار دهد .


8) همه نتایج گزارش شده باید قابل بازیابی باشند
شمارش مدارك و واژه ها اغلب برای تحقیقات شبکه ای نارساست ( مخصوصا وقتی که این تعداد غیر قابل اعتماد باشند ) . براي مطالعه خود مدارك ، مجبوریم به آنها دسترسی داشته باشیم . بنابراین دانستن اینکه مثلا 11203349 صفحه وجود دارد که موتور جستجو بعنوان مدرک مرتبط با جستجو نشان داده ، اما قادر به دسترسی به تنها 1000 نتيجه از آنهاست ، رضایت بخش نیست . توانایی بازیابی تمام مجموعه نتایج ، و نه تنها 250 یا 1000 مدرک اول برای تحقیق شبکه ای موفق ، ضروری است .


9) رتبه بندی ، گزینه های مختلف دسته بندی
بسته به موضوع تحقیق ، همیشه نمی خواهیم به نتایج جستجو بنگریم ،  و اغلب نمي توانيم ( معمولا، موتورهای جستجو تمامی مجموعه نتایج را نشان نمی دهند ). در این موارد رتبه بندی  بسيار مهم می شود . الگوریتم رتبه بندی رازی است كه بخوبي حفظ شده است ،هم بخاطر رقابت و هم بخاطر اسپم کنندگان[25] بالقوه . در یک ابزار جستجوی مطلوب ، محققین شبکه باید قادر باشند مولفه هایی را که در رتبه بندی تاثیر می گذارند ، بکار گیرند ( از قبیل تاریخ ، وزن واژگانی ، مکاندهی[26] ، پیوندهاي خارجي [27]، لنگرها[28] .)


10) نمایش انعطاف پذیر برونداد 
اينجا ، منظور ما توانایی انتخاب تعداد نتایج در هر صفحه ، چه اطلاعاتی نمایش داده شود ( مثلا فقط مکانیاب جهانی شبکه، جزئیات[29] ، اندازه ، عنوان ، مکانیاب جهانی شبکه ، زبان ) آیا نتایج باید خوشه بندی شوند یا نه ، و آیا نمونه ای از صفحات هر وب سایت نمايش داده شود( این گزینه انقضاء سایت نامیده میشود ). التزام بعدي  قادر بودن به انجام تنظیمات مي باشد. مرور آسان مجموعه نتایج نيز مورد نیاز است ، مثلا توانایی پرش سریع به رویت مدرک  845 .


11) نتایج پنهان[30]
توانایی رویت نتایج پنهان ویژگی مفید دیگری است . به محقق کمک می کند تا بداند چرا مدرک بازیابی شده است ( اغلب صفحات بین زمانی که توسط موتورهای جستجو رویت شده و زمانیکه توسط استفاده کننده رویت می شوند ، تغییر می نماید ) . بعلاوه ، اگر زمانیکه میزبان صفحه موجود نیست یا قابل دسترس نیست ، فرد قادر خواهد بود نسخه پنهان را ببیند .


12) کیفیت بازیابی بالا در زبانهای غيرانگلیسی
این مورد بسیار مشکل ساز است : وقتی که در سال 2000 حدود 70% صفحات شبکه به زبان انگلیسی ، تخمین زده شده اند ( اطلس سایبر[31] 2000) ، در سال 2004 دو سوم استفاده کنندگان از شبکه متکلم غیربومی زبان انگلیسی هستند ( گلوبال استاتس[32] ، 2004) . تحقیقات بازیابی اطلاعات بطور فزاینده ای بسوی زبان انگلیسی در حال حرکت است . موتورهای جستجوي اصلي ، استفاده کنندگان را قادر می سازند تا به زبانی غیر از زبان انگلیسی و به خوبی آن جستجو نمایند ، و معمولا بدليل عدم رضایت از ابزارهای جستجویی در زبانهای بومی ، این ابزارها که در اصل  برای بازیابی در زبان انگلیسی توسعه یافته اند ، برای جستجو در دیگر زبانها نیز بکار می روند (البته استثناهایی وجود دارد ، مثلا زبان روسی ). برای زبانهايی که درآن  ترکیبات ، صرف فعل و پیشوندها بسیاراستفاده می شوند و برای بازیابی در زبان انگلیسی پایه ماشینی دارند ، بسیار دور از شایستگی است . تحقیقات شبکه الزاما بر روی انگلیسی تمرکز ندارد ، و بازیابی اطلاعات باید بطورکلی در دیگر زبانها نیز به خوبی زبان انگلیسی باشد .


13) رابط اعمال برنامه ریزی[33]  در دسترس
يك رابط اعمال برنامه ریزی ( ای.پی.آی.) قابل دسترس ، محلي سازي  و توسعه مفید ابزارها و رابطهای مبتنی بر ویژگیهای قابل دسترس موتورهای جستجو، را ممكن مي سازد.


14) جستجوهای تمام بولی ، گوناگونی عملگرها
نیازی به تشريح این ویژگی نیست . این ویژگی به محقق اجازه می دهد تا جستجوها با نیازهای وی ، متناسب شوند . واژگان جبري ، و ، یا ، و نه  مجموعه ای کامل از عملگرها هستند ،هر گزاره جبري می تواند بعنوان ترکیبی از گزاره ها که فقط با این عملگرها مرتبطند ظاهر شوند . این ترکیبات استفاده از پرانتز را ضروری می سازد . بنابراین ما نه تنها نیازمند به و ، یا ، و نه هستیم بلکه به طريق دیگری ( پرانتز یا ستفاده دوباره از نتایج نسبي[34] ) به منظور قابلیت بیان کامل جبري ، نیاز داریم . هرچند اين نيز کافی نیست ، برای بازیابی متن نیازمندعملگرهای اضافی مثل جستجوی عبارتی ، قرابت[35]  یا همجواري[36] مي باشيم( با تعاریف منعطف ، اینکه این عملگرها چه معنی می دهند). همچنین نیازمند آنیم تا قادر باشیم جستجوهای مستقل نه را برای تخمین اندازه انجام دهیم .


15) قنون پيشرفته براي بازيابي داده براي تحليل پيوند
شبكه از پيوندها و گره ها ساخته شده است . پيوندها بصورت فعال در تعدادي از دامنه ها بررسي شده اند : تحقيق درباره ساختار شبكه ، تكامل آن و ايجاد جوامع و شبكه هاي اجتماعي در وب ، راههاي اصلاح بازيابي اطلاعات ، استفاده از نشانگرهاي مبتني بر  پيوند و خصيصه هاي ساختار پيوند ، ( برودر و دیگران، 2000 ، کومار و دیگران ، 2003، کومار و دیگران ، 1999 ، فابا- پرز، گوئررو- بوتا و دی مویا- آنگون، 2003، کلاینبرگ ، 1999 ، اینگورسن ، 1998، ثلوال، 2003و 2004 ، بار- ایلان ، 2005).چنين مطالعاتي متكي بر داده هاي مربوط به پيوندهاست . اساسي ترين ویژگی به صفحه مخصوصي مرتبط است . پيوندهاي به يك سايت يا يك سايت فرعي اغلب مورد توجه است ، و بطور عمومي تر ، مي خواهيم قادر باشيم تا مجموعه صفحات لنگري و مجموعه صفحات هدف را تعريف نماييم . بعضي مواقع به تعدادي از صفحات پيوند دهنده  به صفحه اي ،  سايتي يا مجموعه اي از صفحات علاقه مند هستيم ، اما بعضي مواقع تعداد واقعي پيوندها مدنظر ماست (مثلا اگر چندين پيونداز منبع به مجموعه هدف وجود داشته باشد،ابزاري براي شمارش صفحات ،‌ با تعدد زياد ميخواهيم). بايد قادر باشيم ، چگونگي اداره پيوندهاي نسبي[37] را معين نمائيم . قدم بعدي به جلو داشتن حداقل يك سري خصوصيات پيوندها خواهد بود. پيوندهاي ناوبري ، پيوندهاي جاسازي شده محتوا[38] ، پيوند درون ليستها و بدست آوردن اطلاعاتي در مكاندهي پيوند.  


16) گوناگوني توضيحگرهاي جستجو
پيش فرض اصلي مااين است كه محققين مي دانند كه چه مي خواهند ،  و قادرند ويژگيهاي مختلف را درك نمايند و گزينه صحيح را براي حل مشكل موجود انتخاب نمايند . اين باآنچه كه توسعه دهندگان موتورهاي جستجو در باره عموم مردم مي پذيرند، در تضاد است ( شبکه جهانگستر 10 پانل ، 2001)[39]. برای اينكه قادر باشيم پرسشها را بطور دقيق تعبير نمائيم ، نيازمند آن هستيم كه راههايي را براي محدود كردن جستجوها برگزينيم ، ليست نسبي محتوا : تاريخ ، دامنه ها ، زبانها، ناحيه جغرافيايي،قالب فايلها،مكاندهي در فايل ( مثلا عنوان ، مكانياب جهاني منبع ، لنگرها ) و دامنه هاي ابرداده اگر  و هنگاميكه در مدرك موجود باشند.


17) ويژگيهاي اضافي : ريشه يابي[40] ، كوتاه سازي[41] به چپ / راست ، نويسه عام[42] ، حساسيت به حروف[43] ، بررسي هجي ، انقضاي سايت
ويژگيهاي اضافي كه در بالا فهرست شد به محققين شبكه كمك مي كند در تعبير پرسشها بطور دقيق تري عمل نمايند . كوتاه سازي براي زبانهايي كه واژه هاي تركيبي و پيشوندها و پسوندها را دارند ، بسيار مهم هستند . اين ويژگيها ، براي جنبه هاي زبانشناختي شبكه يا براي تحليل هم واژگاني[44] نيز مهمند .


18) كمك جستجو : بازخورد ربط ، صفحات و جستجوهاي مرتبط / مشابه ، شخصي سازي  
داشتن اين ويژگيها بسيار خوب است ، و به محققين شبكه كمك مي كنند ، همانطوريكه تصور مي شود براي عموم كمك خوبي هستند .


19) قابليت تركيب همه ويژگيها در يك پرسش واحد ( شامل تعداد نامحدود واژگان جستجويي )‌يا ايجاد مجموعه ها ،‌براساس نتايج پيشين (‌ مدل "ساختن بلوكها ")
اين ويژگيها بسيار مهم هستند . اين ويژگيها محققان را قادر مي سازند تا پرسشهاي دقيق تري را ايجاد نمايند .


 20)قابليت جستجوي غير متني
مقاله بر بازيابي متني تمركز دارد ، اما بايد رسانه اضافي نيز به همانگونه محاسبه شود. قابليتهاي بخصوص براي جستجوهاي چند رسانه اي براي تحقيق شبكه فراتر از دامنه تحقيق كنوني است .


واقعيت – ويژگيهاي موتورهاي جستجو در گذشته و حال
1) پوشش
در سال 1995 شبكه به اندازه كافي بي تجربه بود تا اين ادعاي لايكوس[45] را بپذيرد كه " 91% شبكه نمايه سازي شده است " (آمبورگي [46]،1995) . بعد از اينكه تحقيقات توسط بهارات و برودر(1998) و لاورنس و گيلز[47] منتشر شد ( 1998،1999) ، اين ادعاها ديگر تكرار نشدند ، و ما بسادگي نميتوانيم انتظار داشته باشيم كه ابزارهاي جستجو جامعيت داشته باشند. هرچند ، " جنگ اندازه موتورهاي جستجو شروع شده " ( سوليوان[48] 2005) وباادعاي ياهو كه 2/19 ميليارد صفحه را نمايه سازي مي نمايد، در حاليكه گوگل با اين ادعا ستيز مي كند، به شدت ادامه دارد  . ( پرايس[49] 2005) . چنسي و پري[50] ( 2005 الف ،‌ 2005 ب)تعداد نتايج منعكس شده توسط گوگل و ياهو را حدود 10000 پرسش با كمتر از 1000 نتيجه مقايسه مي نمايد ، آنها آزمايش را دوبار اجرا كردند : در مطالعه اول گوگل 270 درصد بيشتر از ياهو نتيجه منعكس كرد، درحاليكه در آزمايش دوم آنها فهميدند كه گوگل 65% بيشتر از ياهو نتيجه داده است ( دومين آزمايش بمنظور غلبه بر بعضي دغدغه هاي روش شناختي نامشخص انجام شد ) .
مشكل ديگر عدم يكساني پوشش است . اسنايدر و روزنباوم[51](1999) نشان دادند كه حتي پوشش نسبي دامنه هاي عمده موتورهاي جستجوي مختلف ،يكسان نيست. تلوال( 2000) پوشش دامنه هاي ملي بزرگ را آزمودو دريافت كه پوشش بسيار نا متوازن مي باشد كه محاسبه عامل تاثير شبكه بر اساس داده هاي فراهم شده توسط موتورهاي جستجو ممكن نيست. نتايج اخير نشان مي دهد كه پوشش موتورهاي جستجو هنوز نا متوازن است . ما براي "- kxht site:.hu"(بدون واژهkxht در دامنه مجارستان) در ياهو و گوگل ،‌وsite:hu-(kxht)" " در13 ژانويه در ام.اس.ان. و دوباره در 17جولای 2005 بااین پرسش site:hu -(kxht) جستجو را صورت داديم . ما مجبور بوديم واژه هاي بسيار نادري را خارج نمائيم ، زيرا گوگل جستجوهاي مجزا را براي سايتها در آن زمان پشتيباني نمي كرد. دور سوم جستجوهادر3 سپتامبر 2005 زماني كه هر سه موتور جستجوهاي نوع "site:.hu"(or "site:hu" for MSN) راانجام مي دادند ،‌ صورت گرفت. نتايج براي تعدادي از دامنه ها در جدول 1 آمده است . تشخيص تفاوتهاي نسبي در پوشش دامنه ها بين موتورهاي جستجو و همچنين بين رتبه بندي موتورهاي جستجو براي پوشش وقتي دامنه ها يك به يك در نظر گرفته مي شوند،بسيار ساده است. مورد ديگر، تغييرات عظيم در تعداد صفحات گزارش شده بين دو نقطه جمع آوري داده ، گوگل و ام.اس.ان. صفحات مجارستاني بسيار كمتري را در دفعه دوم گزارش نمودند، درحاليكه ياهو دو برابر بيشتر است و اين مقدار وقتي براي سومين بار جستجو شد دوباره دو برابر شد . گوگل و ام.اس.ان. صفحات بيشتري از جيبوتي[52] به نسبت سورينام[53] در دو دور اول جستجو گزارش كردند درحاليكه نتايج ياهو خلاف اين را نشان ميداد . بنظر ميرسد ام.اس.ان. به گوگل و ياهو در تعداد صفحات كانادايي نمايه شده توسط آنها مي باشند ، درحال نزديك شدن مي باشد ، و در دور سوم جستجو ياهو با پوشش بيشتر صفحات كانادايي سبقت گرفته است ( حداقل اين چيزي است كه گزارش شده است ) .
  
    جدول جدول 1.پوشش دامنه

سورينام

جيبوتي

كانادا

مجارستان

13 ژانويه 2005

79300

154000

32400000

13300000

گوگل

83000

50300

34600000

12400000

ياهو

32205

107487

65151122

22798200

ام.اس.ان بتا

سورينام

جيبوتي

كانادا

مجارستان

17 جولاي 2005

104000

141000

63500000

5740000

گوگل

101000

51900

79900000

26000000

ياهو

38714

65838

66897959

15366935

ام.اس.ان. بتا

سورينام

جيبوتي

كانادا

مجارستان

3 سپتامبر 2005

104000

62400

58400000

5100000

گوگل

202000

71500

241000000

54500000

ياهو

29711

45927

64853877

15369632

ام.اس.ان . بتا


 
2) پايايي
 مثالهاي گذشته درباره عدم اعتبار موتورهاي جستجو شامل نتايج شمرده شده توسط آلتاويستا نيز ميشود
 ( نوتس2000[54]) . روسو[55] ( 2000) نوسانات روزانه را در تعدادي از نتايج بازيابي شده توسط آلتاويستا را گزارش ميكند . اين نوسانات با رشد مداوم تعداد نتايج گزارش شده توسط نورثرن لايت مقايسه شده است . بارايلان ( 2000) نوسانات روزانه شديدي را در نتايج بازيابي شده توسط هات بوت[56] مشاهده كرده زمانيكه با اسنپ[57] مقايسه شده ، جائيكه هردو ابزار جستجو توسط اينكتومي اداره ميشود . پايداري[58] موتورهاي جستجو در طول زمان مي تواند با مجموعه اي از معيارهاي پيشنهاد شده توسط بار ايلان ( 2002) اندازه گيري شود .
اغلب تعداد نتايج گزارش شده وقتي كه به سمت پائين ليست نتايج حركت مي كنيم تغيير مي كند . مثلا در گوگل جستجوي واژه  “digifeed”  در آگوست 2005 بین ساعت 13:51 و 14:00 شش بار صورت گرفت .
 بار اول ، گوگل 697 نتيجه را گزارش كرد ، و سپس ما به تمام مجموعه نتايج رفتيم ( شامل مواردي كه در اول حذف شده بود ) . اين دفعه تعداد نتايج ثبت شده 744 بود ، اما وقتي كه به سمت صفحه آخر حركت كرديم ، اين تعداد به 571 كاهش يافت . بعد از ذخيره صفحه ،  به پرسش برگشتيم ، اين بار تعداد نتايج به ترتيب 1030 ، 1070 و 856  شدند . اين  نوسانات ،  احتمالا به دليل سرورهاي متفاوتي است كه درخواستهاي متفاوتي را كنترل مي كنند ، ولي هنگامي كه جستجو در شبكه صورت مي گيرد ، هنوز مشكل جدي ثابليت اطمينان و پايايي موتورهاي جستجو مي باشد 3) مستند سازی شفاف ، بي پرده و واضح
گزارش اخير ( ووترز[59] ،2004) عمليات فاش سازي موتورهاي جستجو را به بحث گذاشته است ( بيشتر مرتبط با مكاندهی[60]  و شمول[61] اختصاص داده شده )
متاسفانه موتورهاي جستجو هميشه مشكلات را گزاش نمي نمايند . مثلا ، بار ايلان ( 2002) ثابت كرده كه گوگل تعداد واقعي صفحات پيوند داده شده به يك وب سايت كه توسط موتور جستجو  نمايه سازي شده  را گزارش نمي كند . تنها اخيرا گوگل به  اين مطلب اذعان داشته است ( ميزگرد سرچ انجینواچ[62] ، 2004) . حتي وقتي موتورهاي جستجو سوالات واضحي را دريافت مي دارند ، هميشه زحمت دادن پاسخ رضايتمند را برخود نمي پسندند ، مثل موردي كه با هات بوت وجود داشت ( بار ايلان ، 2000) . بعضي مواقع فشار واقع شده بر موتورهاي جستجو از طرف ميزگرد موتورهاي جستجو / متخصصان شبکه نتايج واضحتري را دريافت مي دارد. موتورهاي جستجو دليل اينكه چرا آنها اسناد نمايه سازي شده را براي بعضي از پرسشهايي كه اين مدارك بايد نهايتا در بازيابي ظاهر شوند ، پاسخ نمي دهند . ( متروپ و نيوون هايسن[63] ، 2001) مثلا پرسشي زیر را در گوگل در نظر بگيريد .

link: www.umu.se/inforsk/ISSI2005/

 اين سوال 11 نتيجه را در 29 آگوست 2005 گزارش كرد ( 10نتیجه نمايش داده شد ) . پرسش مشابه

link:http://www.umu.se/inforsk/ISSI2005

 در ياهو  96 نتيجه را گزارش كرد ( 95 نتیجه نمايش داده شد ) . دومين و سومين نتايج (مي خواستيم حداقل دو مكانياب متحد منابع  را براي پوشش به نتايج نمايش داده نشده ، برداريم ) در صفحات ياهو توسط گوگل نيز نمايه سازي شده اند .
اغلب مستندسازي كه موتورهاي جستجو فراهم مي آورند ، قابليتهای كلي موتورهاي جستجو را منعكس نمي نمايد. ویژگیهایی كه وجود دارد ذكر نشدند ، درحاليكه ویژگیهایی كه اعلام کرده اند ، بدرستي كار نمي كنند و يا وجود ندارند . مثلا ويژگي نشان دادن پیوند دامنه پیوند[64]  ياهو صفحاتي را كه به يك وب سايت پيوند داده شده است را بازيابي مي كند  ( نوتس2004) ، هرچند فرا- واژه[65] دامنه پيوند ( ويژگي بسيار مفيدي كه به تجزيه و تحليل پيوند مي پردازد ) در ياهو ذکر نشده است (2005) .
اخيرا پيوند ياهو و گزينه هاي دامنه پيوند بدرستي كار نمي كنند ( حداقل يكي از آنها – به بحث ميزگرد سرچ انجینواچ  مراجعه نمائيد ، 2005) بعنوان مثال تعداد نتايجي كه ياهوبه پرسش
 ( 536000) link:  http://www.huji.ac.il  گزارش مي كند در مقابل پرسش
 ( 309000) linkdomain: huji.ac.il  در 29 آگوست 2005 مقايسه شده است . چيزي بطور واضح اشتباه است ، وقتي كه همه پيوندها به صفحه خانگي دانشگاه هبرو[66] اشاره مي كنند بايد در پرسش دامنه پيوند بخوبي منعكس  شود . هر چند تا زماني كه موتورهاي جستجو 1000 نتبجه را نشان ميدهند ، قادر نيستيم بررسي کنیم چه مي گذرد. سعي كرديم تعدادي از سايتهاي را كه تعداد پيوندهاي داخلي كمي دارند را ( به منظور دانستن اينكه در آنها چه مي گذرد ) آزمايش نمائيم ، اما قادرنبوديم  نتايج مشكوكي را در اين موارد تهيه نمائيم .
بعضي مواقع در گوگل بنظر ميرسد در " عمليات رياضي موتورجستجو " كمي ضعيف است . مثلا ، در 29 آگوست 2005 در بين 5 دقيقه پرسشهاي زير را انجام داديم :
پرز[67] =2930000 نتيجه
رابين[68] =1230000 نتيجه
رابين پرز[69]=138000 نتيجه
رابين يا پرز 2280000 نتيجه ( كه بايد درحدود 4022000 = 138000- 1230000+2930000 باشد با پذيرش اينكه تعداد پيشين درست باشند ، اما در هر مورد تعداد نتايج بايد بيشتر از 2930000 باشد )
پرز – رابين =1540000 نتيجه ( انتظار مي رفت 2792000  = 138000+2930000 باشد )
رابين پرز = 948000 نتيجه ( اين كاملا نزديك به تعداد مورد انتظار نتايج 1092000  = 138000- 1230000  مي باشد ) .
يك دليل براي گزارش مساله برانگيز گزارش شده توسط ياهو يا گوگل ، مي تواند اين باشد كه از زمانيكه تعداد نتايج بوضوح ،  بيشتر از تعداد مدارك نشان داده شده است ، تعداد نتايج فقط يك تخمين نادرست است . همانطوريكه قبلا گفتيم ، قادر نبوديم مساله پيوند در برابر دامنه پيوند را در ياهو در دامنه هاي كوچك آزمايش نمائيم . هرچند براي گوگل ما مي توانستيم مثالهاي " كوچك " را بخوبي بيابيم . براي پرسشهای  “digifee ”  و " “transnova  گوگل بترتيب 792 و 998 نتيجه را در 30 آگوست 2005 گزارش نمود . پرسش" و" 4 نتيجه را منعكس نمود ، هرچند براي پرسش " يا " 3650 نتيجه گزارش شده ، كه بيشتر از تعداد دو پرسش منفرد بود ( 1790) – دوباره اینجا مورد اشتباهي وجود دارد. ورونيس[70] (  2005 الف ) توضيح  ممكني را براي پاسخهاي عجيب پرسشهاي بولي گوگل فراهم نموده است ، هرچند بنظر مي رسد او پيشنهاد كند كه اين مشكلات تا پايان مارس 2005 حل شده باشد . ما جستجوهاي مساله ساز را در پايان آگوست 2005 انجام داديم .
ام.اس.ان. با شمول – ممانعت[71] مشكل دارد . مثالهاي زير را در نظر بگيريد ، دوباره در 30 آگوست 2005 : امريكا ( 207967566 نتيجه ) ، اسرائيل ( 33424669 نتيجه ) ، امريكا  يا  اسرائيل ( 180406246 نتيجه ) . بنظر مي رسد كه موتورهاي جستجو هميشه  مشكلاتي با عمليات رياضي ساده دارند ، اينگورسن ( 1998)  بيان ميدارد كه تعداد نتايج گزارش شده توسط آلتاويستا را براي پرسش الف " و" ب با تعداد نتايج پرسش ب " و" الف يكسان نيست .
بعضي مواقع مستندسازي جزئي است ، مثلا شرح مفصلي براي الگوريتم رتبه بندي وجود ندارد ،  اما براي اين مورد گوگل توضيح منطقي و معقولي ارائه مي دهد ( گوگل ، 2005 الف ) . از طرف ديگر الگوريتم ريشه يابي نامشخص بكار رفته توسط گوگل تاحدي حياتي است : " زمان مناسب ، نه تنها براي واژه درخواستي  شما جستجو صورت مي دهد ، بلكه براي واژه هايي كه شبيه به واژه  مورد نظر يا به همه واژه هاي مورد نظر جستجو صورت داده مي شود "( گوگل 2005) . چه زماني ريشه يابي مقتضي فراخواهد رسید ؟ ظاهرا براي واژه هاي مفرد در برابر جمع زمان مناسب وجود نخواهد داشت .
بنظر مي رسد اهميت زيادي به صفحات كمكي[72] مبذول نشده است ، كه اين صفحات بسختي مكانيابي[73] مي شوند ، مثلا پيوندي به منوي كمك يا مستندسازي براي صفحه جستجوي ياهو وجود ندارد .

(http://search.yahoo.com)

4) بهنگام بودن   
بعضي مواقع موتورهاي جستجو براي بروز رساني نمايه هاي خود يقينا با شكست مواجه مي شوند ،  مثل  مشكلات گذشته اي كه از آلتاويستا و نورثرن لايت[74] از در ميان محققان گزارش شده است ( مثلا اولسن[75] ، 2001، يا سوليوان 1998) . ثلوال ( 2001) بررسي كرد كه براي موتورهاي جستجو چقدر طول ميكشد تا صفحات نمايه سازی نشده اي را كه پيوندهايي به آنها از صفحاتي كه قبلا به موتورهاي جستجو ارائه شده ، نمايه سازي نمايند .
درمدخل ويكيپديا[76] براي پرنس هاري[77] به چه سرعتي و چه مدت دوباره نمايه سازي ميشود .
http://en.wikipedia.org/wiki/Prince_Harry_of_Wales
 در 12 ژانویه 2005 پرنس در لباس نازی ها در یک مجلس نمایش لباس ظاهر شد .  مدخل ویکیپدیا 25 بار این مدخل جنجالی را تا 14 ژانویه 2005 بروز نموده است . گوگل نسخه پنهانی[78]  از 21 دسامبر 2004 ( که در 18 ژانویه 2005 دوباره بازنگری شده ) و نسخه بتا و پنهان ام.اس.ان. از 9 ژانویه  دارند . یاهو صفحه مورد نظر را در آن زمان پنهانی نکرده است . الان برای یک مثال بروز ، طوفان کاترینا ( که در زمان نگارش مقاله به تازگی نیواورلئان را درنوردیده است ) صفحه ای پویایی[79] از ویکیپدیا در 26 آگوست 2005 وجود دارد .
http://en.wikipedia.org/wiki/Hurricane_Katrina
 نسخه جاری در آن زمان که نسخه هایی از موتورهای جستجو را بررسی می کردیم از 29 آگوست 2005 موجود بود . گوگل هنوز صفحه مورد نظر را نمایه سازی نکرده بود ( اما وقتی در30 آگوست 2005 دوباره بررسی کردیم ، صفحه توسط گوگل نمایه سازی شده بود ) ام.اس.ان. و یاهو نیز هردو نسخه پنهانی از 27 آگوست داشتند .


5) نمایه سازی کل مدرک
لایکوس[80] عادت دارد که فقط عناوین ، سرعنوان متن[81] ، و گزیده ای از 20 خط اول را ، یا 10% مدرک را با مجموعه کلید واژه هایی که از سند استخراج شده نمایه سازی نماید . بعضی منابع ادعا می کنند که گوگل کنونی تنها 101 کیلوبایت اولی یک وب سایت را نمایه سازی می نماید ( سولیوان ،  2004 د) – ما قادر نبودیم این اطلاعات را از سایت گوگل بیابیم ( دوباره یک مورد عدم وضوح در اطلاع رساني ) . آزمایش کوچک ما این ادعا را درژانویه 2005 وقتی که ما به صفحه http://www.gutlesspacifist.com/gp/archives/2004_04.html
مراجعه کردیم اثبات می نماید ، اندازه حدود 154 کیلوبایت ، و توسط گوگل نمایه سازی شده ، و نزدیک به پائین متن ذیل ظاهر شده بود : " جنگ باید نتیجه پاسخ به پشیمانی کنونی باشد " ( این متن در نسخه پنهانی نیز بخوبی ظاهر شد ) . وقتی که دنبال این عبارت جستجو شد ، گوگل دو نتیجه را بازیابی نمود ، اما صفحه ذکر شده بالا نبود . یاهو نیز صفحه را پنهانی کرده ، و برای عبارت بخصوصی بازیابی نمود : این برای نسخه بتا ام.اس.ان. یکسان بود . برای هر سه  موتور جستجو با وارد کردن مکانیاب متحد منبع ، صفحه نشان میدهد که موتورجستجو آنرا نمایه سازی کرده است یا نه . زمانیکه آزمایش را در آگوست 2005 دوباره اجرا می کنیم ، 154 کیلوبایت طول صفحه در نتيجه جستجو ظاهر می شود ، که بنظر میرسد گوگل متن بیشتری را به نسبت تصویر نسبته به قبل نمایه سازی می کند . این بار ما کتابهای الکترونیک پروژه گوتنبرگ در اخلاقیات توسط ارسطو به آدرس  
http://www.gutenberg.org/dirs/etext05/8ethc10.txt  را  آزمایش کردیم . – یک صفحه و چندین سایت جایگزین[82] توسط گوگل نمایه سازی شده بود و ظرفیت آن نیز 662 کیلوبایت بود ، هرچند همه نسخه های پنهان در 514 کیلو بایتی ( و ناگهان در میانه جمله ) متوقف شده بودند  ، و اگر ما برای یک عبارت در زیر این نقطه جستجو کنیم ،  نمی توانیم آنرا بیابیم ، درحالیکه جستجوها در نقطه بالای متن موفقیت آمیز خواهند بود . نکته جالب توجه اینکه برای پرسش  “Greek: hae peri ta aethae pragmateia aen dikaion esti prosagoreuen politikaen” ( نزدیک پایان کتاب ) ، نسخه پی.دی.اف[83] اخلاقیات توسط گوگل بازیابی شد ، هرچند این پرونده های پی.دی.اف.ظرفیت 730 کیلوبایت داشتند . بنابراین بنظر می رسد در میانه سال 2005 گوگل حدود 500 کیلو از صفحات اچ.تی.ام.ال. را نمایه سازی می کند درحالیکه برای مدارک پی.دی.اف. این محدوده بیشتر است . دوفز[84]( 2005) در آوریل 2005 گزارش کرد که گوگل شاید بیشتر از 101 کیلو اولیه را نمایه سازی می نماید . ام.اس.ان. نسخه 7 بیتی کتاب الکترونیکی http://www.gutenberg.org/dirs/etext05/7ethc10.txt  که 662 کیلو ظرفیت دارد را نمایه سازی می کند و واژه های یونانی را در پایان کتاب بازیابی می نماید . حتی یاهو هم که نسخه های 7 بیتی و 8 بیتی را نمایه سازی می نماید هیچکدام از اینها را هنگامیکه واژه های یونانی جستجو میشده ، بازیابی نکرده است . یاهو تنها 525 کیلو اولیه این فایلها را نمایه سازی می کند . موتورهای جستجو حداکثرظرفیت متن که برای یک صفحه وجود دارد را بیان نمی کنند ، بنابراین فقط می توانیم در باره این مساله تصور نمائيم .


6) زمان پاسخگویی ، دسترس پذیری
گرچه گوگل تقریبا همیشه قابل دسترس است ،  در جولای 2004 توسط ویروس مایدوم[85]  ویروسی شد و برای چند ساعت کار نمی کرد ( شیم و کانلوس [86]2004) . بنظر میرسد یاهو در مورد تعداد درخواستها در یک چهارچوب زمانی محدود است ( فرنچ[87] 2004) ، زمانیکه این محدودیت بیشتر می شود شخص پيغام "سرور مشغول است ، و دوباره امتحان کن " را بجای نتیجه واقعی دریافت می دارد . مشکل دیگر اینست که موتور جستجو نتایج جستجو را بدلیل وقفه هایی که گزارش نشده اند یا برای کاربر قابل توجه بوده اند ،  نمایش نمی دهند ( به پاسخ آلتاویستا به پرسش الاستیر اسمیت[88] توجه نمائید 1999) .


7) عینیت –  بدون تاثير عوامل تجاری و بدون تاثیر بر محیط
تمام صنعت بهبود موتورهای جستجو به منظور طراحی و دوباره طراحی صفحات وب که در واژه های جستجویی بخصوصی در موتورهای جستجو بخصوص افزایش یافته اند ، صورت می پذيرد . کاربران سعی می کنند از موتورهای جستجو " درخواست کنند " ، بنابراین بجاي اینکه ابزارهای فاقد جسارتی باشند ، موتورهای جستجو عاملهای تاثیرگذاری در شبکه شده اند .
انترونا و نیسنباوم[89] ( 2000 ) بطور مفصل و مشروح قدرت سیاسی موتورهای جستجوی عظیم را به بحث گذاشته اند . موتورهای جستجو ، تجاری هستند و مجبورند مزایای خود رانشان دهند ، بنابراین بطور طبیعی موضوعات عامه پسند را بطور گسترده تری پوشش می دهند ، که تبلیغات بیشتری بر روی آنها انجام شده است . با توجه به اینکه برنامه های تبلیغاتی عمده ( " پیوندهای پشتیبانی شده [90] " بوسیله موتورهای جستجو تصاحب شده (Adwords توسط گوگل و Overture توسط یاهو ). ون کوورینگ[91] ( 2004) اینکه " سیستم کنونی فراهم آوری خدمات پیوسته برای مردم خوب است " را به پرسش می کشاند .
شامل شدن در نمايه موتورها[92] ، مورد بحث انگيز ديگري است – گرچه مكاندهي آنها را ضمانت نمي كند - سطح پوشش درستي از يسامد روزآمد رساني را ضمانت مي نمايد كه براي  شركت كنندگان در اين برنامه ها مزايايي دارد . هم اكنون تنها ياهو برنامه امکان شمول را در ميان چندين موتور جستجوي بحث شده دارد . زمانيكه برنامه در ماه  مه 2004 معرفي شد موردي بسيار بحث برانگيز شد . ( سوليوان 2004)
" گوگلینگ (Googling) " ( " جستجو كردن نام شخصي در گوگل كه به كوشش براي يافتن اطلاعات بيشتر درمورد وي منجر می شود " Whatis.com،2004)  و " گوگل بمبینگ  (Google bombing) " ( " تلاش براي تاثير گذاری در رتبه بندي يك سايت در نتايج منعكس شده توسط گوگل " ، ويكيپديا ، 2005) در فعاليتهاي اجتماعي ، امري پذيرفته شده است . بارايلان ( بي تا ) صفحات رقابتي[93] در مدخل ويكيپديا در مورد يهود و صفحه خانگي jewwatch.com را مشخص نموده  است .
گوگلينگ ، گوگل بمبينگ ، بهمراه بهینه سازی ترقي گونه موتورهای جستجو و صنعت بازاريابي ( سمپو[94] 2004) نشانگر تاثير موتور جستجو بر محيط خود مي باشند . در دانشگاه واشينگتن ، حتي رشته گوگل وجود دارد ( " اين يك پديده اجتماعي شده است ، " جين[95] ، 2004)


8) همه نتايج گزارش شده قابل بازيابي باشند
هم اكنون همه موتورهاي جستجويي كه در اين مقاله بحث شده اند تعداد نتايج خود را به مقداري كه خود براي نمايش هر پرسش بخواهند ، محدود مي كنند . گوگل و ياهو هزار نتيجه و ام.اس.ان. 250  نتيجه نمايش مي دهند . اين مشكل مي تواند با استفاده از فنون بخش بندي متفاوت ، تا حدي برطرف شود ( مثلا با دامنه و تاريخ ) . جستجوهاي تاريخي مي تواند از طريق  " رابط نهايي گوگل "  http://www.faganfinder.com/google.html ) براي اين موتور ، اجرا شود ، هرچند گزينه محدود كردن تاريخ در گوگل ( حدفاصل تاريخي[96] : استفاده از شكل تاريخي ژولين[97] ) در مدتي پيش كار خود را متوقف كرده بود ( دوباره گزارش نشده است ) . هنوز در مرجع رابط اعمال برنامه ریزی گوگل مستند شده است ( گوگل 2005 ای ) بنابراين از طريق رابط اعمال برنامه ریزی ، قابل اعمال است .  همان تعداد نتايج با حدفاصل تاريخي و بدون آن منعكس شده است :  عملگر براي پرسش اطلاع سنجي: حدفاصل تاريخي به 1 ژوئن و 1 سپتامبر 2005 محدود شده است و جستجوها در 1 سپتامبر انجام شده است . ابزار كمكي گوگل پيشرفته[98] تاريخ را فهرست مي نمايد : توضيحگر( به فرد اجازه مي دهد براي " منابع " در 3،6 و 12 ماه جستجو صورت مي دهد :
 تعداد نتايج در 6 و 12 ماه بطور قابل توجهي كمتر از تعداد نتايج در 3 ماه گذشته است ! . همه جستجوها بين سه دقيقه انجام شده ، و این عمل برای بررسی تعداد تکرار شده است . جستجوهاي مشابه در ياهو پاسخهاي غير متناقضي را فراهم مي نمايد .  جستجوهاي پيوندي نمي تواند با هيچ گزينه اي در گوگل تركيب شود ، بنابراين محدوده  كاري حدفاصل تاريخي ،  نمي تواند براي شكستن نتايج به قطعات كوچكتر به منظور گرفتن بيش از 1000 نتيجه باهم تركيب شود . فرم جستجوي پيشرفته آلتاويستا مي تواند  براي جستجوهاي محدود به تاريخ براي ياهو مورد استفاده قرار گيرد ( آلتاويستا توسط ياهو اداره مي شود )


9) گزينه های رتبه بندي ، دسته بندي مختلف
تنها ام.اس.ان. گزينه اي براي تاثير در رتبه بندي نتايج جستجو دارد ( ام.اس.ان. ، 2005) – فرد مي تواند اسلايدهايي را براي تنظيم اهميت دقت انطباق و نقاط پيوند به صفحات ، و با توجه به تاريخ صفحه اي كه به  نمايه اضافه شده  ، ميتواند استفاده نمايد . هرچند وقتي جستجو براي " كاترينا " صورت می گیرد و تنظيم تازگي به حداكثر انجام می شود و همه ديگرمولفه ها به حداقل كاهش مي يابند ، اولين نتايج موردي است از 30 آگوست 2005 ، درحاليكه موارد معدود بعدي از 30 آگوست 2005 مي باشند ( جستجوها در 1 سپتامبر 2005 در ساعت 9 صبح ) . نتايج بالاي " تازگي " جستجو بندرت متفاوت از نتايج جستجوهاي منظم براي كاتريناست .
موتورهاي جستجوي متفاوت بطور قابل توجهی الگوريتمهاي رتبه بندي متفاوتی را بکار می بندند . داگپایل[99] ابزار زیبایی دارد که به استفاده کنندگان اجازه میدهد رتبه بندی نتایج را در ده نتیجه گوگل ، یاهو ، ام.اس.ان. و اسکجیوز را با یکدیگر مقایسه نماید .http://comparesearchengines.dogpile.com/index.aspx  .  آنها اخیرا مطالعه ای را درهمپوشانی مبتنی بر بیش از 22000 جستجو منتشر کرده اند ( داگپایل 2005) . مطالعه توسط تیمی که توسط آماندا اسپینک و جیم جینسن[100] اداره شد  ، به انجام رسید . ووگان[101] ( 2004) بطور تجربی رتبه بندی موتورهای جستجو را با قضاوت انسانی مقایسه نمود . معیارهای متفاوتی برای مقایسه رتبه بندی توسط فاژین [102]و دیگران( 2003) و بارایلان ، لونس و مت – هسن[103] ( 2004) معرفی شد .


10) نمایش برونداد بصورت منعطف
بعضی از احتیاجات توسط موتورهای جستجو به انجام رسیده اند . فرد می تواند گزینه انقضای سایت را در یاهو و ام.اس.ان. فعال و غیرفعال کند ( از طریق رابط آلتاویستای آن ) . موتورهای جستجو به استفاده کننده اجازه می دهند تعداد نتایج صفحه را تنظیم نمایند . هیچکدام از آنها تکنیکهای خوشه بندی[104] را بکار نمی گیرند ( مثل موردی که در ویویسیمو http://vivisimo.com   بکارگرفته شده ) و استفاده کنندگان نمی توانند شکل برونداد را برای نتایج فردی تغییر دهند . آنها به استفاده کننده اجازه می دهند ،  فیلتر گذاری محتوای فحشاء را فعال و غیر فعال نمایند .


11) نتایج پنهان
گوگل ، یاهو و ام.اس.ان. دسترسی به نسخه پنهان صفحات را پیشنهاد می کنند . گوگل و ام.اس.ان. نیز تاریخی که صفحات پنهان شده اند ، که ویژگی مفید اضافی را فراهم می نمایند.

 
12) بازیابی با کیفیت بالا در زبانهای غیر انگلیسی
موتورهای جستجویی که در اینجا به بحث گذاشته شده اند ، فنون بخصوصی را برای ارتقاء نتایج برای زبانهای غیر انگلیسی بکار نمی بندند ( بارایلان و گوتمن[105] 2005) . برای زبان آلمانی ، بنظر می رسد گوگل بعضی تکنیکهای اضافی را بکار گرفته است ( گوگنهایم[106] و بارایلان 2005) .


13) رابط اعمال برنامه ریزی در دسترس
هم اکنون گوگل[107]  و یاهو[108]  ای.پی.آی. را پیشنهاد می کنند .


14) جستجوهای تمام بولی ، گوناگونی عملگرها
موتورهای جستجوی تجاری به " مردم" ارائه خدمت می کنند ، و مردم نمی خواهند از عملگرهای بولی استفاده نمایند ، و وقتی که از عملگرها استفاده می نمایند  ، اغلب بطور کامل و صحیح از آنها استفاده نمی کنند ( یانسن و دیگران 2000) . بنابراین جستجوهای تمام بولی ( اجازه به استفاده از پرانتز و دیگر فنون که تا از  گزاره هاي ترکیبی استفاده نمایند ) در ليست عمليات موتورهای جستجو در درجه اول قرار ندارد . همانطور که قبلا دیدیم ، حتی " یا " مستقل بطور کامل و صحیح در گوگل عمل نمی نماید ، و پرانتز بی معنی است . حتی نتایجی که از " عملیات ریاضی ساده استفاده می کنند " ( + / -) بنظر می رسد بدرستی در گوگل کار نمی کند . انتظار می رود که تعداد نتایج برای پرسش " کارولینسکا " برابر با مجموع تعداد نتایج پرسش " کارولینسکا استکلهلم " و " كارولينسكا – استكهلم "‌  باشد ، هرچند نتایج بسیار متفاوت است ( 823000 در مقابل 1370000 ) یاهو و ام.اس.ان. هیچ چیزی درباره پشتیبانی از پرانتز نمی گویند ، اما بنظر میرسد قابل اعمال باشند .عملگر قرابت  یا  همجواری توسط هیچکدام از موتورهای جستجو پشتیبانی نمی شوند ( آلتاویستا معمولا عملگر قرابت را بکار می گيرد ) . گوگل عملگر * دارد ( 2005) ، قرمز* آبی به این معنی است که قرمز و آبی با یک یا بیش از یک واژه از یکدیگر جدا شده اند . مورد جالب توجه اینست که کمتر از یکسال پیش ( گوگل ، 2004 ) از  * به معنی دقیقا یک واژه جدا از هم بکار میرفته است ، بنابراین با معنی بود اگر" اطلاع سنجی * کتابسنجی " در مقابل " اطلاع سنجی * * کتابسنجی " جستجو می شد . معنی جدید عملگر * ، از آنجایی که ما می دانیم ، اینست که تنها " کتابسنجی اطلاع سنجی " و " اطلاع سنجی کتابسنجی " را ( بعنوان یک عبارت ) از مجموعه ای از نتایج  برای اطلاع سنجی کتابسنجی (این بار  نه یک عبارت جستجويی  ) بیرون نگاه می دارد ، هرچند این مورد وجود نداشت ، و ما نمی توانستیم معنی این عملگر را کشف نمائیم .
نه  ( یا یک " –  " قبل از واژه جستجویی ) یک عملگر است ، که بعنوان یک عملگر مستقل مفید است . هم اکنون هم ام.اس.ان. و هم گوگل  آنرا پشتیبانی می نمایند ، اما یاهو از آن پشتیبانی نمی نماید .


15) فنون پیشرفته برای بازیابی داده برای تجزیه و تحلیل پیوند
 قابلیتهای کنونی موتورهای جستجو برای بازیابی پیوندهای داده شده از یک وب سایت  ، زمانیکه آلتاویستا و آل د وب  هنوز خدمات مستقلی بودند (پيوندهاي خارجي[109]) ،  بدتر از آنچه قبلا استفاده می شده ، مي باشد . بنابراين عملگر پیوند (‌  : ) صفحاتی را بازیابی می نماید که پیوندهایی به صفحات مشخص داشته اند و در این مورد مقصد یک راهنما ست كه همه صفحات پیوند دهنده به هر صفحه ( نمایه شده توسط موتور جستجو ) در این راهنما وجود دارد ، گرچه این در صفحات کمکی بوضوح بیان نشده بود ( آلتاویستا ، 2002 ، آل د وب ، 2003) . گوگل قادر است بعضی از صفحات پیوند را بازیابی نماید ( بعضی ، نه همه آنها ، میزگرد سرچ انجينواچ ، 2004 ، بارایلان 2002) و تنها به صفحات بخصوصی این پیوند صورت می گیرد ، و این جستجو نمی تواند با چیز دیگری ترکیب شود . در یاهو ، ویژگی مستند نشده دامنه پیوند ( کالیشاین[110] 2004) و می تواند با دیگر واژه ها جستجویی ترکیب شود ، اما این به بازیابی پیوندها به صفحات میزبان مورد نظر کمک می نماید ، هرچند این جستجو عمل نمی نماید ، اگرمثلا ما بخواهیم پیوند هایی که به سایت رونالد روسو منجرشده است را به آدرس زيرمطالعه نمائیم .
http://users.pandora.be/ronald.rousseau/  و نخواهیم تنها به مطالعه صفحه خانگی بپردازیم ، اخیرا ، ام.اس.ان. عملگر دامنه پیوند ( : ) را به امکانات خود اضافه نموده است .


16) گوناگوني توضیحگرهای جستجو
بعضی از محدودیتها ، مثلا محدود کردن جستجو به یک دامنه یا یک زبان وجود دارند . آنها همیشه قابل ترکیب نیستند . مثلا گوگل همه واژه های بعد از 32 مين واژه را در یک پرسش نادیده می گیرد ( معمولا تنها 10 واژه را در نظر گرفته ) . ام.اس.ان. بطور واضح محدودیت جستجو در 10 واژه را دارد (مستند نشده است ) ، برای پرسش " 1 ، 2 ......11" نتايجي وجود نداشت ، اما صفحه http://www.timeanddate.com/calendar/?year=2004&country=1
توسط اين موتور نمايه سازي شده است ، و صفحه پنهان شامل شماره هايي بين 1 و 11 است . بنظر ميرسد ياهو محدوديت زمان پرسش نداشته باشد . همه موتورهاي جستجو طول واژه ها را تا اندازه اي محدود مي نمايند ( نوتس 2005) . راه آساني براي جستجوهاي محدود به زمان براي باهو ، رابط پشرفته آلتاويستا است كه براي اين امر بسيار بهتر است . هم اكنون ام.اس.ان. جستجوي محدود به تاريخ را اجازه نمي دهد . بسيار مفيد است اگر قادر باشيم در يك سايت يا دامنه ، بدون واژه هاي جستجو اضافي و يا با آن  واژه ها جستجو نمائيم ( جدول 1 را ببينيد ) . اين جستجو ها با جستجوهاي پيوندي مركب در تحقيقات وب سنجي ظاهر مي گردند . مثلا پرسش
linkdomain:issi-society.info -site:issi-society.info همه صفحاتي را كه به صفحات جامعه آي.اس.اس.آي. پيوند داده است را نشان داده  ،  درحاليكه خود پيوندها را از ميان آنها خارج مي نمايد . ( كه اغلب براي اهداف ناوبري[111] استفاده مي شود ) . اين پرسشها در گوگل به دو دليل ممكن نيست ، اين موتور عملگر دامنه پيوند را ندارد ، و حتي اگر پرسش  
linkdomain:issi -society.info for link: www.issi-society.info/ را بكار بريم ( صفحه خانگي جامعه آي.اس.اس.آي. ) قادر نخواهيم بود صفحات خود پيوند را ، زمانيكه عملگر پيوند نمي تواند تركيب شود از صفحات خارج نمائيم . اين محدوديتي جدي براي اجراي تحقيقات مبتني بر پيوند مي باشد .


17) ويژگيهاي اضافي : ريشه يابي ، كوتاه سازي ، چپ/راست نويسي ، نويسه عام ، حساسيت به حروف ، بررسي هجي ، انقضاء سايت .
هر سه موتور جستجو بعضي از انواع بررسي هجي را دارند ، همه آنها به حروف بزرگ حساس نيستند ، و ريشه يابي در آنها بي تاثير است ( نوعي ريشه يابي در گوگل وجود دارد ( گوگل 2005 ب) ، وضعيت ديگر موتورهاي جستجو معلوم نيست ) . معمولا  استفاده از نويسه عام يا ديگر وسايل كوتاه سازي را اجازه نمي دهند . ياهو ممكن است نوعي ريشه يابي را بكار بندد : گرچه تعداد نتايج بازيابي شده براي " سگ " و براي  " سگها " متفاوت است ، در هر دو حالت " سگ " و " سگها " در جزئيات[112] پررنگ شده است . از ديدگاه محقق بهتر است موتورهاي جستجو به آنها اجازه دهند ريشه يابي ، حساسيت به حروف و كوتاه سازي فعال يا غير فعال شود . معمولا فرد مي تواند انقضاي سايت را در ام.اس.ان. و ياهو فعال و غير فعال نمايد  ، اگر رابط التاويستا بكار گرفته شود ( حداكثر دو صفحه از يك سايت ) .
 
18) كمك جستجو : بازخورد ربط ، صفحات و جستجوهاي مشابه / مرتبط ، شخصي سازي
گوگل گزينه اي براي بازيابي " صفحات مشابه " به يك صفحه بخصوص دارد ; هرچند اين ويژگي استفاده محدودي دارد ، اما بنظر ميرسد در مقايسه با تجربه قبل ما با اين ويژگي ،  در حال توسعه است . در 3 سپتامبر 2005 صفحاتي كه بطور منطقي با صفحه خانگي رونالد روسو مرتبط بود ارائه شد ، اما هنگاميكه بدنبال صفحات مرتبط با تعريف " chunnel  " در ويكيپديا ( اسم مستعار انگليسي channel ) رفتيم ، نتايج بسيار نا اميد كننده بودند .
ياهو چيزي در امتداد خطوط مرتبط با جستجوها پيشنهاد مي كند ، براي موضوعات وسيع ، ليستي  از پرسشها در زير واژه " نيزسعي كنيد " آورده ميشود . براي " اطلاعات " ليست كاملي از جستجوها شامل بيش از صد پيشنهاد ، شامل " اطلاعات درباره زندانيهاي بخش آشپزي " ، اما نه شامل "  بازيابي اطلاعات "  آورده مي شود ( احتمالا مردم بيشتر " اطلاعات درباره زندانيهاي بخش آشپزي " را به نسبت " بازيابي اطلاعات " جستجو كرده اند . ام.اس.ان. به ما اجازه مي دهد تا " اطراف رتبه بندي را نيز امتحان " نمائيم ( موثر بودن اين گزينه بايد بيشتر مورد تحقيق قرار گيرد ) .
شخصي سازي موضوع  داغي است . گوگل اخيرا خدمت " جستچوي شخصي شده " را معرفي كرده است ، جائيكه شخصي سازي بر اساس تاريخچه جستجوي كاربر مبتني است . اين ويژگي شايد براي تحقيقات شبكه مفيد باشد ( بعنوان راهي براي دريافت صفحات " بهتر" در بين 1000 نتيجه بازيابي شده ) ، هرچند مفيد بودن آن در آينده كشف خواهد شد .


19) توانايي تركيب همه ويژگيها در يك سوال ساده ( شامل تعداد نامحدود واژه هاي جستجو ) يا ايجاد تنظيمات ، براساس نتايج قبلي ( مدل "ساختن بلوك " ) .
گوگل و ام.اس.ان. تعداد واژه هاي جستجو را در يك پرسش محدود مي كنند ( گرچه گوگل اخيرا محدوديت را از 10 به 32 افزايش داده است ) اين مورد مي تواند براي محققين شبكه طراحي كه پرسشي دقيق را بوجود مي آورند ،  نقصان محسوب مي شود . گوگل جستجوي بولي پيچيده را اجازه نمي دهد ( استفاده از پرانتز ) و تركيب عملگر پيوندها ( : ) را با هر واژه جستجويي ، ممكن نساخته است . گوگل اجازه مي دهد " درون نتايج قبلي جستجو " انجام شود ، اما اين ،  تنها راهي ديگر براي اضافه كردن واژه هاي جستجويي به پرسش مي باشد ، نه اينكه بر روي مجموعه نتايج قبلي ، جستجويي انجام دهيم ، همانطوريكه دربعضي از سيستمهاي جستجويي ممكن است ( مثلا ديالوگ[113] و وب آو ساينس[114] ) .


20)‌ قابليتهاي بازيابي غير متني
هم اكنون همه موتورهاي جستجو  ، جستجوي تصوير را پيشنهاد مي كنند (‌احتمالا عمدتا بر اساس توصيف متني )‌. تحفيفات زيادي در حوزه بازيابي اطلاعات چندرسانه اي صورت مي گيرد . قابليتهاي جستجوي غير متني كه مورد علاقه محققين شبكه است ، خارج از حوزه مقاله كنوني است .
 
 
نتيجه گيري :
موتورهاي جستجوي تجاري ، از روياي محققان شبكه در مورد يك ابزار شبكه ايده آل ، نسبتا دور هستند . چيزي كه ما نيازمند آنيم ، ابزاري قابل اعتماد و منعطف به جامعه علمي است . احتمالا ما فهرست آمال و آرزوهاي محققان شبكه را بطوركامل پوشش نداده ايم ‌، اما اين فهرست را آغاز نموده ايم . لنارت بجورنبورن[115] پيشنهاد مي كند كه اين موتور جستجوي ايده آل را "‌ وبومت[116] "‌ بناميم . الان ما نامي براي آن داريم و ويژگيهايي اساسي اين موتورها را نيز داريم  – ما نيازمند بودجه ،‌ منابع و دانش چگونگي آن هستيم .
چند كلمه درباره پايايي اين مطالعه . ما همه اين تحقيقات را ذخيره كرديم ،‌ و در مورد تاريخي ( و اغلب ساعت آن ) كه اين جستجوها انجام شده  نيز دقت نموديم . جستجوها بصورت وسيعي ذخيره شده و در اين مقاله مستند شده است .‌ تا زمانيكه تقريبا  بدست آوردن دقيق نتايج غيرممكن خواهد بود ،  ضروري بود جستجوها در زمان گزارش مقاله ذكر گردند . آماده ايم كه خواننده علاقمند را با داده هاي خام اين مطالعه آشنا نمائيم .
در اكثريت مثالهااز گوگل استفاده شده است . دليل اين امر اينست كه از زمانيكه گوگل اخيرا محبوبترين موتور جستجوست (‌ كامسكور ، 2005‌)‌، بيشتر توجه ما معطوف به عملكرد اين موتور بوده است . در مطالعات بعدي تصميم داريم ديگر موتورهاي جستجو را نيز همينگونه در امر تحقيق "‌ زير ميكرسكوپ " قرار دهيم . هرچند كه موتورهاي جستجو نقصهايي دارند ، ولي‌ ما از آنها هم در زندگي روزمره و هم در تحقيق ، استفاده مي كنيم ،‌ زيرا تنها ابزارهاي جستجويي در شكل وسيع در امر بازيابي هستند كه بطور رايگان براي همگان قابل دسترس هستند .
ما قصد داريم ويژگيهاي در دسترس را بصورت دوره اي بازنگري كرده ( مثلا در سال يك مرتبه ) و پيشرفتها را منتشر نمائيم . نسخه اوليه اين مقاله در صورتجلسات آي.اس.اس.آي سال 2005ظاهر شد( بارايلان ، 2005ب) ،‌ كه قابليتهاي موتورهاي جستجو را در ابتداي سال 2005 بررسي كرديم . با مقايسه دو نسخه مي توان تفاوتها و توسعه هايي را مشاهده كرد ،‌ كه نشان دهنده نياز به  ارزيابي دوره اي است . شبكه و موتورهاي جستجو بطور مداوم درحال تغييرند ، بنابراين در آينده كامل ضروري است ويژگيهاي جديد ‌، براي تحقيقات شبكه در دسترس باشد .

پيشنهاد مي كنيم مجموعه اي از آزمايشها را با راهنمايي روش شناختي درباره اجرا و مستند سازي اين آزمايشها براي ارزيابي عملكرد موتورهاي جستجو بطور متناوبي ايجاد شود .
 

تشكر
از همكاري لنارت بجورنبورن براي فهرست نمودن ويژگيها ،‌ و مخصوصا رونالد روسو كه ايده نوشتن اين مقاله را (‌ چند سال پيش )‌ به ما دادند قدرداني مي كنيم .    
 
منابع :


‌Albert, R., Jeong, H., & Barabasi , A.L.( 1999) . The diameter of the world wide web . Naturre, 401, 130- 131. 
AlltheWeb (2003). Query language.<http://web.archive.org/web/20031002014314/http://www.alltheweb.com/help/faqs/query_language>  (archived October 2،2003، accessed September 2، 2005)
AltaVista (2002). Searching Web elements.<http://web.archive.org/web/20010413160155/doc.altavista.com/help/search/search_web_elements.html> (archived October 4، 2001،    accessed September 2، 2002)
Ambrogi، R. J. (1995). Legal research on the Internet. A primer. <http://www.legaline.com>  (accessed September 1، 2005 )
Bar-Ilan، J. (2000). Evaluating the stability of the search tools HotBot and Snap: A case study.  Online Information Review، 24(6)، 439-449.
Bar-Ilan، J. (2002). How Much Information Search Engines Disclose on the Links to a Web Page? – A Longitudinal Case Study of the 'Cybermetrics' Home Page. Journal of Information Science،  28(6).
Bar-Ilan، J. (no date). Web links and search engine ranking - The case of Google and the query  “Jew”. To appear in the Journal of the American Society for Information Science and  Technology.
Bar-Ilan، J. (2002a). Methods for Measuring Search Engine Performance over Time. Journal of the  American Society for Information Science and Technology.، 54(3)، 308-319، 2002.
Bar-Ilan، J. (2002b). How Much Information Search Engines Disclose on the Links to a Web Page? –A Longitudinal Case Study of the 'Cybermetrics' Home Page. Journal of Information Science، 28(6) 455-466.
Bar-Ilan، J. (2005). What do we know about links and linking? A framework for studying links in academic environments. Information Processing and Management، 41(4)، 973-986.
Bar-Ilan، J. (2005b). Expectations versus reality – Web search engines at the beginning of 2005. In Proceedings of the 10th International Conference of the International Society for Scientometrics and Informetrics، 87-96.
Bar-Ilan، J.، & Gutman، T. (2005). How do search engines respond to some non-English queries. Journal of Information Science، 31(1)، 13-28.
Bar-Ilan، J.، Levene، M.، & Mat-Hassan، M. (2004). Dynamics of search engine rankings – A case study. In Proceedings of the 3rd International Workshop on  Web Dynamics، New-York، May  2004. http://www.dcs.bbk.ac.uk/webDyn3/webdyn3_proceedings.pdf   (accessed August 31، 2005)
Bar-Ilan، J.، Mat-Hassan، M.، & Levene، M. (no date). Methods for comparing rankings of search engine results. To appear in Communication Networks. Preliminary version   http://arxiv.org/abs/cs.IR/0505039>  (accessed September 1، 2005)
Bharat، K.، & Broder، A. (1998). A technique for measuring the relative size and overlap of public Web search engines. In Proceedings of the 7th International World Wide Web Conference، April  1998، http://www.ra.ethz.ch/CDstore/www7/1937/com1937.htm  (accessed September 1، 2005)
Brewington، B. E.، & Cybenko، G. (2000). Keeping up with the changing Web. Computer، 33(5)، 52-58. Brin، S.، & Page، L. (1998). The anatomy of a large-scale hypertextual Web search engine.    In Proceedings of the 7th International World Wide Web Conference، April 1998.
<http://www-db.stanford.edu/pub/papers/google.pdf>  (accessed September 1، 2005)
Broder، A.، Kumar، R.، Maghoul، F.، Raghavan. P.، Rajagopalan، S.، Stata، R.، Tomlins، A. & Wiener،
J. (2000). Graph structure in the Web.http://www.cindoc.csic.es/cybermetrics/articles/v9i1p2.html  In Proceedings of the 9th International World Wide Web Conference، May 2000. <http://www9.org/w9cdrom/160/160.html>   (accessed September 1،2005)

Callishain، T. (2004). Yahoo ’s groovy linkdomain syntax. ResearchBuzz.  
     <http://www.researchbuzz.org/yahoos_groovy_linkdomain_syntax.shtml>  (updated  May 26، 2004، accessed September 2، 2005)
Cheney، M. & Perry، M. (2005a). A comparison of the Yahoo and Google indices.
     <http://vburton.ncsa.uiuc.edu/oldstudy.html>  (updated 16 August، 2005، accessed 29  August، 2005)
Cheney، M. & Perry، M. (2005b). A comparison of the Yahoo and Google indices.
     <http://vburton.ncsa.uiuc.edu /indexsizepage.html> (accessed 29 August، 2005)
comScore (2005). comScore reports July 2005 search engine
rankings.<http://www.comscore.com/press /release.asp?press=622 >  (updated on 19
August 2005، accessed on 27 August، 2005).
Cyber Atlas (2000). Web pages by language. 
<http://www.clickz.com/stats/sectors/demographics/article.php/408521>  (updated
on 5 July، 2000، accessed on 27 August، 2005)
Dogpile (2005). Different engines، different results <http://comparesearchengines.dogpile.com/OverlapAnalysis.pdf>   (accessed September 1، 2005)
 Duffez، O. (2005). Google indexes more than 101K per document. Search Engine News.
<http://www.prweaver.com/blog/2005/04/07/170-google-indexes-more -than-101k-per-document>  (updated April 7، 2005،accessed August 29، 2005)
Faba -Perez، C.، Guerrero-Bote، V. P.، & De Moya -Anegon، F. (2003). Data mining in a closed Web
environment. Scientometrics، 58(3)، 623-640.
Fagin، R.، Kumar، R. and Sivakumar، D. (2003). Comparing top k lists. SIAM Journal on Discrete Mathematics، 17(1)، 134-160.
Fetterly، D.، Manasse، M.، Najork، M.، & Wiener، J. (2004). A large-scale study of the evolution of Web pages. Software: Practice and Experience، 34(2)، 213-237.
French، G. (2004). Tool compares Google and Yahoo algorithms. <http://www.webpronews.com/insiderreports/searchinsider/wpn-49- 20040312ToolComparesGoogleAndYahoo Algorithms.html> (updated March 12، 2004، accessed August 30، 2005)
Global Reach. (2004). Global Internet statistics (by language).<http://www.global-reach.biz/globstats/ >  (updated on 30 March،2004، accessed on 27 August، 2005)
Google (2004). Google help: Cheat sheet .<http://web.archive.org/web/20041128004753 AND /http://www.google.com/help/cheatsheet.html>   (archived November 28،  2004،accessed September 1، 2005)
Google (2005a). Information for Webmasters.<http://www.google.com/webmasters/4.html>  
(accessed August 29،2005)
Google (2005b). The basics of Google search .<http://www.google.com/intl/en/help/basics.html >  (accessed August29، 2005)
Google (2005c). Google Help: Cheat sheet. <http://www.google.com/help/cheatsheet.html>  
(accessed September1، 2005)
Google (2005d). Advanced search made easy <http://www.google.com/intl/en/help/refinesearch.html >  (accessed September 1، 2005)
Google (2005e). Google Web APIs (beta). <http://www.google.com/apis/reference.html>  
(accessed Spetember1، 2005)
Guggenheim، E.، & Bar-Ilan، J. (2005). Tauglichkeit von Suchmaschinen f ür deutschesprachige
Abfragen. Information، Wissenschaft und Praxis، 56(1)، 35-40.
Huberman، B. A.، & Adamic، L. A.، (1999). Growth dynamics of the World Wide Web. Nature، 401، 131.
Ingwersen. P. (1998). The calculation of Web Impact Factors. Journal of Documentation، 54(2)، 236-243.
Introna، L. D.، & Nissenbaum، H. (2000). Shaping the Web: Why the politics of search engines matters . The Information Society، 16، 169-180.
Janes، J. W. (2004). LIS 598. Google.<http://www.ischool.washington.edu/jwj/google/>  (accessed September 1، 2005)
Jansen، B. J.، Spink، A.، & Saracevic، T. (2000). Real life، real users and real needs: A study and analysis of user queries on the Web. Information Processing and Management، 36، 207-227.
Kleinberg، J. M. (1998). Authoritative sources in a hyperlinked environment. Journal of the ACM، 46(5)، 604-632، 1999.
Kumar، R.، Novak، J.، Raghavan، P.، & Tomkins، A. (2003). On the bursty evolution of Blogspace، In
Proceedings of the 12th International World Wide Web Conference، (pp. 568-576).<http://www2003.org/cdrom/papers/refereed/p477/p477-kumar/p477- kumar.htm>  (accessed September 1، 2005)
Kumar، S. R.، Raghavan، P.، Rajagopalan، S.، & Tomkins، A. (1999). Trawling emerging cyber –communities automatically. In Proceedings of the 8th International World Wide Web Conference ، May 1999. <http://www8.org/w8-papers/4a-searchmining/trawling /trawling.html>  (accessed September 1، 2005)
Lawrence، S.، & Giles، C. L. (1998). Searching the World Wide Web. Science،280 (5360)، 98-100.
Lawrence، S.، & Giles، C. L. (1999). Accessibility of information on the Web.Nature، 400، 107-109.
Mettrop، W.، & Nieuwenhuysen، P. (2001). Internet search engines - fluctuations in document
accessibility. Journal of Documentation، 57(5)، 623-651.
MSN (2005). Search builder and advanced search options.<http://search.msn.com/docs/help.aspx?t=SEARCH_REF_AdvSrchOperators.htm> (accessed September 1، 2005)
MSN (2005b). New operators explained. MSN Search’s Weblog.<http://blogs.msdn.com/msnsearch/archive/2005/06/24/432439.aspx>  (updated June 24، 2005، accessed September 2،2005)
Notess، G. (2000). Search engine inconsistencies. Online (March 2000).
<http://www.onlinemag.net/OL2000/net3.html> (accessed September 1، 2005)
Notess، G. (2005). Yahoo! Review on Search Engine Showdown. Search Engine Showdown.<http://www.searchengineshowdown.com/features/yahoo/review.html >  (updated April 25، 2005، accessed August 29، 2005).
Notess، G. (2005b). Long word showdown. Search Engine Showdown.<http://www.searchengineshowdown.com/stats/longwords.shtml>  (updated March 5، 2005،accessed September 2، 2005).
Olsen، S. (2001). AltaVista serving up out-of-date listings. <http://news.com.com/2100 -1023-274839.html?legacy=cnet> (accessed September 1، 2005)
Oxford Dictionary (1989). Reliability.<http://dictionary.oed.com/cgi /entry/50202002?query_type =word&queryword=reliability&first=1&max_to_show=10&single=1&sort_type=alpha>  (accessible through subscription، accessed January 15، 2005).
Price، G. (2005). More on the total database size battle and Googlewhacking with Yahoo.Searchenginewatch.<http://blog.searchenginewatch.com/blog/050811-231448>
(updated 11 August، 2005، accessed 28 August، 2005).
Rousseau، R. (1999). Daily time series of common single word searches in AltaVista and NorthernLight. Cybermetrics، 2/3(1)، paper 2.<http://www.cindoc.csic.es /cybermetrics /articles/v2i1p2.html > (accessed September 1، 2005)
Shim، R.، & Kanellos، M. (2004). Google downed by latest MyDoom. Retrieved January 13، 2005، from <http://news.zdnet.co.uk/internet/0،39020369،39161678،00.htm>
(accessed September 1، 2005)
Searchenginewatch Forum (2004). Google say not reporting all backlinks. <http://forums.searchenginewatch.com/showthread.php? t=2423&page=2&pp=20>  (updated November 18، 2005، accessed August 29، 2005)
Searchenginewatch Forum (2005). Ridiculous increase in Yahoo backlink counts & is bigger index real? <http://forums.searchenginewatch.com/showthread.php?threadid=7195>  (updated August 4، 2005، accessed August 29، 2005)
SEMPO (2004). Summary report: The state of search engine marketing 2004. <http://www.sempo.org/research /SEMPO-Market-Sizing -2004-SUMMARY-v1.pdf>  (accessed September 1، 2005)
Smith، Alastair (1999). ANZAC webometrics: exploring Australasian Web structures. In Proceedings of Information Online and On Disc 99: Strategies for the next millennium. Sydney، Australia، 19-21 January 1999 [Sydney]:ALIA، 1999. Pp 159-181. <http://www.csu.edu.au /special/online99/proceedings99/203b.htm>  (accessed August 30، 2005).
Snyder، H. & Rosenbaum، H. (1999). Can search engines be used as tools for web-link analysis? A critical view. Journal of Documentation، 55، 375-384.
Spink، A.، & Jansen، B. J. (2004). Web search: Public searching the Web.London: Springer.
Statistical Cybermetrics Research Group (2004 a). SocSciBot3.<http://socscibot.wlv.ac.uk/help /tutorial3.html > (accessed September1، 2005)
Statistical Cybermetrics Research Group (2004b). The academic weblink database project.
<http://cybermetrics.wlv.ac.uk/database/> (accessed September 1،2005)
Sullivan، D. (1998). Northern Light add search functions، freshens index.
<http://searchenginewatch.com/sereport/article.php/2166471 (accessed September 1، 2005)
Sullivan، D. (2004a). Major search engines and directories.<http://searchenginewatch.com/links/article.php/2156221> (accessed September 1، 2005)
Sullivan، D. (2005). Search engine sizes. Searchenginewatch.<http://searchenginewatch.com/reports/article.php/2156481> (updated 28 January، 2005 ، accessed August 28، 2005).
Sullivan، D. (2004c). Yahoo reawakens the paid inclusion debate.Searchenginewatch. <http://searchenginewatch.com/searchday/article.php/3355221>  (accessed
 September 1، 2005)
Sullivan، D. (2004d). Search engine size wars V erupts. Searchenginewatch. <http://blog.searchenginewatch .com/blog/041111-084221>   (updated November
 11، 2004، accessed August 29، 2005)
Thelwall، M. (2000a). Web impact factors and search engine coverage. Journal of Documentation،  56، 185-189.
Thelwall، M. (2001). A web crawler design for data mining، Journal of Information Science 27(5)،  319-325.
Thelwall، M. (2001b). The responsiveness of search engine indexes. Cybermetrics، 5(1)، paper 1. <http://www.cindoc.csic.es/cybermetrics/articles/v5i1p1.html>  (accessed September   1، 2005)
Thelwall، M. (2003). What is this link doing here? Beginning a fine-grained process of identifying   reasons for academic hyperlink creation. Information Research، 8(3).
 <http://informationr.net/ir/8 -3/paper151.html>  (accessed September 1، 2005)
Thelwall، M. (2005). Link analysis: An information science approach. San Diego: Academic Press.
Vaughan، L. (2004). New measurements for search engine evaluation proposed and tested.   Information Processing and Management، 40 (4)، 677-691.
Van Couvering، E. (2004). New media? The political economy of Internet search engines. Paper  presented at the Annual Conference of the International Association of Media &  Communications Researchers، Porto Alegre، Brazil.<http://personal.lse.ac.uk/vancouve/IAMCR-CTP _SearchEnginePolitical Economy_EVC_2004-07-14.pdf http://personal.lse.ac.uk/vancouve /IAMCR-CTP_SearchEnginePoliticalEconomy_EVC_2004 -07-14.pdf>  (accessed September 3، 2005)
Veronis، J. (2005a). Google’s missing pages. Mystery solved? Technologies du Langage.  <http://aixtal.blogspot.com/2005/02/web-googles -missing-pages-mystery.html>  
  (updated February 8، 2005،accessed October 17، 2005)
Veronis، J. (2005b). Google: A snapshot of the update. Technologies du Langage.  <http://aixtal.blogspot.com/2005/03/google-snapshot-of -update.html>  (updated
  March 25، 2005، accessed October 17، 2005)
Whatis.com (2002). Googling.<http://searchwebservices.techtarget.com/sDefinition/0،،sid26_gci799367،00.html>  (updated March 9، 2002، accessed September 1، 2005)
Wikipedia (2005). Google bomb.<http://en.wikipedia.org/wiki/Googlebomb>  (updated   August 29،2005، accessed September 1، 2005)
Wouters، J. J. (2004). Searching for disclosure: How search engines alert consumers to the   presence of advertising in search results.<http://www.consumerwebwatch.org/news/paidsearch/finalreport.pdf>  (accessed September 1، 2005)
WWW10 Panel (2001). Search: Beyond the keyword interface. At The 10th International World Wide Web Conference، Hong-Kong، May 2000. Outline.<http://www10.org/program/w10-panel.shtml>   (accessed September1، 2005)
Yahoo (2005). Help: Using meta search words to find specific URLs، subpages، link popularity and   more. http://help.yahoo.com/help/us/ysearch/tips/tips-08.html  (accessed 29 August،   2005).

پانوشتها:


 [1] International Journal of Scientometrics، Informetrics and Bibliometrics ISSN 1137-5019، VOLUME 9 (2005): ISSUE 1. PAPER 2
 [2] Judit Bar – Ilan
 [3]  rezarajab_beglou@yahoo.com
 [4]  Multidisciplinary
 [5] Thelwal
 [6] Albert، Jeong & Barabasi،
 [7] SocSciBot
 [8]  Crawler
 [9]  CYBER metrics
 [10] Spink
 [11] Jansen
 [12] Huberman & Adamic،
 [13]  Broder
 [14] Fetterly
 [15] http://www.archive.org
 [16]  Sullivan
 [17] http://www.teoma.com
 [18] http://beta.exalead.com/search
 [19] Comscore 
 [20]  Stability
 [21] ‌Timeliness
 [22] snapshot
 [23] Brewington and Cybenko’s (2000) (a،ß)-currency measure.
 [24] Timeouts
 [25] Spammers
 [26]  Placement
 [27] Inlinks
 [28] Anchors
 [29]  Snippet
 [30] Cached results
 [31] Cyber Atlas
 [32] Globalstats
 [33]  API (application programming interface )
 [34] Partial Results
 [35] NEAR
 [36] ADJACENT
 [37]  Relative links
 [38] Embedded content links
 [39] WWW10 Panel، 2001
 [40]  Stemming
 [41] Truncation
 [42] Wildcard
 [43] Case sensitivity
 [44] Co-word
 [45] Lycos
 [46] Ambrogi
 [47] Lawrence and Giles
 [48] Sullivan
 [49] Price
 [50] Cheney and Perry
 [51] Snyder and Rosenbaum
 [52] Djibouti
 [53] Suriname
 [54] Notess
 [55] Rousseau
 [56] Hotbot
 [57]  Snap
 [58] stability
 [59] Wouters
 [60]placement
 [61] inclusion
 [62] Searchenginewatch forum
 [63] Mettrop & Nieuwenhuysen
 [64] Linkdomain
 [65] Meta – word
 [66] Hebrew
 [67] Peres
 [68] Rabin
 [69] Rabin Peres
 [70] Veronis
 [71] Exclusion
 [72] help pages
 [73]  Locate
 [74] Northern Light
 [75] Olsen
 [76] Wikipedia
 [77] Prince Harry
 [78] Cached Copy
 [79] Active Page
 [80]  Lycos
 [81] Header text
 [82] Mirror Site
 [83] PDF
 [84] Duffez
 [85] MyDoom Worm
 [86] Shim & Kanellos،
 [87] French، 2004
 [88] AltaVista’s email answer to Alastair Smith’s query 1999
 [89] Introna and Nissenbaum)2000)
 [90] sponsored links
 [91] Van Couvering (2004)
 [92]  Paid inclusion
 [93] competing pages
 [94] SEMPO
 [95] Janes
 [96] Daterange
 [97] Julian
 [98] Google’s advanced
 [99] Dogpile
 [100] Amanda Spink and Jim Jansen
 [101] Vaughan
 [102] Fagin
 [103] Levene and Mat-Hassan
 [104] clustering
 [105] Gutman
 [106] Guggenheim
 [107] http://www.google.com/apis
 [108] http://developer.yahoo.net
 [109]  Backlinks
 [110] Callishain
 [111] Navigation
 [112] Snippets
 [113] Dialog
 [114] Web of Science
 [115] Lennart Bjorneborn
 [116]  Webomet