کی به کیه؟ – ربات جستجوگر در وبلاگستان

kebeki.pngنسخه کوتاه:

“کی به کیه؟” پروژه ای که است از ماه دسامبر ۲۰۰۷ (آذر ۱۳۸۵) شروع کرده ام. هدف این پروژه، ترسیم گراف ارتباطی وبلاگستان است. آخرین گزارشهای این پروژه را در این آدرس ببینید.

نسخه بلند:

اساس “کی به کیه؟” رباتی است که وب سایتها را بدنبال لینک جستجو می کند. لینکهای یافته شده در هر صفحه به بانک اطلاعاتی افزوده شده و جستجو ادامه پیدا می کند. جزییات این عملیات اما در نسلهای مختلف متفاوت است که در پایین توضیح داده می شود.

نسل صفر – در این نسل، با شروع از persian.kamangir.net، هر وب سایتی که یافت شود به بانک داده اضافه شده و سپس جستجو می شود. آخرین نتایج این نسل حاکی از پیدا شدن حدود ۸۰ هزار وبلاگ فارسی بود (ببینید: گزارش چهارم “کی به کیه” – ۸۰.۰۰۰ وبلاگ فارسی بررسی شده اند).

کمی پس از اینکه نتایج بالا گزارش شد، بدلیل افزایش حجم بانک داده به ۲ گیگابایت و مشکلات اساسی تکنیکی، جستجو متوقف شد (ببینید: اندر حکایت ِ در گل گیر کردن پروژه “کی به کیه؟”).

نسل یک – در این نسل، تفاوت عمده در نحوه انتخاب وبلاگهایی است که مورد پیمایش قرار خواهند گرفت. همانطور که در یک پست توضیح داده شد (ببینید: یک ایده ناب برای “کی به کیه؟”)، در هر مرحله، تمام منابع پیمایش نشده بر حسب تعداد لینک ورودی مرتب شده و سپس ۱% بالا انتخاب می شود. نقطه آغاز در این پروسه همچنان persian.kamangir.net است. بدین صورت، پس از اجرای برنامه در چندساعت، بانک داده ای از ۳۰۰۰ وب سایت پیمایش شده ایجاد شد که نتایج در اینجا گزارش داده شد.
بعضی وبلاگهای روی بلاگفا (مثال) حاوی قسمتی در کد هستند که تعداد زیادی لینک در آنها درج می کند، بدون اینکه روی صفحه دیده شوند. این پدیده باعث گمراه شدن سیستم و “داغ” در نظر گرفته شدن وبلاگهای “بی ربطی” روی بلاگفا می شد. بنابراین، در این نسل، در انتخاب داغ ترین منابع، خروجی هیچ وبلاگی روی بلاگفا درنظر گرفته نشد.

نسل ۱ از دو مشکل اساسی رنج می برد. نخست اینکه بدلیل اینکه عملیات استخراج صفحات وب به کمک یک API وابسته به Internet Explorer انجام می شود، کدهای درج شده در وبلاگها بوسیله سرویسهایی نظیر بلاگرولینگ یا دلیشس در تحلیل لحاظ نمی شوند. همینطور، مشکل ایجاد شده توسط وبلاگهای روی بلاگفا باید در مرحله ابتدایی تری حل شود.

نسل ۲ – در روز ۱۶ اسفند سال ۱۳۸۶، کار روی نسل دوم آغاز شد. در این نسل تفاوت عمده در این است که آغاز کار نه فقط از یک وبلاگ که از ۱۰ وبلاگ برتر لیست در آخرین گزارش است. همینطور، لینکهای خروجی در وبلاگهای روی بلاگفا از ابتدا در سیستم وارد نمی شوند.

پست های مرتبط: به این گروه مراجعه کنید.

پستهای مرتبط با این پروژه در گروه “کی به کیه؟” جمع شده اند.

آخرین تغییر صفحه: ۱۶ آوریل ۲۰۰۸ – ۲۹ فروردین ۱۳۸۷