در وبلاگستان ایران چه خبر است؟ گزارش دوم – نگاهی به سرویس مورد علاقه ۱۷۳۶ وبلاگ نویس ایرانی
توسط کمانگیر در روز 30 دسامبر 2007دسامبر 30
امروز صبح اولین گزارش پروژه “کی به کیه؟” رو پست کردم (ببینید: در وبلاگستان ایران چه خبر است؟ گزارش اول – نگاهی به آدرس های ایمیل ۱۴۱۶ وبلاگ نویس ایرانی). این پروژه از یک ربات نرم افزاری برای جمع آوری اطلاعات از وبلاگستان استفاده می کنه. بزودی یک صفحه اختصاصی برای این پروژه ایجاد می کنم و اونجا بیشتر توضیح می دم که داستان کلا چیه.
از صبح تاحالا تعداد منابع به ۲۸۷۴۲ افزایش پیدا کرده، چون چند ساعتی کامپیوتر رو روشن گذاشتم که ربات کارش رو بکنه. اینجا دو نمایش می بینید. اولی نشون می ده ۱۵۶۵ آدرس ایمیلی که توسط “کی به کیه؟” جمع آوری شده در کدام سرویس ها قرار دارند. بوضوح ما وبلاگ نویسان ایرانی به یاهو و جیمیل بسیار علاقه داریم.
نمایش زیر سرویس مورد استفاده وبلاگها را نشان می ده. دقت کنید که ربات هنوز تحلیل متنی انجام نمی ده و به همین دلیل هنوز امکان تشخیص اتوماتیک وبلاگهای فارسی روی بلاگ اسپات و وردپرس را نداره. برای این امکان ایده هایی دارم که هنوز اجرا نشده اند. به هر حال بلاگفا بوضوح سرویس اول وبلاگ نویسی برای ۱۷۳۶ وبلاگ مورد بررسی ه.
اگر ایده ای برای اضافه کردن به این تحلیل دارید مرحمت می کنید کامنت بگذارید یا ایمیل بزنید. اگر اهل استفاده از این تحلیل ها در یک تحقیق دانشگاهی هستید من شدیدا خوشحال می شم این کار رو منتشر کنیم.
کار بسیار جالبیه. میشه اطلاعات جامعه شناسی خیلی خوبی از این برنامه ذرآورد مثل تعداد جزیره های وبلاگی که وجود داره یا تعداد وبلاگهای فعال وبلاگستان. خسته نباشی مهربون 🙂
کمانگیر: ممنون عزیزم.
بسم الله
من خودم در میهن بلاگ مینویسم. این سرویس ایرانی علاوه بر دامنهی اصلی از چند دامنهی دیگر هم استفاده میکند.(برخلاف بلاگفا و پارسی بلاگ و پرشین بلاگ که فقط دو دامنهی دات کام و آی آر دارند.)
به علاوه این که آماری که مدیران این سرویسها از تعداد کاربران خود میدهند، شبیه به نمودار مربوط به نرمافزار شما نیست. (بلاگاسکای سوم؟!)
به نظرم تا رسیدن به یک جامعهی آماری مناسب خیلی کار دارید. پیشنهاد میکنم که در مورد سرویسها، به آیپی سرویسها توجه کنید تا چند دامنه بودن وبلاگها در نتیجه تاثیری نداشته باشد.
کمانگیر: مهدی عزیز، در کد persianblog.com رو به persianblog.ir تغییر می دم. همینطور blogfa.ir رو به blogfa.com. بقیه دامنه های اینچنینی رو اگر بهم کمک کنی به کد اضافه کنم مرحمت کردی.
بخش دوم نتایج شما چندان معتبر به نظر نمی رسد. زیرا ربات شما بسته به اینکه کار وبگردی را از کدام سرویس دهنده شروع کرده باشد؛ وبلاگهای بیشتری را از آن سرویس دهنده اندیس خواهد کرد. بویژه اینکه تعداد نمونه ها نسبت به تعداد جامعه بسیار کم است. بنابراین هنگام دسته بندی نمونه ها، توزیع آنها مساله ای جدی می شود. دو الگوریتم معمول رباتهای وبگرد، الگوریتم پیمایش Breath-First و Depth First می باشند که هردو هم به نقطه شروع حساس هستند. آیا شما هم از همین روشها استفاده کرده اید؟ زمانی می توانید روی نتایج این روشها آنالیز آماری انجام دهید که مطمئن شوید نمونه های شما توزیع یکنواختی در جامعه مورد بررسی دارند
پیشنهاد می کنم از یک Craweler استاندارد یا حداقل رایج و شناخته شده استفاده کنید. اگر بخواهید نتیجه کار خود را به صورت آکادامیک منتشر کنید؛ بدون توصیف ساختار ربات که به صورت ضمنی روش نمونه گیری شما را دربر می گیرد؛ نتایج بدست آمده قابل اعتماد نخواهند بود.
کمانگیر: جناب منصوری زاده. این نتایج بسیار ابتدایی هستند. به همین دلیل من مرتب تعداد نمونه ها را گوشزد می کنم. همین الان ربات در حال کاره و تعداد وبلاگ های شناسایی شده به ۲۹۸۸ رسیده. الگوریتم کار هم اضافه کردن منابع پیدا شده به یک Pool و بعد انتخاب وبلاگ های فارسی از این Pool به کمک نشانه های اعمال شده است. به هر حال مرحمت کردید و نکات بسیار مهمی رو اشاره کردید بهشون. دارم کار می کنم روی گزارش رسمی تر نحوه کار الگوریتم.
در زمینه نقطه شروع هم امیدوارم با همگرایی الگوریتم اثر نقطه شروع از بین بره.
یک پیشنهاد دارم، اینکه عکسهایی که در وبلاگت می گذاری در جای دیگری غیر از کمانگیر.کام باشه. اخه از تو فید این عکس ها معلوم نیست و باید دست به دامان انواع و اقسام فیلتر شکن شد تا ببینیمشان
کمانگیر: کمال جان نمی دونم به لحاظ فنی چکار باید بکنم اما روی چشم. سعیم رو می کنم که راهش رو پیدا کنم. در ضمن، کمانگیر دات نت! 🙂
سلام کمانگیر
می شه در مورد رباتی که ساختی حرف بزنی؟ که چه جوری کار میکنه، با دلفی نوشتی؟ کلا یه کوچولو در مورد شیوه کار این ربات توضیح بدی ممنون می شم رفیق…
کمانگیر: دوست عزیز اینجا به انگلیسی توضیح دادم. بی زحمت بفرما اگر کافی نبود.
ممنون کمانگیر…
کمانگیر: چاکریم رفیق.