آخرین آمار: “کی به کیه؟” ۱۰۰٫۰۰۰ وبلاگ ایرانی را پیدا کرده است، گزارش سوم
توسط کمانگیر در روز 2 ژانویه 2008ژانویه 2
آقا این “کی به کیه؟” داره عجیب باحال می شه (اگر خبر ندارید، “کی به کیه؟” پروژه کشف گراف ارتباط در وبلاگستان فارسی و استخراج اطلاعات از اونه. اینجا می تونید کمی بیشتر ببینید: در وبلاگستان ایران چه خبر است؟ گزارش اول – نگاهی به آدرس های ایمیل ۱۴۱۶ وبلاگ نویس ایرانی).
تعداد منابع به عدد رویایی ۱۳۰٫۰۰۰ رسیده که از این تعداد ۱۶٫۰۰۰ تا وبلاگ بررسی کامل شده اند و ۹۵٫۰۰۰ تا در صف بررسی هستند. دو روز گذشته کامپیوترم تمام وقت مشغول کار بوده و تونسته ۱۳٫۲۷۲ آدرس ایمیل از وبلاگ نویسان ایرانی پیدا کنه. جالب اینه که همچنان تحلیل های قبلی (ببینید: در وبلاگستان ایران چه خبر است؟ گزارش دوم – نگاهی به سرویس مورد علاقه ۱۷۳۶ وبلاگ نویس ایرانی) درست هستند.
در بین ۱۳٫۲۷۲ آدرس ایمیل پیدا شده، یاهو مقام اول را داره و جی میل بعدیه. در گزارش قبلی که فقط شامل ۱٫۵۶۵ آدرس ایمیل بود ترتیب همین بود اما درصدها ۲-۳ درصدی متفاوت بودند.
حدود سه چهارم ۱۶٫۰۷۰ وبلاگ پیدا شده روی بلاگفا هستند و سرور بعدی پرشین بلاگ ه. در گزارش قبلی که شامل ۱٫۷۳۶ وبلاگ بود ترتیب همین بود و باز هم درصد ها کمی متفاوت بودند.
باز هم می گذارم کامپیوترم چندروزی روشن بمونه.
یادمه یکبار داشتم میگشتم به این نتیجه رسیدم که بلاگفا پر از spamه. این را بررسی کردی؟ مثلا باید راحت باشه که یک ۵۰ تا نمونه از بلاگفا در بیاری و چک کنی ببینی واقعاٌ وبلاگ درست حسابین یا از اینهایین که پر از لینک اتفاقی هستن.
در مورد persianblog هم حتما .com ها را .ir کردی دیگه، نه؟
کمانگیر: داستان اسپم ها رو کاری نمی تونم بکنم جز اینکه بتونم فرکانس آپدیتشون رو چک کنم. ممنون از یادآوری. د رمورد persianblog هم بله. عین همین داستان درمورد blogfa هم هست. باز هم ایده ای داشتی مرحمت می کنی بگی.
آقا اول اینکه برای این رباتت یک وقفه زمانی برای دسترسی به هر آدرس تعریف کن!چون در حالت معمولی مثلا خواندن هزاران وبلاگ در فاصله زمانی محدود یک جور فشار اضافی به سرور وارد میکند. در ضمن ممکن است توسط فایروال به عنوان یک حمله اینترنتی شناخته شود و درخواست رد شود.
همچنین امیدوارم که از ایمیلهای که جمع میکنید تنها برای آمار استفاده کنید و احیانا به هر دلیلی توسط خود شما یا دیگران برای ارسال نامه های الکترونیک مورد استفاده قرار نگیرد.
در مورد وبلاگهای اسپم نیز که در بخش کامنتها اشاره شده است.معمولا وبلاگهای اسپم هیچ وقت به سطحی از معروفیت را رنک خاصی نمی رسند و مثلا به آنها لینک داده نمی شود.همچنین خود ما نیز در مقاطع زمانی آنها را حذف میکنیم. اما در کل میتوانید با آنالیز اینکه چند لینک به یک وبلاگ وجود دارد و این وبلاگ نیز به چند وبلاگ دیگر لینک داده است! و هچنین در صورتی که تاریخ پستها را هم جمع میکنید میتوانید از تاریخ پستها متوجه اهمیت یک وبلاگ (و اینکه اسپم نیست) بشوید.
یک نکته هم در مورد پویش وبلاگها به نظر من نقطه شروع و در واقع فهرست وبلاگهای اولیه برای شروع پیمایش است.این نیز می تواند در وبلاگهای بعدی مورد پیمایش تاثیر داشته باشد. مثلا معمولا وبلاگهای زیر مجموعه یک سرویس دهنده لینکهای بیشتری به وبلاگهای دیگر همان سرویس وبلاگ دارند.بنابراین شاید لازم باشه از چند فهرست متفاوت برای شروع پویش و پیدا کردن وبلاگهای دیگر استفاده شود.
خیلی هم خوبه که گزارشی از وبلاگهای فعال سرویس دهنده ها بدهید اینکه مثلا در دو ماه گذشته مثلا چه تعداد از وبلاگهای پویش شده فعال بوده اند (پست جدیدی داشته اند) و اینکه درصد آن در سرویسهای متفاوت چقدر است.(اینجوری به نوعی نقش یک سرویس دهنده در انعکاس مسائل و رویدادهای روز هم مشخص تر می شود).
کمانگیر: آقای شیرازی عزیز بسیار مرحمت کردید. مطمئن باشید از آدرس های ایمیل استفاده نابه جایی نخواهم کرد. در مورد فاصله برای دسترسی هم چشم. در مورد بررسی تاریخ آپدیت شدن هم چشم. در مورد اینکه از چند جا شروع کنم، فکر نمی کنید درصورتی که سیستم به اندازه کافی کار کرده باشه و مثلا چند صد هزار وبلاگ پیدا کرده باشه نقطه شروع دیگه اهمیتی نداره؟ به هر حال ممنونم.
در مورد نقطه شروع! این گراف باعث شد که اینگونه فکر کنم. به نظرم میرسه که وبلاگهای مثلا میهن بلاگ بایستی از درصد بیشتری برخورد دار باشه هرچند که وبلاگهای سیاسی کمتری در این سرویس وجود دارد. در واقع مثلا اگر لینکهای موجود در سایتی مثل بالاترین را به عنوان نقطه شروع در نظر بگیریم احتمالا خزنده ما به سمت پویش وبلاگهای سیاسی بیشتر خواهد رفت. البته در نهایت مشکل چندانی در نتیجه پویشگر ایجاد نمی شود چون مثلا الان شما بیش از صد هزار وبلاگ را پویش کرده اید که این خود یک بخش بزرگی از وبلاگها هستند.
کمانگیر: دقیقا من هم همینطور فکر می کنم. با افزایش تعداد منابع اهمیت نقطه شروع کم می شه.
با سلام
ممکن است بنویسید این برنامه چطور کار می کند؟ آیا مثلا بر اساس همین کامنت من می فهمد که آی پی من چیست؟ یا باید حتما خودش سرور باشد تا بداندکه به چه کسانی ایمیل می زنم؟ باید شماره آی پی را بداند یا نه؟ چطور می فهمد؟ لطفا پاسخ خود را در
http://www.iranglobal.info
هم بنویسید که همه بدانیم
کمانگیر: سامان جان فکر کنم خیلی بد توضیح دادم داستان کمی قاطی شده. الان ساعت ۱۰ شب ه. فردا صبح توضیح می دم. شاد باشید.