گزارش چهارم “کی به کیه” – ۸۰٫۰۰۰ وبلاگ فارسی بررسی شده اند
توسط کمانگیر در روز 14 ژانویه 2008ژانویه 14
در آخرین گزارش “کی به کیه؟” گفتم که ۱۳۰٫۰۰۰ وبلاگ فارسی شناسایی شده اند. امروز این تعداد به ۱۷۰٫۰۰۰ تا رسیده که از این تعداد ۷۸٫۰۰۰ وبلاگ بررسی کامل شده اند و ۹۴٫۰۰۰ تا در صف هستند. از این وبلاگ ها بیش از ۵۰٫۰۰۰ آدرس ایمیل استخراج شده. برای اطلاعات بیشتر در مورد اهداف این پروژه به صفحه “کی به کیه؟” مراجعه کنید (انگلیسی).
نکته جالب عدم افزایش طول صف علی رغم افزایش ۵ برابری تعداد وبلاگ های بررسی شده است که ممکنه بدلیل نزدیک شدن به نقطه همگرایی باشه، البته آمار ِ شفاهی در مورد تعداد وبلاگ ها بسیار بیش از اینه. بنابراین هنوز در این زمینه نمی شه با قاطعیت چیزی گفت.
همچنان یاهو سرویس برتر ایمیل از نظر وبلاگ نویسان ایرانی ه.
و بلاگفا هم همچنان سرویس اول وبلاگ نویسی در ایران.
درصد استفاده از یاهو و جیمیل رو من شاخص بسیار مناسبی برای نشون دادن سطح اطلاعات عمومی و پیشرفت کاربران فارسی زبان اینترنت میدونم!
کمانگیر: موافقم. البته من هم یاهو استفاده می کنم. 🙂
دو تا پیشنهاد:
۱٫بد نیست پراکندی وبلاگهای فارسی در سرویسهای خارجی را هم یا در همین گزارش یا در گزارش تفکیکی دیگری بررسی کنید.حالا سوال اینجاست که این فهرست وبلاگهای فارسی در این سرویس دهنده ها از کجا بایستی تهیه شود.! راهکار پیشنهادی من این است که لینکهای از بلاگر و وردپرس یا هر سرویس وبلاگ معروف خارجی دیگر را در همین بانک وبلاگهایی که فعلا تهیه شده را بررسی کنی. در واقع با این دید که بالاخره یک وبلاگ در بلاگر یا وردپرس در یکی از وبلاگهای فارسی در سرویسهای ایرانی هم لینک شده است میتواند فهرستی از وبلاگهای فارسی در بلاگر یا وردپرس تهیه کرد.برای اینکه ببنید که وبلاگ فوق هم فارسی هست یا خیر میتوانید در متن وبلاگ چند حرف فارسی معمول را جستجو کنید.یا اینکه فقط تیتر وبلاگ (تگ تایتل) را چک کنید. همچنین میتواند برخی تگهای معروف را هم وردپرس و یا کلمات معمول فارسی در جستجوگر بلاگر را نیز جستجو کنید و مثلا تا ده صفحه از نتایج جستجو را برای تهیه فرهست اولیه بدست بیاورید.
پیشنهاد دوم بررسی فهرست وبلاگها از مجموعه لینکهای درج شده در سایتی مثل بالاترین است. به نظرم وبلاگهایی که در بالاترین و بخصوص در لینکهای داغ می آیند میتواند نشانگر از بخشی از وبلاگهای تاثیرگذار و فعال فارسی باشد.در چنین حالتی دیگر بحث اسپم و یا وبلاگهای غیرفعال نیز وجود ندارد.هرجند که به عنوان یک نقد بر روی همین نظرم میتوانم بگویم که معمولا معدودی از وبلاگها(حال جه بدلیل معروف بودن و…) بخش بزرگی از لینکهای داغ را تشکیل میدهند. اما به هر حال لینکهای بالاترین هم یک فهرست است و آنالیز آن میتواند نتایج جالبی داشته باشد. راستی در زمینه وبلاگهای فعال فکر کردید؟
کمانگیر: جناب شیرازی عزیز ممنونم که باز سر زدید. و ممنون از پیشنهادهاتون. این مدت شدیدا درگیر کدنویسی بودم. حجم دیتابیس امشب به ۱٫۵ گیگا رسید. به همین دلیل خیلی بهینه سازی مهم ه. برای پیدا کردن وبلاگهای فارسی روی بلاگ اسپات و وردپرس دقیقا همین دو ایده رو دارم. با مهدی یحیی نژاد هم تماس گرفتم برای اجازه اسکن صفحات بالاترین. از اونطرف روی پروژه دیدیش هم دارم کار می کنم که اطلاعات جانبی اضافه می کنه به سیستم.
برای وبلاگهای فعال هنوز نه. کمی ایده دارم اما به پلتفرم ها ربط داره و آسون نیست.
مرحمت می کنید نظر می دید.
آقا در ضمن میزان درخواست ها را کنترل کردم به سرورها فشار نیاد.
کمانگیر جان٬
اگر زحمتی نیست یک استعلام بگیر از پایگاهدادهات ببین که وبلاگ من رو هم پیدا کرده یا نه. صرفا از روی کنجکاوی! بعد ببین ایمیلی که توی وبلاگم دادم رو هم در آورده یا نه. البته بعید میدونم!
کمانگیر: حتما فردا صبح این کار را می کنم و رکوردت رو اینجا می نویسم. البته چون روی بلاگ اسپات هستی به احتمال قوی در صف پردازش هستی.
پس نوشت: ایناهاشی رفیق:
Record 243004 / 296241
-url : mentaldialogues.blogspot.com
-Status : Pending
-Script : NAVL
-decision : SCRIPT_PARSIBLOG
-Links : (0 items) None
-Linkedat : (6 items) barsavoush1977.blogfa.com, barsavoush1977.persianblog.ir,greenpalace.blogfa.com, jasmina.persianblog.ir, gandomgoon.blogfa.com, giutin.blogfa.com
درود دوباره
۱٫چند تا پیشنهاد! البته شما که استادی ولی خوب همیشه همه برنامه نویسها از هم فکری خوششون می آید!.
نمی دانم برای جستجو لینکها یا آنالیز محتوا چه کار میکنی ولی اگر با regular exp یا regx کار نکردی ! فکر کنم کار با اون به شدت بهت کمک کنه که با خطوط خیلی کم و حتی سرعت بهتر بتوانی آنالیز بهتری انجام بدهی. مثلا با یک خط میتوانی تمام لینکها را از یک متن دربیاوری یا اینکه تعداد آنها را بدانی یا حتی تعریف کنی که لینکهایی که در آن یک آدرس (مثلا سایت ) خاص وجود دارد.
۲٫اگر به دیتا بیش مای اسکیو ال یا اس کیو ال سوئیچ کردی گزینه Full text search را مد نظر داشته باشه با این شیوه یک کاتالوگ یا ایندکس از محتوا ساخته میشه و امکان جستجو در دیتابیس و در فیلدهای تکست خیلی سریع میشه.مثلا خیلی سریع میتوانی در کل دیتابیس جستجو کنی که کدام رکوردها دارای یک کد یا محتوای خاصی هستنند. اینکار بدون ایندکس و مثلا با کد where like روی این حجم دیتا بسیار وقت گیر است.اما با دستوراتی مثل Contain در حالت Full Text کار ساده تر خواهد بود.
۳٫به نظرم حتما یک دیتا بیس از لینکها و لینکهایی که هم داده اند (شبکه لینکها) درست کنید. اینجوری نیاز به تحلیل دیتابیس یک گیگا بایتی نیست.(این دیتابس شامل یک جدول از لینکها و کد اختصاص داده شد و یک جدول شامل کدهایی که بهم لینک داده اند خواهد بود.)
۴٫برای وبلاگهای به روز شده بغیر از بررسی فید یک روش دیگر هست که البته ممکن است اشتباهاتی داشته باشد و اون پترن و آدرس لینکهای آرشیو یا گاهی آدرس مستقیم پستها در سرویس دهندگان هست. مثلا در بلاگفا اگر در صفحه اول وبلاگی ۸۶۰۹٫aspx باشد یعنی احتمالا پستی با در ماه نهم سال ۸۶ ثبت شده
کمانگیر: شما بسیار مرحمت دارید. ببخشید که دیر جواب می دم.
۱- کمی بیشتر توضیح می دید؟
۲- ممنون. دیتابیس حدود ۲ گیگابایت شده و مشکلاتی پیش اومده. بنظرم وقتشه که شروع کنم به استفاده از مای اسکیو ال.
۳- من وبلاگها رو با url شان کد میکنم. بنظرم باید مثلا blogfa.com رو با *bعوض کنم برای کم کردن حجم.
۴- دقیقا درست ه. اما برای سرویس دهنده ای فرق می کنه.
بسیار ممنونم از ایده هاتون. باز هم بی نصیب نگذارید.
آیا محتوای وبلاگها را هم نگهداری می کنید ؟
کمانگیر: خیر.
شما با این آدرس ایمیل ها چی کار دارید!نکنه میخواید انقلاب راه بیندازید!d
کمانگیر: بد فکری هم نیست ها. ایمیل می زنیم میگیم ملت بیان تو خیابون. 🙂
کمانگیر جان٬
حالا ایمیل رو در نیاورده بود؟ این وضعیت Pending یعنی این که هنوز پردازش نشده برای یافتن ایمیل؟
کمانگیر: یعنی هنوز وبلاگت پروسس نشده. این اطلاعات از جاهای دیگه در اومده. البته درست میگی، از Pending که در بیاد ایمیل رو هم نشون می ده.
سلام جناب کمانگیر
وقتتون بخیر
یه سئوال! راهی وجود داره که بفهمم مثلا وبلاگ من هم در این آمار لحاظ شده یا نه؟