نوشته هایی که درمورد ’ کی به کیه؟ ’ هستند

گفتم که کار روی پروژه ی “پروفایلر” (روند کار) رو شروع کردم. این پروژه از ارتباطات وبلاگستانی ها استفاده می کنه برای اینکه تصویر کاملتری از این جامعه حاصل بده. برای مثال، برای کاربر ِ نوعی “مجید”، که در بانک داده وجود داره، اینکه “مجید” در فرندفید با “سعید” رفیق ه، و یا اینکه “مجید” مطلبی از وبلاگ “فاطمه” به اشتراک گذاشته، به سیستم کمک می کنن که وجود “سعید” و “فاطمه” رو کشف کنه و رباتش رو دنبال اطلاعات بیشتر در مورد این کاربران بفرسته.

درحال حاضر ۷۱۷  وبلاگستانی در بانک داده حضور دارن و ۳۴۴۶ واسطه ارتباطی (توییتر، وبلاگ، خوراک اشتراکی، …) در سیستم ثبت شده اند. بزودی این اعداد بالاتر خواهند رفت.

دیروز نموداری اینجا بود که نشون می داد فرندفیدی ها از چه سرویس وبلاگ نویسیی استفاده می کنن (ببینید: پروفایلر، گام جدید در تهیه نقشه وبلاگستان). نظیر این نمودار رو در گزارش های هفتگی دیدیش هم داریم (مثال). از آنجا که پروفایلر اطلاعات رو از مسیر دیدیش و همینطور منابع دیگه جمع می کنه، بزودی نتایج پروفایلر کامل تر از دیدیش خواهند شد.

بعنوان یک نمونه ی کوچک ِ دیگه، اینجا نگاه می کنیم به ۱۰ سرویس برتر بین کاربران فرندفید فارسی.

ff_service.png

در این نمودار، قرمز سرویس های فیلتر شده و سبز سرویس های فیلتر نشده رو نشون می ده. ارغوانی سرویس هایی رو نشون می ده که یا وضعیت فیلترینگ ثابتی ندارند (مثل دلیشس) و یا مثل وبلاگ ها بصورت موضعی فیلتر شده اند.

پروفایلر، گام جدید در تهیه نقشه وبلاگستان

گفتم که کار روی پروژه ای رو شروع کرده ام به نام “پروفایلر”. در این پروژه، اطلاعات حاصل از دیدیش، خوراک شمار، کی به کیه، و کارهای ِ روی فرندفید در هم ادغام می شن تا نقشه گسترده ای از وبلاگستان تهیه بشه. در این نقشه هر وبلاگ نویس با یک کد مشخص می شه و به کمک رفتار ِ عمومی او، جامعه وبلاگستان و ارتباطاتش تحلیل می شن.

درحال نوشتن کد پروفایلر هستم (روند کار رو اینجا ببینید) و بعنوان ِ یک نگاه ِ دم دستی، این گراف رو کشیدم: آمار وبلاگهایی که در فرندفید توسط وبلاگ نویسان فارسی زبان ثبت شده اند.

blog_persian_friendfeed.png

 از بین ۵۵۶ وبلاگی که توسط ۷۱۷ عضو فارسی زبان فرندفید ثبت شده، ۱۷۱ تا روی وردپرس هستند (۳۰%)، ۱۲۲ تا روی بلاگ اسپات (۲۲%) و ۵۸ تا روی بلاگفا (۱۰%). جالب ه که نزدیک به ۱۸۶ وبلاگ روی هوست اختصاصی هستند (۳۳%). این اعداد این تئوری رو تقویت می کنه که،

وبلاگ نویسان وردپرسی از ابزارهای جدیدتر، مثل فرندفید، بیشتر استفاده میکنند

راجع به پروفایلر بیشتر حرف خواهیم زد.

دنیای کوچکی به نام اینترنت

graphs.png

یک چند ساعتی گذاشتم “کی به کیه؟” کار کنه. وقتی تعداد کل منابع از ۵۰ هزار گذشت، نگاهی کردم به گراف ارتباطی.

محشره! از وبلاگستان زده بیرون و رفته در کار واشنگتن پست و دیگ! ببینید این گراف عظیم رو و لذت ببرید که دنیا عجیب کوچیک ه!

مرتبط: ۱۰۰ وبلاگ و وب سایت برتر ازنظر وبلاگ نویسان ایرانی

۱۰۰ وبلاگ و وب سایت برتر ازنظر وبلاگ نویسان ایرانی

گزارش اول “کی به کیه؟” (نسل ۱) در آمد (با “دیدیش؟” اشتباه نگیرید). از این قرار، ۱۰ وبسایت بیشتر لینک شده در وبلاگستان از این قرارند (لیست کامل).

  1. blogger.com: لینک شده در ۳۰۴ منبع (ببینید).
  2. feeds.feedburner.com: لینک شده در ۱۹۹ منبع (ببینید).
  3. radiozamaaneh.com: لینک شده در ۱۸۰ منبع (ببینید).
  4. isna.ir: لینک شده در ۱۶۸ منبع (ببینید).
  5. google.com: لینک شده در ۱۶۷ منبع (ببینید).
  6. balatarin.com: لینک شده در ۱۵۷ منبع (ببینید).
  7. s.wordpress.com: لینک شده در ۱۵۵ منبع (ببینید).
  8. persianblog.ir: لینک شده در ۱۵۴ منبع (ببینید).
  9. webstats4u.com: لینک شده در ۱۵۰ منبع (ببینید).
  10. fa.wordpress.com: لینک شده در ۱۴۶ منبع (ببینید).

۱۰ وبلاگ بیشتر لینک شده هم اینهان (لیست کامل).

  1. ۱pezeshk.com: لینک شده در ۱۲۹ منبع (ببینید).
  2. khabgard.com: لینک شده در ۹۱ منبع (ببینید).
  3. nikahang.blogspot.com: لینک شده در ۸۸ منبع (ببینید).
  4. ahmadnia.net: لینک شده در ۸۱ منبع (ببینید).
  5. younesspace.blogspot.com: لینک شده در ۷۸ منبع (ببینید).
  6. persian.kamangir.net: لینک شده در ۷۳ منبع (ببینید).
  7. khorshidkhanoom.com: لینک شده در ۶۸ منبع (ببینید).
  8. mhmazidi.wordpress.com: لینک شده در ۶۸ منبع (ببینید).
  9. balootak.com: لینک شده در ۶۵ منبع (ببینید).
  10. hanouz.com: لینک شده در ۶۳ منبع (ببینید).

جزییات فنی این تحلیل در اینجا آمده. گزارش کامل رو، که شامل منحنی و گراف ارتباطی وبلاگستان ه، اینجا ببینید.

یک ایده ناب برای “کی به کیه؟”

شده از شادی بترکی؟

آقا ما هی نشستیم مخ ریختیم روی این “کی به کیه؟” دیدیم نمی شه. تعداد وبلاگهای ایرانی خیلی زیاده. بعد یک ایده مشتی به ذهنمون رسید. چرا اصلا جریان رو اینطور نکنیم.

۱- با یک وبلاگ شروع کن و تمام لینکهاشو در بیار و به لیست اضافه کن.

۲- از بین تمام وبلاگهای موجود ۱% بالا از نظر تعداد لینکهای ورودی رو پیدا کن و بررسی دقیق کن.

۳- برو به ۲٫

مشتی نیست؟ ایده ساده است اما بنظرم جالب ه.  مرحمت کنید خیلی ایده چرندی ه بنظرتون یه ۲۴ ساعتی صبر کنید حظ ما نپکه. چاکریم.

اندر حکایت ِ در گل گیر کردن پروژه “کی به کیه؟”

اگر دنبال کرده باشید پروژه “کی به کیه؟” رو، شاید متوجه شده باشید که مدتیه خبری نیست از نتایج این پروژه. داستان اینه که یک مشکل فنی پیش آمده و فرصت نکرده بودم سر بزنم بهش. دیشب اما یک جستجویی کردم و حاصل هم خوب بود و هم بد. اما داستان چیه.

آخرین بار که “کی به کیه؟” رو گذاشتم که شب تا صبح کار کنه، اواسط شب خطا داده بود و بیرون اومدن بود. log رو که بررسی کردم دیدم خطایی در دسترسی به بانک اطلاعات پیش اومده. حدس اولم این بود که شاید کد من مشکلی داره. خبر خوب اینه که نخیر داستان جدی تر از این حرفهاست. خبر بد اینه که داستان جدی تر از این حرفهاست.

در بانک اطلاعاتی “کی به کیه؟”، برای هر وبلاگ دو لیست دینامیک وجود دارند: لینک داده ها و لینک شده ها. این دو لیست رو بصورت blob ذخیره می کنم. فرمت بانک اطلاعاتی هم Paradox ه. مشکل اما اینه که فایلی که توسط BDE (به گمانم) برای ذخیره blob ها ساخته می شه حجمش به ۲ گیگا بایت رسیده. یک جستجوی ساده نشون میده که این دقیقا حداکثر اندازه مجاز برای یک فایل اطلاعاتی در Paradox ه. فرمتهای دیگه ای که توسط Ttable پشتیبانی میشن هم همین محدودیت رو دارند: Foxpro و dBase. مشکل اساسی اینه که این بانک اطلاعات فقط شامل ۱۰۰ هزار منبع ه و من انتظار اعدادی در حوالی میلیون رو دارم. بنابراین این موضوع احتمالا بزودی به محدودیت های اندازه فایل در ویندوز هم مرتبط خواهد شد.

دیشب با دوست عزیزی بحث کردیم در این زمینه و پیشنهاد ایشون استفاده از تعداد زیادی فایل بود: یکی برای هر حرف الفبا مثلا. بنظرم این عملی ترین کار ممکنه و پیاده سازی اش در برنامه هم چندان سخت نیست. شما ایده دیگری دارید؟

شاید خبر داشته باشید که روی پروژه ای کار می کنم به اسم “دیدیش؟“. بلوک اول این پروژه یک خوراک خوان ه که روی didish.kamangir.net نصب شده و خوراک لینکهای انتخابی وبلاگ نویسان ایرانی رو جمع می کنه. زمانی که تعداد این خوراک ها تازه از ۱۰۰ گذشته بود راجع به توزیع اونها نوشتم (ببینید: دلمشغولی های فضولانه: “کی به کیه؟”، “دیدیش؟” و باقی قضایا). تعداد منابع حالا به ۱۶۳ رسیده (لطفا اگر شما از دلیشس یا گوگل برای share کردن لینک های مورد علاقتون استفاده می کنید و خوراک شما در “دیدیش؟” نیست، خبر بدید). نمودار زیر توزیع خوراک ها رو نشون می ده.

didish_sourcess.png

بوضوح هنوز دلیشس بر گوگل از لحاظ تعداد استفاده کننده برتری داره. شاید دلیل این امر به نسبت جدید بودن امکان اشتراک گذاری لینک در گوگل باشه.

چند وقتی ه روی کدی کار می کنم که اطلاعات جمع آوری شده توسط “دیدیش؟” رو تحلیل کنه. این پست نتایج ابتدایی این کد رو گزارش می کنه. در هفته های آتی تحلیل های بیشتری انجام خواهم داد.

با احتساب ۱۰۰۰ لینک اخیر هر خوراک، کمی بیش از ۲۰۰۰۰ لینک در “دیدیش؟” جمع آوری شده. این لینک ها به حدود ۴۳۰۰ منبع (وبلاگ/وب سایت) متفاوت اشاره می کنند. نکته اساسی اینه که بسیاری اوقات، بخصوص در گوگل، لینکهای اشتراک گذاشته به آدرس مجازیی در Feed Burner اشاره می کنند. کد، این ارجاعات رو اصلاح می کنه. موارد معدودی هست، نظیر خوراک بالاترین، که پیدا کردن آدرس از روی لینک خوراک ساده نیست. این موارد رو در تحلیل وارد نکردم. شاید جالب باشه اشاره کنم که ۱۸۰ آدرس ِ فیدبرنر در این لینکها استفاده شده اند.

سوال اولم این بود، لینک ِ کدام منابع بیشتر به اشتراک گذاشته شده. ۱۰ منبع پر تعدادتر رو انتخاب کردم. این منابع سهمی حدود ۲۰% کل لینکها رو دارند. این موضوع، به همراه شواهد دیگه، نشون می ده که تعداد کمی منبع “داغ” وجود داره و تعداد بسیار زیادی منبع “معمولی”. منابع برتر در نمودار پایین نشان داده شده اند، اینجا هم لیستشان می کنم.

didish_domains.png

  1. bbc.co.uk
  2. radiozamaaneh.com
  3. 1pezeshk.com
  4. persian.kamangir.net
  5. updateblog.net
  6. dw-world.de
  7. freekeyboard.net
  8. nikahang.blogspot.com
  9. bamdadi.com
  10. asroone.net

بوضوح، برای افراد مورد بررسی، یک پزشک، کمانگیر، و updateblog.net سه وبلاگ ِ بیشتر مورد علاقه هستند. در زمینه رسانه ها هم، بی بی سی مقام اول و رادیو زمانه مقام دوم رو داره. دویچه وله هم در مکان سوم قرار داره. غیبت رسانه های رسمی جمهوری اسلامی، نظیر فارس نیوز و مهرنیوز در این لیست بنظرم بسیار پرمعناست.

با توجه به نتایج “کی به کیه؟” که نشون می داد سهم بزرگی از وبلاگستان از آن ِ بلاگفاست (ببینید:گزارش چهارم “کی به کیه” – ۸۰۰۰۰ وبلاگ فارسی بررسی شده اند)، لینک ها رو از نظر سرور هم مقایسه کردم.

didish_servers.png

نکته بسیار جالب اینه که اگر چه “کی به کیه؟” نشون می ده که تعداد وبلاگهای ِ روی بلاگفا بسیار بیش از بقیه سرویس های ایرانی است (حدود سه چهارم وبلاگهایی که “کی به کیه؟” پیدا کرده روی بلاگفا هستند)، اما بنظر نمی رسه این وبلاگها چندان فعال باشند. در عمل blogspot اول، wordpress دوم، و blogfa سوم ه. persianblog و دیگر سرویس های ایرانی اصلا در این لیست نیستند. نکته جالب حضور چهار وبلاگ در این لیست ه: یک پزشک، کمانگیر، updateblog.net و کیبرد آزاد.

نکته بسیار مهم اینه که در این تحلیل، هر لینک به اشتراک گذاشته وزنی برابر ۱ تعلق گرفته. بنظر می رسه شاید بهتر باشه وزن ها با توجه به تعداد لینکی که در هر خوراک به اشتراک گذاشت می شن تعدیل بشه. لازم به ذکره که این نتایج بسیار ابتدایی هستند و باید تحقیق بیشتری روی این معیارها انجام بشه.

زندگی زیرپوست وبلاگستان

این روزها بخش زیادی از زندگی وبلاگی ام در لایه های زیری وبلاگستان می گذره. به خاطر پروژه های “کی به کیه؟” و “بالابین” حسابی درگیر اطلاعات درآوردن از انواع و اقسام صفحه html هستم. یکجورایی مثل فیلم ماتریکس می مونه.

balatarin_change_code.png

یکی دو روزی بود بخشی از بالابین از کار افتاده بود. علت، یک تغییر کوچک در کد بالاترین بود که باعث می شد تابعی که صفحات بالاترین رو parse می کنه مشکل دار شه. دقیق تر بگیم، مشکل تغییر در خطی بود که اینجا highlight شده. روی سطح، حاصل ِ این داستان نشون داده نشدن تعداد کلیک روی هر لینک ه.

مصائب کدنویسی برای وبلاگستان

balabins.jpgمدتی ه نتونستم چندان وقتی روی پروژه های وبلاگی بگذارم.

کی به کیه؟” کمی به مشکل برخورده. بنظرم ربطی داره به حجم ۲GBی بانک اطلاعاتی اش. مشکل دیگه لینکهای وبلاگهای فارسی هستند. مثلا این لینک در فیدبرنر عملا نسخه دیگر این لینک ه. داستانی هم در مورد پرشین بلاگ هست. منابع ِ با چند آدرس هم هستند. پیاده کردن همه این موضوعات در کد وقت می بره.

بالابین” ۱٫۶ رو دارم آزمایش می کنم. امروز متوجه شدم کد بالاترین تغییر کرده و دیگه تعداد کلیک نمایش داده نمی شه. این باعث ایجاد مشکل برای بالابین شده. باید کار کنم روی این موضوع.

دارم سعی می کنم تز رو کمی جمع و جور کنم و کمی هم دارم به آینده فکر می کنم. اینه که کارها کند شده. درست می شه.

این بسته زیبا رو سیروس عزیز برای بالابین ساخته. از زمانی که سایت موسیقی اش راه افتاده غنیمیتی ه برای پیدا کردن ِ سریع موسیقی ِ عالی.

مصاحبه با صداهای جهانی هاروارد در مورد “کی به کیه؟”

globalvoices.pngصداهای جهانی هاروارد در مورد پروژه “کی به کیه؟” با من مصاحبه کرد. این متن فارسی مصاحبه است (متن انگلیسی).

در مورد خودت بگو و وبلاگت و پروژه جدیدت. داستان چیه؟ کی شروعش کردی و منظورت چیه وقتی میگی این یک “ربات” ه؟

من به اسم آرش کمانگیر می نویسم. این به این خاطره که کمانگیر یعنی تیرانداز در فارسی و آرش اسم یک قهرمان افسانه ای ایرانی ه که یکبار ایران رو نجات داد (داستان کامل رو در ویکیپدیا بخونید). من یک وبلاگ انگلیسی در kamangir.net دارم و یک وبلاگ فارسی در persian.kamangir.net. یک وبلاگ عکاسی هم در photo.kamangir.net دارم.

اسم پروژه رو گذاشتم “کی به کیه؟”، که در فارسی معنی اش تقریبا می شه “چه خبر؟”. مدتها بود که به این پروژه فکر می کردم اما کدنویسی رو اواسط آذر (اوایل دسامبر) شروع کردم. این کار رو اول برای ارضای حس کنجکاوی ام شروع کردم اما کم کم زمان که گذشت این پروژه بزرگتر از اونی شد که فکر می کردم. در یک جمله، دارم ربات نرم افزاریی طراحی می کنم که از یک وبلاگ شروع می کنه و ارتباطات وبلاگهای فارسی رو پیدا می کنه. بهش می گم ربات چون این اسمی ه که به این کدها داده شده (در ویکیپدیا ببینید).

تا حالا چه نتایجی بدست آوردی؟

emails_copy.jpgهنوز خیلی مشکلات وجود داره. قسمتی از این مشکلات بدلیل تعداد بسیار زیاد وبلاگهای فارسی هستند که ربات پیدا می کنه. آخرین آمار نشون می داد که “کی به کیه؟” ۱۳۰ هزار سایت اینترنتی رو پیدا کرده که از اینها ۱۶ هزار وبلاگهای فارسیی هستند که دقیقا بررسی شده اند. ربات همینطور می دونه که ۷۵ هزار سایت دیگه وبلاگ فارسی هستند اما هنوز فرصت نکرده این منابع رو بررسی کنه. اینها نتایج فقط چند روز کار ربات هستند. مجبور شدم متوقفش کنم چون حجم اطلاعات بالا رفته بود و کارایی کد پایین اومده بود. از اون زمان تمام وقتم رو روی حل این مشکل گذاشته ام.

بعنوان یک نتیجه خیلی ابتدایی، نگاه کردم به سرویس ایمیلی که وبلاگ نویسان ایرانی استفاده می کنند. از ۱۳ هزار ایمیل ی که “کی به کیه؟” از وبلاگهای فارسی جمع آوری کرده، ۷۵% در یاهو هستند و ۱۲% در جیمیل.

همینطور بررسی سرویسهای وبلاگ نویسی ایرانی، مثل بلاگفا و پرشین بلاگ، به کمک اطلاعات ۳۴۰۰ وبلاگی که “کی به کیه؟” تا بحال پیدا کرده، نشون می ده که بلاگفا سه چهارم میدان رو در اختیار داره.

اینها نتایج بسیار ابتدایی هستند و باید ربات برای هفته ها و ماهها کار کنه تا بتونه تصویر واقعی تری از وبلاگستان ترسیم کنه.

آیا نتایج شگفت زده ات کرد؟

خیلی. می دونستم که وبلاگستان خیلی پرجمعیت ه، اما همچنان شگفت انگیزه دیدن تعداد کسانی که وبلاگ دارند. الگوها هم خیلی جالبند.

هدف این تحقیق چیه و چه خروجی می خوای تولید کنی؟

یک، می خوام جمعیت وبلاگستان رو تخمین بزنم و الگوهای ارتباطی رو پیدا کنم. در این مرحله فقط صرف وجود یک وبلاگ ملاک ه و نه اینکه وبلاگ ها در چه باره ای هستند و به چه نرخی فعالیت می کنند. در مرحله دوم، روی تخمین ِ فعالیت کار خواهم کرد. اینکار فهم بهتری از وبلاگستان بهمون می ده و کمک می کنه وبلاگهای مرده رو حذف کنیم. گذشته از همه اینها، هدف اصلی این پروژه آماده کردن اطلاعات برای محققین دیگه است.

providers_copy.jpgاین پروژه چه داره برای ارایه به محققین ِ این رشته؟

می دونم که کارهایی انجام شده روی الگوهای ارتباطی در وبلاگستان. کسانی روی خوشه و روی آمار فعالیت وبلاگ ها کار کرده اند. اما “کی به کیه؟”، تا جایی که من خبر دارم، اولین ابزار تحقیق همه جانبه است که چنین اطلاعاتی رو از وبلاگستان استخراج می کنه. بنابراین، در جستجوی افرادی هستم که این اطلاعات رو در کارهاشون استفاده کنند. البته پیش از در اختیار گذاشتن این اطلاعات باید از حفظ حقوق شخصی وبلاگ نویس ها اطمینان حاصل کرد.

آیا از کار مشابهی خبر داری؟

در ابعاد کوچکتر و با کار مبتنی بر انسان بله. نشنیدم در مورد انجام اتوماتیک این کار. البته من تحقیق کاملی نکردم.

چطور می بینی اثر وبلاگستان رو در جامعه ایران؟

خیلی و باز هم بیشتر. نمی گم همه ایرانی ها وبلاگ می خونن، اما بسیار جالبه دیدن اینکه خطوط قرمز حاکمیت به چه راحتی در وبلاگها قطع می شن. راه درازی هست برای رفتن، اما این پدیده بسیار جالب ه، چون روشی بهمون می ده برای اینکه باهم فکر کنیم و آزادانه در مورد موضوعات مورد علاقمون بحث کنیم.

حرفی برای خواننده های “صداهای جهانی” داری؟

یکی از کارهایی که این روزها می کنم اینه که بانک داده “کی به کیه؟” رو تصادفی باز می کنم و به وبلاگهایی سر می زنم که هرگز ندیده بوده ام. شگفت آوره که چقدر وبلاگ عالی فارسی وجود داره، و اینکه خیلی از اونها توجهی که شایستگی اش رو دارند نمی بینند. وبلاگستان در ابتدا حول چند وبلاگ معروف شکل گرفته بود. این داره کم به کم به طرح گسترده تری تبدیل می شه. من معتقدم کسی که می خواد راجع به وبلاگستان ایرانی بدونه نباید به هیچ وجه خودش رو به وبلاگهای نسل اول محدود کنه. باید عمیق تر نگاه کرد.

توضیح: آمارها از زمان انجام مصاحبه بشدت تغییر کردند. بزودی در یک پست آمارهای جدید رو منتشر می کنم.