sly2m: (Default)
[personal profile] sly2m

Наши ноутбуки не для скуки. Выкачал TOP 1000 ЖЖ по количеству друзей. В смысле по количеству в друзьях у. Ну, это единственный ТОП, который есть в ЖЖ. Затем написал робота, который ходит к указанным товарищам в профиль, собирает личные данные и аккуратно складывает их в общую кучу. Код робота писался на C#, не буду утомлять ненужными техническими подробностями, все довольно просто – зашел на страничку, пропарсил ее на вхождение нужных переменных, сохранил, перешел к следующей.
И так 1000 раз. А для того, чтобы LiveJournal на моего робота не обижался – поставил существенную задержку между заходами, а то они очень уж строго предупреждают – будете ходить к нам своими роботами и не вытирать ноги – забаним. Поэтому весь процесс занял больше суток – написание робота, тестирование, работа, форматирование результатов.

Получилась вот такая табличка:



User Friend Of Friends City Region Country Journal Entries Total Comments Created on Last Updated Account Type
drugoi 69145 749 Москва   Norway 13,188 1,698,002 comments received, 66,105 comments posted 2002-03-02 1 hour ago Permanent Account
tema 68601 24 Южная Пальмира   Russian Federation 3,638 2,049,489 comments received, 6,880 comments posted 2001-09-04 4 hours ago Permanent Account
navalny 52840 10000 Москва Москва Russian Federation 2,306 957,191 comments received, 14,365 comments posted 2006-04-19 3 hours ago Paid Account
sergeydolya 51964 1991       870 243,261 comments received, 28,394 comments posted 2007-11-09 1 day ago Permanent Account
pesen_net 48525 202 Рига   Russian Federation 187 53,083 comments received, 10,084 comments posted 2007-04-22 6 weeks ago Paid Account
zyalt 35617 384 Москва Москва Russian Federation 1,619 246,360 comments received, 11,344 comments posted 2006-07-26 22 hours ago Paid Account
dolboeb 33820 1942 Moscow   Russian Federation 8,335 522,484 comments received, 38,400 comments posted 2001-02-06 58 minutes ago Permanent Account
belonika 33151 4604       781 208,475 comments received, 36,079 comments posted 2008-09-08 6 hours ago Paid Account
eprst2000 31454 11 Мск Москва Russian Federation 460 46,324 comments received, 3,724 comments posted 2002-08-22 1 week ago Paid Account
tebe_interesno 29831 612 Москва Москва Russian Federation 547 31,679 comments received, 8,823 comments posted 2007-06-25 10 weeks ago Paid Account
mi3ch 29827 738 Moscow Москва Russian Federation 6,930 374,776 comments received, 44,883 comments posted 2003-04-03 2 hours ago Permanent Account
shpilenok 29637 119   Брянская область Russian Federation 303 57,348 comments received, 4,461 comments posted 2009-01-11 6 hours ago Paid Account
zhgun 26081 29       188 22,301 comments received, 8,626 comments posted 2002-04-28 5 weeks ago Paid Account
mantrabox 25572 373     Russian Federation 2,915 60,720 comments received, 17,850 comments posted 2002-12-29 1 week ago Paid Account
olegtinkov 25291 11 Moscow   Russian Federation 638 137,481 comments received, 6,277 comments posted 2009-02-21 18 hours ago Paid Account
radulova 24682 595   Москва Russian Federation 8,622 874,385 comments received, 31,657 comments posted 2004-11-14 1 hour ago Paid Account
tanyant 24282 199       318 67,802 comments received, 6,868 comments posted 2007-12-14 2 weeks ago Plus Account
stillavin 23615 1703 Москва Москва Russian Federation 1,299 311,283 comments received, 18,247 comments posted 2006-08-23 3 days ago Paid Account
mzadornov 22568 80 Москва   Russian Federation 161 62,221 comments received, 136 comments posted 2009-09-15 3 days ago Plus Account
miumau 21495 47 Berlin   Germany 2,957 163,632 comments received, 13,520 comments posted 2002-02-27 1 hour ago Paid Account



Полный файл с 1000 записей находится в Google Docs. Данные актуальны на сегодня 21 июля 2011 года, но еще пару месяцев, а то и полгода они вряд-ли существенно изменятся.

Не смог удержаться построить парочку чартов и графиков, хотя каждый может использовать эти данные свободно и на свое усмотрение.

Если сортировать колонки вверх и вниз, можно наблюдать интересные детали.

Например отсортировав записи по количеству друзей, обнаруживаем, что больше всего друзей не у [info]navalny, у которого их 10000 (хотя ограничение для простых смертных по ЖЖ – 5000 друзей), а у некого юзера [info]inexi, у которого их 20624.

Или например сортируем по количеству записей в блоге. Больше всего их наструячил конечно же [info]cypa, ну кто же еще? С 2003го года он сделал 43.390 записи.

А при обратной сортировке сразу же обнаруживаем любопытного бота – [info]blog_d_medvedev. Со дня создания в 2009м году этот псевдоюзер не сделал ни одной записи у себя в блоге, но его добавили в друзья 5816 человек. Явно какой-то робот, видимо просто игрушка в чужих руках. Наверняка не обошлось без мухлежа – френдомарафоны, накрутка рейтинга, подтасовки результатов голосования – все дела.

Продолжая сортировку мы узнаем, что самый старый блог, попавший в ТОП1000 был создан 31 марта 2000 (кстати, мне в тот день исполнилось 25 лет), а самый молодой – три месяца назад, в апреле этого года.

Так же в ТОП-е 139 Basic Account (Базовый), 560 Paid Account (Оплаченый), 15 Permanent Account (Постоянный), 284 Plus Account (Улучшенный) и один Early Adopter (а это кто это вообще, кстати? [info]billycorgan – что он делает в российском топе, если живет в США и пишет по-английски?).

Получается – не так уж и много оплаченных аккаунтов в первой 1000. Чуть больше половины всего лишь.





Или, например разбивка по странам:






Короче много можно придумать работы аналитикам, статистикам, разнообразным специалистам по продвижению чего бы то ни было и прочим любопытствующим бездельникам.

Сначала думал сделать данный сервис онлайновым и постоянно обновляющимся, но потом решил, что за ежедневные 1000 запросов к серверу ЖЖ (точнее даже больше) меня вместе с моим роботом по голове не погладят. Так что, ограничился единовременной статистикой.


Пост и статистика приветствуются к распространению, никаких ограничивающих копирайтов на них не предусмотрено.

Кстати, хороший способ использовать кнопочку lj-like. Вот он (обращаю ваще внимание, уважаемые читатели) подходящий случай для подобной кнопки. Не в каждом втором посте, не “…ну, пожалуйста, ну поставьте на меня ссылочку, ну, загоните пост в топ, ну сделайте перепостинг…”, а действительно подходящий случай, удобно помогающий бесплатному распространению информации. Таким можно и воспользоваться.

Date: 2011-07-21 08:53 pm (UTC)
From: [identity profile] another-ak.livejournal.com
inexi долго был(а/о) у меня в друзьях, кажется, даже что-то писал(а/о).

Date: 2011-07-21 08:53 pm (UTC)
From: [identity profile] zvantsev.livejournal.com
А нельзя как-нибудь исходник того робота посмотреть?

Date: 2011-07-21 09:13 pm (UTC)
From: [identity profile] sly2m.livejournal.com
Нельзя. Мне, как программисту, стыдно. Писалось совсем уж на коленке. :)
Ну а чего там сложного?

Заходим в цикле 50 раз на страницы:
http://www.livejournal.com/ratings/users/?page=1
..
http://www.livejournal.com/ratings/users/?page=50

Бегаем по выкачанным страницам как по стрингам и собираем в ArrayList имена юзеров и их "в друзьях у".

Получаем список из 1000 человек. Потом проходим по нему в цикле, и заходим на страницы http://[имя пользователя].livejournal.com/profile и парсим их на вхождения остальных переменных.

После чего все пишем в базу, файл, или просто выплеваем на страницу, а оттуда копипастим ручками в Excel.

На php код займет полтора экрана, но я ж MCSD! :)
Объявлял для всего объекты, классы, использовал List и прочие .NET-овские приблуды.

Но так как делалось все для себя, и для единичного запуска - код получился совсем уж кривенький и далеко не оптимальный, мне такой открывать стыдно, меня больше на работу не возьмут после подобного кода. :)

Date: 2011-07-21 09:17 pm (UTC)
From: [identity profile] zvantsev.livejournal.com
Спасибо. Я, в общем-то, тоже программер, но ста-арый. И дикий. Просто хотел посмотреть. А идею понял. Еще раз спасибо.

Date: 2011-07-22 03:53 pm (UTC)
From: [identity profile] sly2m.livejournal.com
Кстати, я опубликовал (http://habrahabr.ru/blogs/blogosphere/124677/) (с некоторыми изменениями) данный пост на habrahabr.ru
Текст пришлось творчески переработать, они там такие обидчивые, банят направо и налево за любой шаг в сторону от личновыдуманных правил.

Там есть код и больше технических деталей, если интересно.

Date: 2011-07-22 08:03 am (UTC)
From: [identity profile] topbloger.livejournal.com
Можете изучить мою библиотеку - http://blogsapi.codeplex.com/ . Часть данных может быть получена путем парсинга FOAF блога. Про пост - собранные данные о топ1000, да еще и по френдам - бесполезность, по ним уже давно как не ориентируются.

Date: 2011-07-22 12:15 pm (UTC)
From: [identity profile] sly2m.livejournal.com
А по чему ориентируются?

Date: 2011-07-22 06:04 pm (UTC)
From: [identity profile] topbloger.livejournal.com
Чтобы не быть голословным - http://itvcom.ru/programs/razdvoenie/lebedev_2/ - вначале упоминается количество френдов, потом поправляется, что цену имеет лишь количество реакций (actions per post). Но увы, мерило реакций размыто. Это и переходы по ссылке, это и комменты, это и переведенные пожертвования и т.п. Наиболее простая и инвариантная мера реакции - количество просмотров (тоже накручиваемо). Не даром даже указанный выше блогер постоянно постит скрины статисти из Google Analytics для привлечения рекламодателей. Интеграция с гуглом стала одним из основных нововведений после того как Тема вошел в попечительный совет ЖЖ. Отмечу, что переход от меры френдами к измерению посещаемости ЖЖстов сопровождается падением стоимости постов, ввиду того, что приходится конкурировать с другими трафикогенерящими социальными ресурсами, такими как вконтакте. Мне же нравится сравнивать блогеров по количеству топов,где ТОП выступает в роли средневзвешенной единицы измерения эффективности (по реакции) размещенного поста у блогера (http://t30p.ru/stats.aspx/blogs).

Date: 2011-07-21 09:06 pm (UTC)
From: [identity profile] dibutil.livejournal.com
Статистика инересная. Я подобное делал лет пять назад на фото-клубе, только обошелся без написания робота - wget-ом, он всё умеет, даже случайную задержку между запросами ;)

Date: 2011-07-21 09:10 pm (UTC)
From: [identity profile] igorbasic.livejournal.com
главное Basic занимает процентов 7...
Edited Date: 2011-07-21 09:12 pm (UTC)

Date: 2011-07-21 09:13 pm (UTC)
From: [identity profile] sly2m.livejournal.com
Почему же 7, когда 139 из 1000?

Date: 2011-07-22 07:16 am (UTC)
From: [identity profile] igorbasic.livejournal.com
1000 разделил на 139)))) одну седьмую;-)

Date: 2011-07-21 09:15 pm (UTC)
From: [identity profile] pritula.livejournal.com
для предложения делать лайки, конечно, самый прайм-тайм выбрали ))

Date: 2011-07-21 09:18 pm (UTC)
From: [identity profile] sly2m.livejournal.com
Праймтайм ЖЖ в 10-11 утра по Москве в понедельник.
К пятнице бессмысленно просить перепоста. Все равно все в субботу на дачи разъедутся.

Date: 2011-07-21 09:18 pm (UTC)
From: [identity profile] idemidov.livejournal.com
Фантастическая продуктивность песен_нет — каждая запись приносит ему в среднем 300 новых френдов. Это как вообще?

Date: 2011-07-21 09:21 pm (UTC)
From: [identity profile] sly2m.livejournal.com
Видать хорошо пишет. Там вообще покопаться - кладезь инфы.

Например у drugoi - полтора миллиона комментов в блоге, а у tema - 2 миллиона. Зато drugoi в 10 раз больше ответил, 66000 против теминых 6ти.

А это о чем-то да говорит...

Короче строй графики, рисуй чарты, анализируй проведение будущих рекламных кампании - не хочу! :)

Date: 2011-07-21 09:26 pm (UTC)
From: [identity profile] idemidov.livejournal.com
Откуда и 6000 у Лебедева-то? Он отвечает КРАЙНЕ редко :)

Date: 2011-07-21 09:55 pm (UTC)
From: [identity profile] vplusplus.livejournal.com
у него был ряд постов, где он отвечал на _каждый_ комментарий по крайней мере в течение определенного времени ;) например "Оракул ответит вам на ваш вопрос тремя словами", и его комментарии состояли из какого-то полнейшего бреда уровня vesna.yandex.ru, хоть и действительно из трех слов :)

Date: 2011-07-21 09:29 pm (UTC)
From: [identity profile] idemidov.livejournal.com
Я так понимаю, френд оф — это зафрендившие жжсты. Но это далеко не все читающие на постоянной основе, многие не заводят жж только для чтения, а читают по РСС или просто в закладки заносят. Интересна цифра всех читающих постоянно тот или иной ЖЖ. У топовых счёт уже за сотню тысяч должен перевалить тогда. Это мощнее большинства традиционных СМИ :)

Date: 2011-07-21 09:51 pm (UTC)
From: [identity profile] vplusplus.livejournal.com
Пост в котором sly2m спалил свой возраст и дату рождения [x]

Интересно! респект!

P.S. Пользуюсь случаем: спасибо еще раз за подсказку для Адблока, как эти ненавистные кнопочки вырезать — ну так хорошо в ЖЖ стало! :)

Date: 2011-07-21 11:12 pm (UTC)
From: [identity profile] sly2m.livejournal.com
Ах ты злодей!
А кто меня с днем рождения (http://sly2m.livejournal.com/416304.html) поздравлял?

По твоему это не есть палево возраста? :)

Date: 2011-07-22 12:27 am (UTC)
From: [identity profile] vplusplus.livejournal.com
Гм... Ты не поверишь, но я с большим трудом вспомнил, что там был такой пост и что я туда что-то постил, при этом, по-моему, я прочитал его как-то по-своему. С некоторым любопытством и немного даже ностальгией посмотрел там на собственный комментарий...

Ну тогда скажем так, тут у тебя идет явное упоминание, а там неявное %)

14 сентября 2000

Date: 2011-07-21 10:15 pm (UTC)
From: [identity profile] vaf.livejournal.com
"Early Adopter: No longer open to new users, this account was created and made available to users registered before September 14, 2000. Early Adopters are offered extended features over free account users, but do not receive any new pay features."

Date: 2011-07-22 04:52 am (UTC)
From: [identity profile] max-titov.livejournal.com
Ты просто нереально крут :) Респект!

Date: 2011-07-22 08:07 am (UTC)
From: [identity profile] neonis.livejournal.com
billycorgan - это, собственно, Billy Corgan (кто бы мог подумать!), лидер группы Smashing Pumpkins, в свое время достаточно популярной, в т.ч. и в РФ. У меня, например, он в друзьях был давно - следил, так сказать, за творческим процессом )

Date: 2011-07-22 10:47 am (UTC)
From: [identity profile] arteman.livejournal.com
Вместо страницы профиля можно загружать FOAF (http://sly2m.livejournal.com/data/foaf). Ее удобнее парсить и загружается гораздо быстрее.

Date: 2011-07-22 12:14 pm (UTC)
From: [identity profile] sly2m.livejournal.com
К сожалению - нет.
По FOAF-у загружается развернутая статистика по друзьям. И если у навального 10000 друзей, его FOAF страничка несколько мегабайт весит.

Я знаю про FOAF, но для данной статистики легче и быстрее было профиль парсить.

Date: 2011-07-22 07:24 pm (UTC)
From: [identity profile] vrotmnen0gi.livejournal.com
Теоретически я мог бы занять 337 место списка. А на практике не хочет меня жж рейтинговать(

Date: 2011-07-22 07:33 pm (UTC)
From: [identity profile] sly2m.livejournal.com
В этом журнале может содержаться взрослая тематика.

Ты - сам себе враг.

И зачем ты это сделал?

Date: 2011-08-11 12:22 pm (UTC)
From: [identity profile] kuzma-prutkoff.livejournal.com
Во-первых, у него не "может содержаться взрослая тематика", только порнография и содержится!

Во-вторых, рейтинг он получается делает на гадости.
В-третьих, это ты его научил, подталкнул на это, значит большую часть ответственности за это дело будешь нести ты.
В-четвертых, это просто противозаконно, его могут за это забанить.

Re: И зачем ты это сделал?

Date: 2011-08-11 03:18 pm (UTC)
From: [identity profile] sly2m.livejournal.com
Вы бредите. Зачем вы это делаете?

Что делаю?

Date: 2011-08-11 03:38 pm (UTC)
From: [identity profile] kuzma-prutkoff.livejournal.com
Не понял. Я разве не понятно выразился или программисты не понятливые?

Re: Что делаю?

Date: 2011-08-11 04:29 pm (UTC)
From: [identity profile] sly2m.livejournal.com
Зачем вы говорите то, чего нет. В частности:

В-третьих, это ты его научил, подталкнул на это, значит большую часть ответственности за это дело будешь нести ты.

Какие умозаключения были совершены, чтобы выдать подобное суждение?
Поделитесь?
From: [identity profile] kuzma-prutkoff.livejournal.com
Простите пожалуйста. Показалось, что у него не стоит запрещение к просмотру для "не взрослой" публики. Сейчас вижу, что всё нормально - включено.

По поводу умозаключений, то подразумевал духовную точку зрения. Во-первых, имел ввиду ответственность на Страшном Суде. Во-вторых, известно, что человек вводящий в искушение отвечает пожалуй даже больше чем человек которого искусили.

К счастью, он не стал пользоваться т.с. советом.
From: [identity profile] sly2m.livejournal.com
Человек не вводит в искушение. В искушение вводит дьявол.

Date: 2011-08-11 09:25 pm (UTC)
From: [identity profile] kuzma-prutkoff.livejournal.com
В искушение может вводить как непосредственно дьявол, так и через человека. Например Адама искусила Ева, которую искусил дьявол. Согрешили все три. В большей степени дьявол, затем Ева, затем Адам.

Date: 2011-08-11 09:31 pm (UTC)
From: [identity profile] sly2m.livejournal.com
Я хочу сказать, что даже если визуально (т.е. при постороннем взгляде) кажется, что в искушение вводит человек, все равно изначально это делает дьявол. Внутри этого человека. А человек уже поддается его искушению искушать других, или же не поддается.

Date: 2011-08-11 09:49 pm (UTC)
From: [identity profile] kuzma-prutkoff.livejournal.com
Без их помощи, пожалуй, не обходится. Но человек также несет ответственность и грех, хотя несколько в меньшей степени. К тому же, ангел или совесть предупреджает человека об этом. Так что он не может сказать что был "обманут".

Кроме того, есть страсти в человеке. Это когда грех укоренился в человеке настолько, что стал происходить из него самого, стал потребностью души или тела.

ничего себе

Date: 2011-08-11 12:13 pm (UTC)
From: [identity profile] kuzma-prutkoff.livejournal.com
Из "NoName" стран 20% пользователей в ТОПе

Re: ничего себе

Date: 2011-08-11 03:18 pm (UTC)
From: [identity profile] sly2m.livejournal.com
NoName это те пользователи, которые не указали в своем профиле страну проживания.

July 2018

S M T W T F S
1234567
89101112 1314
15161718192021
22232425262728
293031    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 24th, 2025 03:06 pm
Powered by Dreamwidth Studios