RSS je jedním z pojmů, které jsou zmiňovány v každém Kiddies2.0 článku,
takže si odpustím úvodní tlachy na téma „Co to je RSS a proč to je...?“
a půjdu rovnou k věci.Na Bloguje je několik tisíc RSS kanálů k
odběru (když počítám i RSS pro komentáře a pro jednotlivé rubriky, tak
několik desítek tisíc). V únoru bylo 4.5% požadavků na server právě na
soubor rss.xml. Nemusí se to zdát moc, ale co do počtu dotazů
to je hezké druhé místo, hned za požadavkem na úvodní stránky blogů
(4.91%). Když k tomu přičtu přístupy na comments.xml, tak je to nastejno.Bývalo
hůř. Před rokem bylo požadavků na rss.xml téměř jedenáct procent. Když
se dívám do přehledu useragents, vidím zřetelný ústup stand-alone
čteček (na třetím místě byl v březnu 2006 FeedReader; dnes ve
statistice Top20 chybí úplně). Nemohu z toho však usuzovat na nějaký
masivnější nástup online RSS čteček. Ty se objevují pouze ve statistice
požadavků na RSS kanály, mezi referery vidět nejsou...Kromě RSS
čteček se na utěšeném trafficu podílí i online agregátory. Bohužel,
jejich autoři velmi často neřeší situaci „co bude až...“, takže jejich
robot pracuje na prostém principu „přečtu, jdu dál, přečtu znovu za X“.
Problém nastává ve chvíli, kdy agregátor začne agregovat víc zdrojů z
jednoho serveru. To pak přístupy naskakují a situace začíná připomínat
nepovedený DoS útok.Samosebou že řešení existuje. Řešení
existuje vždy, když je dobrá vůle k dohodě. V tomto směru je moje
zkušenost s autory českých agregátorů velmi tristní (s čestnými
výjimkami). Dovolte dvě ilustrační historky:Provozovatel
prvního agregátoru, dnes již neexistujícího, mi na upozornění, že
jejich stroj nám dělá vyšší traffic než je zdrávo odpověděl, že ONI
jsou největší agregátor, a že taky proto mají hodně požadavků, že to
tak prostě je a že změna algoritmu by byla u jejich zaběhnutého systému
velmi složitá, což si jistě dovedu představit, takže nashledanou. K
rozumu přišel až po známém triku s „deny from ...“ a implementoval
řešení, které jsem mu od počátku navrhoval. Od té doby nebyl problém. S
nimi.Přišli jiní.
Situace se opakovala - mnoho dotazů, „deny from ...“, po čase otázka
PROČ jsou zablokovaní, zase povídání o největším agregátoru (okořeněné
řečmi o tom, jak „nám přivádějí uživatele“), tlachy typu „nezatěžujeme
vás, čteme zdroje jednou za šest hodin“ (ale při počtu který četli se
stávalo, že přišlo 80 dotazů za 40 sekund), na můj návrh odpověď ve
stylu „to se nám nevyplatí kvůli vám to předělávat...“, kontranávrh
(„Tak nám posílejte PING vždy když bude nový příspěvek“) a po těchto
žertovných mailech s neskrývanými osobními antipatiemi nakonec i oni
přistoupili na řešení, které jsem navrhoval.Autoři
agregátorů by si měli uvědomit, že efekt „přivádíme vám čtenáře“ je pro
velký blogovací server nicotný v porovnání s efektem „my máme ta data,
bez nichž je vaše služba nanic“, a měli by se chovat ke zdrojům těch
dat šetrněji. Podojit, ale ne z nich cedit krev. (Při pohledu do
statistik vidím dokonce velmi silný nepoměr mezi tím, jak agregátory
přistupují a kolik přivedou lidí; dle počtu „přivedených lidí“ je efekt
agregátorů mizivý jak relativně, tak absolutně.) Jaké je to
„šetrné řešení“, které jsem navrhoval? Prosté. Využít globálního
agregovaného RSS kanálu, který Bloguje nabízí a který obsahuje u každé
ITEM položky i tag source.
Agregátor stáhne tento kanál a roztřídi si příspěvky k těm kanálům,
které sleduje. Stejné agregované RSS nabízí i další blogoservery (jen
nemají parametr SOURCE, takže je jejich parsování o něco těžší).Když už se budete, milí autoři čteček a agregátorů, dívat do té RSS specifikace, tak se podívejte i na tagy ttl, skipHours a skipDays. Sice jsem je zatím skoro nikde neviděl, ale jistě se začnou objevovat, s tím jak jejich potřeba bude časem narůstat.Za
naprostou samozřejmost považuji alespoň minimální inteligenci robota,
kterému dojde, že když v čase T nebyl žádný nový příspěvek, v čase T+5
minut taky ne, v T+10 taky ne a v T+15 opět ne, tak že je nesmysl číst
v T+20 a nejspíš i v T+25, že by stačilo bohatě čtení v T+30, T+45,
T+60 a když ani pak nebude nic nového, tak se přijít podívat za dvě
hodiny, za tři, za šest... Pokud jste ale „posedlí aktuálností“, tak
nezbyde než prohlížet agregované RSS. Děkuji za pozornost, doufám že jste si vzali ponaučení a když ne, tak - sejdeme se v .htaccess :)Powered by ScribeFire.
Neagresivní čtení RSS
- mmaly's blog
- Chcete-li přidat komentář, přihlašte se nebo se zaregistrujte.
