Script per recórrer categories de la Viquipèdia

Per tal de preparar la Viquimarató de Bioinformàtica que tindrà lloc el proper divendres 27 de febrer de 2015 a Barcelona, una de les coses a fer és tenir preparat un llistat d'articles (inicial aquí) que suggerirem als participants perquè hi puguin treballar (sigui tant ampliant-los com creant-los de bell nou).

Tenint en compte que la Viquipèdia en anglès, a diferència de la catalana actualment (i per això el motiu de la Viquimarató) té una prou bona cobertura sobre la temàtica, té sentit utilitzar-la com a referència.

Apart dels criteris dels especialistes, com també les motivacions pròpies dels participants, un bon punt a considerar és conèixer la popularitat dels articles corresponents en una altra llengua (en anglès en aquest cas).

Si un article de Bioinformàtica es consulta molt en anglès, caldria esperar que sigui prou rellevant fins i tot per a un públic no necessàriament especialitzat i potser valdria la pena tenir-lo traduït. Partint d'aquesta premissa, he preparat un senzill script de Perl que recorre una categoria determinada, en aquest cas «Bioinformatics», i a partir d'aquí obté informació de les pàgines membres que en formen part (incloent subcategories fins a un nivell inferior que es pot predefinir).

Dels articles n'extraiem llur extensió, el nombre de versions en altres llengües (interwiki), el nombre de visites rebudes (mitjançant el servei http://stats.grok.se/ ) i, si hi ha una versió en català, el nom de l'article i l'extensió que té.

Podeu consultar un llistat resultant (també prenent com a llengua base l'espanyol o el francès).

Cal dir que tinc la impressió que, especialment en la versió anglès, tenim força entrades que podríem dubtar si es poden considerar de l'àmbit bioinformàtic per ser massa genèriques (com per exemple, 'Sex'). En aquest cas, apareix allà via Category:Biological_processes → Category:Systems_biology → Category:Bioinformatics.

Podríem argumentar si la categorització (i la seva jerarquia) és l'adequada o no. Sens dubte, estirant d'enllaços interwiki es podria fer una comparativa interessant de com categoritzen les diferents comunitats.

I això és tot, a partir dels llistats anteriors mirarem de suggerir uns quants articles i engrandir la llista de propostes del viquiprojecte Bioinformàtica existent.

Espero que aquesta aproximació pugui ser útil per a altres experiències similars.