] > Kaczyński vs Tusk @WP - Karol „Zal” Zalewski - Blog

Kaczyński vs Tusk @WP

2007-12-15, Sobota 11:03:03 +0100, autor Karol „Zal” Zalewski, licencja LPRCTKC

Po 10h działania zabiłem proces skryptu bashowego działającego w następujący sposób:

  • ściągnięcie stron http://wiadomosci.wp.pl/kat,1342,wid,$STRONA,wiadomosc.html (kategoria wiadomości to "kraj"), gdzie zmienna STRONA przyjmuje początkowo wartość 9489564 i maleje do zera,
  • konwersję ściągniętej strony z ISO-8859-2 do UTF-8 (iconv),
  • sprawdzenie, czy ściągnięta strona zawiera artykuł - w przeciwnym razie strona idzie do kosza,
  • zastosowanie programu napisanego we Fleksie (Flex) do pozostawienia w pliku jedynie treści artykułu (wszystkie znaczniki HTML i JavaSript do kosza) - dzięki Psycholowi za radę,
  • policzenie słów (wc) oraz zakwalifikowanie artykułu (przy użyciu Grepa) do jednej z 4 kategorii: brak wzmianki o Kaczyńskim i Tusku, wzmianka tylko o Kaczyńskim, wzmianka tylko o Tusku, wzmianka o Tusku i Kaczyńskim.

Skrypt działa wolno ze względu na "brute force" w momencie pozyskiwania stron z WP, ale pozyskane wyniki są całkiem interesujące. Widać je poniżej - w przyszłości poinformuję o wynikach nieco bardziej skomplikowanych testów (m.in. chi^2).

  • Liczba ściągniętych artykułów: 2452
  • Liczba artykułów w których pojawia się sam Tusk: 210
  • Liczba artykułów w których pojawia się sam Kaczyński: 149
  • Liczba artykułów w których pojawia się jeden i drugi polityk: 163

Jaki z tego wniosek? W około 15,21% wiadomości z kraju pojawia się Tusk - Kaczyński zaś w 12,72%. Całkiem sporo ich tam u nas ;>

Dla zainteresowanych - całe zadanie (włącznie z niewykonanym jeszcze testem chi^2 z wykorzystaniem danych o długości wiadomości) realizowane jest w ramach bonusu na zajęcia z Komputerowego Modelowania Systemów. W ramach SPOJa oczywiście. Ciekawe zadanie, prawda? :D

Komentarze do wpisu Kaczyński vs Tusk @WP
  1. D4rky powiedział(a):

    trzeba bylo odpalic 2-3 skrypty naraz tak, zeby podczas gdy jeden sciaga, drugi parsowal ;)

  2. Zal powiedział(a):

    Przedstawiony schemat działania był wykorzystany w podskrypcie ;] Skrypt główny wywoływał w tle podskrypt z parametrem STRONA :D Tylko nie wiem, czy to zadziałało tak „do końca” – w teorii w tle miało działać kilkanaście podskryptów, a każdy miał operować na innej wiadomości.

    Wynikami zaś jestem zdziwiony - Kaczyńskich jest więcej, a i tak przegrali w statystykach.

  3. S powiedział(a):

    Tak losowo patrzac to w ciagu dnia na wp pojawia sie mniej wiecej 100 newsow w kategori kraj. Czyli zebrales newsy z okolo miesiaca. Czy nie wydaje ci sie, ze stosunek wystapien tych nazwisk bedzie zalezny od tego z jakiego miesiaca sa to newsy? A skoro pewnie nie wiesz z kiedy sa te zebrane newsy, to sobie mozesz o kant dupy rozbic wnioski z „eksperymentu”.

  4. Zal powiedział(a):

    @S: A nie wydaje Ci się, że nie jest problemem dociągnięcie kolejnych kilku tysięcy artykułów? Na potrzeby zadania – wzmiankę o którym pewnie, „losowo patrząc”, ominąłeś – wystarczy 500 wiadomości.

    Co do dat – podczas dodawania jakiejkolwiek wiadomości do serwisu WP następuje inkrementacja ID (u mnie $STRONA). Pobierając kolejne wiadomości posiadające ID mniejsze od pewnej z góry ustalonej wartości mam pewność, że pobieram wszystkie wiadomości z danego okresu. Nie widzę żadnego problemu,

    Mam nieodparte wrażenie, iż próbuję na siłę się do czegoś przyczepić.

  5. Michał Koperkiewicz powiedział(a):

    czesc, ja tez to robilem, tydzien temu, wyszlo 500 wiadomosci w ciagu 3 dni, tustkow i kaczynskich praktycznie identycznie, mysle ze te 500 to malo, ciezko jakies wnioski wyciagnac tymbardziej ze to zalezy od tego co sie dzieje w polityce, na KMSy styknie :) ale ja osobicie nie widze sensu troche tego zadania ;)

  6. Zal powiedział(a):

    @Kopringo: podejrzewam, że gdyby zadanie wymagało wiadomości z dwóch lat to miałoby głębszy sens. A tak sensem zadanie są punkty z KMSów :D Co nie zmienia faktu, iż irytują mnie ciągłe komentarze Szymona zarzucające mi ignorancję :P Nie wykluczam tego, iż taki ma po prostu charakter.

  7. S powiedział(a):

    Po prostu ja w tym widze kolejne zadanie na spoja, a ty nie wiadomo jakie wnioski probujesz z tego wyciagnac.

    Zrob cos analogicznego do czegos „takiego:http://www.google.com/trends?q=kaczy%C5%84ski%2C+tusk wtedy bedziesz mogl mowic o jakis wnioskach i nazwac zadanie ciekawym. IMHO.

  8. Zal powiedział(a):

    Za 8 pkt. z KMSów nikt nie zrobi konkurencyjnej usługi dla Google Trends :D Z tym się zgodzę.

    Natomiast sam wpis na blogu nie jest publikacją naukową i nie można wymagać, aby spełniał wymagania takowej stawiane.

    Samo zaś zadanie jest ciekawe i zdecydowanie odbiega od innych zadań wykonywanych w ramach KMSów. Takie jest przynajmniej moje zdanie.

Dodaj komentarz:

Możesz wykorzystać Markdown. Znaczniki HTML nie działają!

Wysyłając komentarz wyrażasz zgodę na jego publikację na zasadach licencji CC BY-NC-SA 3.0. Jeżeli się na to nie zgadzasz - nie komentuj.

Uwaga! Niniejszy serwis przechowuje adres IP osoby pozostawiającej komentarz. Chcesz pozostać anonimowy? Skorzystaj z Tora, lub bezpiecznego proxy. Z mojej strony gorąco polecam Tora w połączeniu z systemem GNU/Linux, przeglądarką Firefox oraz rozszerzeniem Torbutton.

Polecam: Tor Project

Powyższe logo jest zarejestrowanym znakiem handlowym The Tor Project, Inc.

Podgląd komentarza: