Kaczyński vs Tusk @WP
2007-12-15, Sobota 11:03:03 +0100, autor Karol „Zal” Zalewski, licencja LPRCTKC
Po 10h działania zabiłem proces skryptu bashowego działającego w następujący sposób:
- ściągnięcie stron http://wiadomosci.wp.pl/kat,1342,wid,$STRONA,wiadomosc.html (kategoria wiadomości to "kraj"), gdzie zmienna STRONA przyjmuje początkowo wartość 9489564 i maleje do zera,
- konwersję ściągniętej strony z ISO-8859-2 do UTF-8 (iconv),
- sprawdzenie, czy ściągnięta strona zawiera artykuł - w przeciwnym razie strona idzie do kosza,
- zastosowanie programu napisanego we Fleksie (Flex) do pozostawienia w pliku jedynie treści artykułu (wszystkie znaczniki HTML i JavaSript do kosza) - dzięki Psycholowi za radę,
- policzenie słów (wc) oraz zakwalifikowanie artykułu (przy użyciu Grepa) do jednej z 4 kategorii: brak wzmianki o Kaczyńskim i Tusku, wzmianka tylko o Kaczyńskim, wzmianka tylko o Tusku, wzmianka o Tusku i Kaczyńskim.
Skrypt działa wolno ze względu na "brute force" w momencie pozyskiwania stron z WP, ale pozyskane wyniki są całkiem interesujące. Widać je poniżej - w przyszłości poinformuję o wynikach nieco bardziej skomplikowanych testów (m.in. chi^2).
Liczba ściągniętych artykułów: 2452- Liczba artykułów w których pojawia się sam Tusk: 210
- Liczba artykułów w których pojawia się sam Kaczyński: 149
- Liczba artykułów w których pojawia się jeden i drugi polityk: 163
Jaki z tego wniosek? W około 15,21% wiadomości z kraju pojawia się Tusk - Kaczyński zaś w 12,72%. Całkiem sporo ich tam u nas ;>
Dla zainteresowanych - całe zadanie (włącznie z niewykonanym jeszcze testem chi^2 z wykorzystaniem danych o długości wiadomości) realizowane jest w ramach bonusu na zajęcia z Komputerowego Modelowania Systemów. W ramach SPOJa oczywiście. Ciekawe zadanie, prawda? :D
2007-12-15, Sobota 11:20:55 +0100
trzeba bylo odpalic 2-3 skrypty naraz tak, zeby podczas gdy jeden sciaga, drugi parsowal ;)
2007-12-15, Sobota 11:40:10 +0100
Przedstawiony schemat działania był wykorzystany w podskrypcie ;] Skrypt główny wywoływał w tle podskrypt z parametrem STRONA :D Tylko nie wiem, czy to zadziałało tak „do końca” – w teorii w tle miało działać kilkanaście podskryptów, a każdy miał operować na innej wiadomości.
Wynikami zaś jestem zdziwiony - Kaczyńskich jest więcej, a i tak przegrali w statystykach.
2007-12-18, Wtorek 23:29:13 +0100
Tak losowo patrzac to w ciagu dnia na wp pojawia sie mniej wiecej 100 newsow w kategori kraj. Czyli zebrales newsy z okolo miesiaca. Czy nie wydaje ci sie, ze stosunek wystapien tych nazwisk bedzie zalezny od tego z jakiego miesiaca sa to newsy? A skoro pewnie nie wiesz z kiedy sa te zebrane newsy, to sobie mozesz o kant dupy rozbic wnioski z „eksperymentu”.
2007-12-19, Środa 00:06:17 +0100
@S: A nie wydaje Ci się, że nie jest problemem dociągnięcie kolejnych kilku tysięcy artykułów? Na potrzeby zadania – wzmiankę o którym pewnie, „losowo patrząc”, ominąłeś – wystarczy 500 wiadomości.
Co do dat – podczas dodawania jakiejkolwiek wiadomości do serwisu WP następuje inkrementacja ID (u mnie $STRONA). Pobierając kolejne wiadomości posiadające ID mniejsze od pewnej z góry ustalonej wartości mam pewność, że pobieram wszystkie wiadomości z danego okresu. Nie widzę żadnego problemu,
Mam nieodparte wrażenie, iż próbuję na siłę się do czegoś przyczepić.
2007-12-19, Środa 00:47:57 +0100
czesc, ja tez to robilem, tydzien temu, wyszlo 500 wiadomosci w ciagu 3 dni, tustkow i kaczynskich praktycznie identycznie, mysle ze te 500 to malo, ciezko jakies wnioski wyciagnac tymbardziej ze to zalezy od tego co sie dzieje w polityce, na KMSy styknie :) ale ja osobicie nie widze sensu troche tego zadania ;)
2007-12-19, Środa 10:00:10 +0100
@Kopringo: podejrzewam, że gdyby zadanie wymagało wiadomości z dwóch lat to miałoby głębszy sens. A tak sensem zadanie są punkty z KMSów :D Co nie zmienia faktu, iż irytują mnie ciągłe komentarze Szymona zarzucające mi ignorancję :P Nie wykluczam tego, iż taki ma po prostu charakter.
2007-12-19, Środa 11:26:24 +0100
Po prostu ja w tym widze kolejne zadanie na spoja, a ty nie wiadomo jakie wnioski probujesz z tego wyciagnac.
Zrob cos analogicznego do czegos „takiego:http://www.google.com/trends?q=kaczy%C5%84ski%2C+tusk wtedy bedziesz mogl mowic o jakis wnioskach i nazwac zadanie ciekawym. IMHO.
2007-12-19, Środa 11:47:20 +0100
Za 8 pkt. z KMSów nikt nie zrobi konkurencyjnej usługi dla Google Trends :D Z tym się zgodzę.
Natomiast sam wpis na blogu nie jest publikacją naukową i nie można wymagać, aby spełniał wymagania takowej stawiane.
Samo zaś zadanie jest ciekawe i zdecydowanie odbiega od innych zadań wykonywanych w ramach KMSów. Takie jest przynajmniej moje zdanie.