Im deutschen Raum ist das Distributed-Computing-Projekt “Majestic12” noch relativ unbekannt. Ich selbst kam dazu auch nur durch Zufall, all ich mal wieder auf dem schönen rechenkraft.net-Wiki unterwegs war. Das passiert öfter, da mich “DC” nach wie vor sehr interessiert. Es hat einen gewissen Wert, da alle die teilnehmen doch irgendwie eine Familie sind. Ein Teil von etwas großem. Während Google also in den eigenen Rechenzentren seine Crawler durch das Internet schickt, mach es Majestic12 einen Ticken besser – es werden kaum eigene Server gebraucht, man spart massig Kosten und trotzdem bekommt man vergleichbare Leistungswerte wenn man alle Einheiten (Nodes) zusammenzählt.
Kurz aber zu Majestic12 selbst – es handelt sich um ein Projekt welches der Nutzer auf seinem Mac, Linux-Rechner oder auf einer Windows-Maschine installieren kann. Die ersten beiden Betriebssysteme müssen die entsprechenden Dateien mit “Mono” emulieren, da es vorerst nur .exe-Files für Windows gibt. Bei vielen anderen Distributed-Computing-Projekten war das zu Anfang so. Hat man sich das passende Paket geladen und installiert kann man es starten. Bei Windows hat man standardmäßig eine GUI dabei, in der man sich einen Account anlegen oder einen vorhanden eingeben kann. Der “Out of the box”-Webserver muss unter Windows nicht zwangsläufig aktiviert werden. Wie sich das mit der GUI unter Linux verhält kann ich nicht sagen, da ich es bis jetzt nur bei Server-Versionen getestet habe, also ohne GUI in dem Sinne. Die Steuerung habe ich über das Webinterface erledigt. Ob bei einem Linux-Desktop eine GUI startet könnt ihr selbst probieren. In jedem Fall lässt sich das Webinterface gleich simpel bedienen.
Was genau macht Majestic nun? Es crawlt (“wühlt”) sich durch das Internet und die Websites. Von den Majestic-Servern werden Listen heruntergeladen die bestimmen wann das Programm auf welche URL gehen soll um den Content einzulesen und zu indexieren. Die URLs werden besucht, der Content eingelesen, der Content komprimiert und wieder an Majestic-Server verschickt. Man hat im Großen und Ganzen eine gute Kontrolle über die Seiten die gerade besucht werden. So kann man in den Einstellungen bestimmen, welche Endungen durchsucht und welche ausgelassen werden sollen. Weiterhin kann man quasi live sehen, welche URL gerade durchsucht wird.
Für viele ist DC einfach schwachsinnig. Denken sich “Warum soll ich mein Geld investieren damit andere profitieren?”, aber das Prinzip von DC kommt schon zur Anwendung. Bei jeder Person die Steuern zahlt. Das “Projekt” sind (ich möchte jetzt niemanden kränken!) die Hartz4-Empfänger – die investierenden Leute sind die Steuerzahler. Von jedem wird ein bisschen genommen, damit nicht auf einem die ganze Last liegt. (Na gut, schlechtes Beispiel. Besseres ist mir nicht eingefallen. Ich denke man versteht worum es geht.)
Einen weiteren Punkt sollte man vor einer Meinung dazu bitte auch nicht vergessen: Die Community ist sehr wertvoll. Es macht einfach Spaß sich im rechenkraft.net-Forum über das Tuning solcher Programme und die effizienteste Hardware für das Vergnügen zu unterhalten.
Keep folding crawling!
Ich habe mir diesen Artikel nun schon mehrfach durchgelesen, jedoch verschließen sich mir immer noch Funktionsweise, Sinn und Ergebnis. Natürlich weiß ich, was ein Crawler ist.
Funktionsweise: Du installierst, Majestic12 ruft Seiten aus einer vorgegebenen Liste auf und indexiert den Content.
Sinn: Dieser Content wird komprimiert an Majestic12 übermittelt und dient einer Suchmaschine und anderen Projekten von Majestic.
Ergebnis: Nutzer bekommt Punkte in einem Ranking und freut sich, dass seine Internetleitung bisschen ausgelastet wird. Gerade bei einer Flat denke ich mir auch immer: “Wenn ichs doch hab, warum nicht nutzen?”
Tu mir leid. Ich schnalle es nicht. Das liegt sicher nicht an Dir.
Welche Suchmaschine denn? Welche Projekte? Wieso sollte ich meine Flat ausreizen?
Langsam kapiere ich es (glaube ich). Geht es darum, die Rechenkapazität der Nutzer anzuzapfen, ähnlich, wie bei seti@home?
So wie Folding@home zum Beispiel. Genau. Nur das es kaum CPU sondern viel mehr die Internetleitung auslastet. :)
Na, dann haben wir’s ja endlich…uff.