Amazon Elastic MapReduce powered by Hadoop

Vor ca. einer Woche hat das Amazon Cloud Computing Featurewunder einen neuen Sprössling bekommen. Dieser hört auf den wundervollen Namen Amazon Elastic MapReduce. MapReduce ist die Bezeichnung für ein Verfahren um Informationen aus großen Datenmengen zu filtern. Dabei werden die Informationen in kleine möglichst gleichgroße Einheiten aufgeteilt und auf verschiedenen Arbeitern bearbeitet. Sobald ein Arbeiter fertig ist, schickt er seine Ergebnisse an eine Sammelstelle. Diese bündelt die Informationen der einzelnen Arbeiter und gibt das Ergebnis zurück.

Google verwendet ein ähnliches System für die Google Suche und auch Yahoo setzt mit Hilfe von Hadoop auf dieses Verfahren.

Hadoop ist quasi der Open Source Klon des Google Systems, und mit etwas Übung und genug Hardware könnte man mit Hilfe dieses Apache Projekts schnell große Datenmengen verarbeiten.

Amazon bietet jetzt mit Amazon Elastic MapReduce die Möglichkeit diese Daten einfach in einen S3 Bucket zu laden, den MapReduce Job zu starten und die Resultate abzuwarten. Es entfällt also das Aufsetzen des Clusters und der Bedarf an Hardware.

Zumindest das Aufsetzen der Software lässt sich aber auch mit Hilfe der Cloudera Hadoop Distribution (Blogbeitrag dazu) vereinfachen. Hier kann man mit Hilfe eines Webinterfaces einen Cluster vorkonfigurieren und muss dann lediglich die zum Download angebotenen Pakete auf den Servern installieren.

About Philipp Strube

Philipp Strube ist Gründer und Geschäftsführer von cloudControl. cloudControl entwickelt eine hochverfügbare und skalierbare Cloud Hosting Lösung für moderne Webapplikationen.
This entry was posted in Featured, Neuigkeiten and tagged , , , , , . Bookmark the permalink.

Leave a Reply

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>