Donnerstag Mai 06, 2010

Links 20100504 - Nutch, HBase, Tika, Traffic Server

Nutch ist eine Suchmaschine basierend auf Apache Solr (früher Lucene). Damit lässt sich relativ einfach und schnell eine eigene Suchmaschine aufbauen. Nutch fügt Solr noch webspezifische Eigenschaften wie Crawler, Link-Graph Datenbank und Interpretierung von div. Datenformaten (.doc, .xls, .html, .pdf, usw.) hinzu. Für Letzteres ist Apache Tika zuständig.
Apache Cassandra - Von Facebook 2008 als OpenSource-Projekt eingebracht, erhält man eine verteilte, hochverfügbare Datenbank die nach Google's BigTable Prinzip arbeitet.
HBase ist eine Hadoop Datenbank. Damit kann man sehr große Tabellen verwalten auf einfacher Hardware.
Apache Tika - Mit Hilfe von Tika kann man Metadaten erkennen und erzeugen. D.h. es gibt eine ganze Reihe von Parsern, die verschiedene Formate von Dateien (HTML, XML, PDF, DOC, usw.) erkennen und Metainformationen extrahieren können.
Traffic Server ist ein schneller, skalierbarer und erweiterbarer HTTP/1.1 Caching Proxy, der von Yahoo entwickelt wurde. Er kann durch eigene Plugins erweitert werden.

Kommentare:

Senden Sie einen Kommentar:
  • HTML Syntax: Ausgeschaltet