HowTo: Use HtmlCleaner with Maven

by floriankubis

Wenn man HTML Code von beliebigen Webseiten parsen soll ist es sehr hilfreich den abgerufenen Code durch ein  Clear / Tidy Programm säubern zu lassen.

In diesem Vergleich lieferte HtmlCleaner die besten Ergebnisse: http://www.benmccann.com/dev-blog/java-html-parsing-library-comparison/

Leider ist HtmlCleaner nicht im Maven Repository, lässt sich aber leicht in das eigene lokale einfügen.

  1. Download der aktuellen Version (heute 2.1): http://htmlcleaner.sourceforge.net/download.php
  2. Unter OS X und Linux wird nun ein Terminal geöffnet, unter Windows dürfte es auch die Kommandozeile tun
  3. Nun wird in das Verzeichnis gewechselt in welches das jar heruntergeladen wurde ($ cd Downloads/ )
  4. Das eigentliche Kommando lautet dann z.B. so:

mvn install:install-file -Dfile=htmlcleaner2_1.jar -DgroupId=net.sourceforge.htmlcleaner -DartifactId=htmlcleaner -Dversion=2.1 -Dpackaging=jar -DgeneratePom=true