HowTo: Use HtmlCleaner with Maven
by floriankubis
Wenn man HTML Code von beliebigen Webseiten parsen soll ist es sehr hilfreich den abgerufenen Code durch ein Clear / Tidy Programm säubern zu lassen.
In diesem Vergleich lieferte HtmlCleaner die besten Ergebnisse: http://www.benmccann.com/dev-blog/java-html-parsing-library-comparison/
Leider ist HtmlCleaner nicht im Maven Repository, lässt sich aber leicht in das eigene lokale einfügen.
- Download der aktuellen Version (heute 2.1): http://htmlcleaner.sourceforge.net/download.php
- Unter OS X und Linux wird nun ein Terminal geöffnet, unter Windows dürfte es auch die Kommandozeile tun
- Nun wird in das Verzeichnis gewechselt in welches das jar heruntergeladen wurde ($ cd Downloads/ )
- Das eigentliche Kommando lautet dann z.B. so:
mvn install:install-file -Dfile=htmlcleaner2_1.jar -DgroupId=net.sourceforge.htmlcleaner -DartifactId=htmlcleaner -Dversion=2.1 -Dpackaging=jar -DgeneratePom=true