Libreria per parsing codice HTML

by Andrea 10 November 2010 03:18

Può capitare di dover eseguire il parsing di documenti/pagine HTML per svariati motivi, che vanno dalla semplice verifica della presenza o meno di un determinato tag (Web scanners), fino ad arrivare a recuperare una porzione di un documento/pagina HTML (Web scrapers).

Un pò di tempo fa, navigando in rete,  sono venuto a conoscenza del progetto Html Agility Pack che trovate a questo link: http://htmlagilitypack.codeplex.com/

This is an agile HTML parser that builds a read/write DOM and supports plain XPATH or XSLT (you actually don't HAVE to understand XPATH nor XSLT to use it, don't worry...). It is a .NET code library that allows you to parse "out of the web" HTML files. The parser is very tolerant with "real world" malformed HTML. The object model is very similar to what proposes System.Xml, but for HTML documents (or streams).

Per la gioia di molti (e mia), questa libreria supporta Linq To Object, il che permette di interagire con il documento HTML con estrema facilità e velocità, e senza dover necessariamente conoscere le query XPath.
La libreria lavora anche con codice HTML malformed, segnalando gli errori presenti all'interno del documento/pagina e permettendoci con facilità di intervenire per correggerli.
Altra nota positiva si nota dalla pagina del codice sorgente del progetto su codeplex, che dimostra che il progetto è ancora vivo, e in continuo aggiornamento.

Buon parsing a tutti Winking smile

Tags: ,

ASP .NET

Comments

10/11/2010 05:36 #

Yeah man! This is really *GOOD* stuff!! (mi ha salvato dal morire di substring...o peggio, impiccato al palo delle RegEx Smile)

Davide Senatore Italy |

Comments are closed