Libreria per parsing codice HTML

by Andrea 10 November 2010 03:18

Può capitare di dover eseguire il parsing di documenti/pagine HTML per svariati motivi, che vanno dalla semplice verifica della presenza o meno di un determinato tag (Web scanners), fino ad arrivare a recuperare una porzione di un documento/pagina HTML (Web scrapers).

Un pò di tempo fa, navigando in rete,  sono venuto a conoscenza del progetto Html Agility Pack che trovate a questo link: http://htmlagilitypack.codeplex.com/

This is an agile HTML parser that builds a read/write DOM and supports plain XPATH or XSLT (you actually don't HAVE to understand XPATH nor XSLT to use it, don't worry...). It is a .NET code library that allows you to parse "out of the web" HTML files. The parser is very tolerant with "real world" malformed HTML. The object model is very similar to what proposes System.Xml, but for HTML documents (or streams).

Per la gioia di molti (e mia), questa libreria supporta Linq To Object, il che permette di interagire con il documento HTML con estrema facilità e velocità, e senza dover necessariamente conoscere le query XPath.
La libreria lavora anche con codice HTML malformed, segnalando gli errori presenti all'interno del documento/pagina e permettendoci con facilità di intervenire per correggerli.
Altra nota positiva si nota dalla pagina del codice sorgente del progetto su codeplex, che dimostra che il progetto è ancora vivo, e in continuo aggiornamento.

Buon parsing a tutti Winking smile

Tags: ,

ASP .NET

Nascondere un tag BR con gli stili

by Andrea 10 July 2007 15:07

E' proprio vero, non si finisce mai di imparare!!

Avevo un label e successivamente un tag BR (per il ritorno a capo), e nella label, in un determinato tema, è applicato uno style "display:none". Questo però causava il problema di avere graficamente una riga vuota.

Mi sono detto, ma se provo ad applicare il "display: none" anche al BR? Ebbene, a mia sorpresa, funziona e quindi non viene visualizzato evitando così quel ritorno a capo in più. :D
Questa proprio non l'evrei mai pensata...

Quindi, se volete nascondere un tag BR usate tranquillamente gli stili!
+1 per i CSS ;)

Technorati tags: , ,

Tags: , ,

ASP .NET