Es posible realizar la conversi�n de documentos HTML en XHTML de forma totalmente autom�tica. Para ello deberemos utilizar una herramienta desarrollada por Dave Raggett denominada Tidy, que podemos obtener en el web del W3c.
�Instalaci�n y funcionamiento de Tidy.
Su instalaci�n no tiene ning�n inconveniente, ya que es un simple fichero .exe que no necesita ninguna instalaci�n.
La ejecuci�n se realiza desde la linea de comandos y debemos escribir:
tidy -f errores.txt fichero_entrada > fichero_salida
Con el par�metro -f indicamos el fichero donde se escribir�n los errores del documento HTML. Para el documento HTML phtml.htm del apartado anterior escribir�amos:
tidy -f errores_phtml.txt phtml.htm > phtml_n.htm
Debemos observar que la salida no es XHTML, sino simplemente un documento HTML m�s correcto que el que nosotros hab�amos escrito. Algunos errores son modificados por la aplicaci�n y otros simplemente son indicados en el fichero de errores errores_phtml.txt para que nosotros los modifiquemos.
El Tidy dispone de un amplio n�mero de par�metros que nos permiten parametrizar la salida de maneras muy diferentes. Para ver algunas de estas posibilidades no tenemos m�s que escribir:
tidy -h
y obtendremos:
Utility to clean up & pretty print html files see http://www.w3.org/People/Raggett/tidy/ options for tidy released on 30th April 2000 -config <file> set options from config file -indent or -i indent element content -omit or -o omit optional endtags -wrap 72 wrap text at column 72 (default is 68) -upper or -u force tags to upper case (default is lower) -clean or -c replace font, nobr & center tags by CSS -raw leave chars > 128 unchanged upon output -ascii use ASCII for output, Latin-1 for input -latin1 use Latin-1 for both input and output -iso2022 use ISO2022 for both input and output -utf8 use UTF-8 for both input and output -mac use the Apple MacRoman character set -numeric or -n output numeric rather than named entities -modify or -m to modify original files -errors or -e only show errors -quiet or -q suppress nonessential output -f <file> write errors to named <file> -xml use this when input is wellformed xml -asxml to convert html to wellformed xml -slides to burst into slides on h2 elements -version or -v show version -help or -h list command line options Input/Output default to stdin/stdout respectively Single letter options apart from -f may be combined as in: tidy -f errs.txt -imu foo.html You can also use --blah for any config file option blah For further info on HTML see http://www.w3.org/MarkUp
Hay que tener cuidado con la opci�n -m mediante la cual estamos indicando que los cambios se producen sobre el fichero original.
En la documentaci�n de la aplicaci�n se encuentran definidos con m�s detalle todos los par�metros que podemos utilizar. Entre ellos el par�metro --output-xhtml, mediante el cual indicamos que la salida sea XHTML.
Por tanto ,escribiendo:
tidy --output-xhtml yes --alt-text imagen phtml.htm > pxhtml_a.htm
Estamos convirtiendo el fichero phtml.htm en el fichero XHTML pxhtml_a.htm de forma autom�tica, e incluso le estamos indicando que en las im�gnes que no hemos puesto el atributo alt nos ponga por defecto el texto imagen.
NOTA: Observar que si validamos el fichero pxhtml.htm con nuestro parser de XML nos dar� un error ya que en el elemento form no hemos indicado el atributo action que evidentemente hace falta. Si lo corregimos a mano tendremos un documento XHTML perfecto.
El Tidy es capaz de trabajar con un fichero de configuraci�n,lo que nos permite no tener que reescribir los par�metros todas las veces que lo utilicemos. Este fichero de configuraci�n se referencia mediante el par�metro: -config.
Por tanto, para el ejemplo anterior podr�amos escribir el siguiente fichero tidyconf.txt
alt-text: imagen output-xhtml: yes
Y ejecutando la aplicaci�n de la siguiente manera obtendriamos los mismos resultados.
tidy -config tidyconf.txt phtml.htm > pxhtml_a.htm
�Otras aplicaciones basadas en Tidy
La aplicaci�n Tidy es cada vez m�s utilizada, en especial porque el uso del XHTML se est� popularizando y la facilidad que nos ofrece para convertir nuestros documentos HTML en XHTML. Esto ha contribuido a que el n�mero de aplicaciones que surgen alrededor de Tidy sea cada vez mayor. Esta es una peque�a lista de estas aplicaciones:
- TidyGUI, es una aplicaci�n de Windows escrita por Andr� Blavier que permite la ejecuci�n de Tidy desde un entorno de ventanas. Es muy recomendable y m�s si tenemos en cuenta que s�lo ocupa 300K y no necesita ninguna insstalaci�n. Resulta muy �til sobretodo para crear de forma los ficheros de configuraci�n de Tidy.
- Andy Quick ha escrito una versi�n en Java de Tidy. El c�digo fuente est� disponible y es una estupenda opci�n para integrar el Tidy en nuestras aplicaciones en Java.
- HTML-Kit, es un editor HTML gratuito para el entorno Windows que tiene integrado un soporte para Tidy.
- etc...
