La conversión de HTML a MS Word se utiliza principalmente en aplicaciones web para generar ficheros .doc o .docx con contenido HTML dinámico. Los documentos de Microsoft Word es uno de los formatos más populares a la hora de exportar contenido para su uso offline. Esto se puede implementar facilmente con Javascript pero, en este tutorial, te mostraremos cómo llevarlo a cabo desde el lado del servidor, en este caso, con PHP.
La exportación de contenido HTML a Word es muy útil a la hora de convertir contenido dinámico web a un documento MS Word, para después descargarlo. El documento MS Word se puede generar de forma sencilla basándose en contenido HTML utilizando PHP. En este tutorial te mostraremos cómo convertir HTML a MS Word en PHP.
HTML a Word
La clase HTML_TO_MSDOC pertenece a una librerÃa que nos ayuda a generar documentos de MS Word e incluir HTML formateado en dicho documento utilizando PHP.
- setDocFileName() - Define el nombre del documento
- setTitle() - Define el tÃtulo del documento
- getHeader() - Crea un encabezado en el documento
- getFooter() - Crea un pie en el documento
- createDoc() - Crea un documento en formato .docx
- _parseHtml() - Parsea y filtra HTML de una fuente
- write_file() - Inserta contenido en el documento Word
Â
Convertir HTML a un documento Word
En el siguiente ejemplo veremos el código para convertir contenido HTML a MS Word, para después exportarlo a un fichero .docx utilizando la clase
<?php
class HTML_TO_MSDOC
{
var $docFile = '';
var $title = '';
var $htmlHead = '';
var $htmlBody = '';
/**
* Constructor
*
* @return void
*/
function __construct(){
$this->title = '';
$this->htmlHead = '';
$this->htmlBody = '';
}
/**
* Set the document file name
*
* @param String $docfile
*/
function setDocFileName($docfile){
$this->docFile = $docfile;
if(!preg_match("/.doc$/i",$this->docFile) && !preg_match("/.docx$/i",$this->docFile)){
$this->docFile .= '.doc';
}
return;
}
/**
* Set the document title
*
* @param String $title
*/
function setTitle($title){
$this->title = $title;
}
/**
* Return header of MS Doc
*
* @return String
*/
function getHeader(){
$return = <<<EOH
<html xmlns:v="urn:schemas-microsoft-com:vml"
xmlns:o="urn:schemas-microsoft-com:office:office"
xmlns:w="urn:schemas-microsoft-com:office:word"
xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv=Content-Type content="text/html; charset=utf-8">
<meta name=ProgId content=Word.Document>
<meta name=Generator content="Microsoft Word 9">
<meta name=Originator content="Microsoft Word 9">
<!--[if !mso]>
<style>
v:* {behavior:url(#default#VML);}
o:* {behavior:url(#default#VML);}
w:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style>
<![endif]-->
<title>$this->title</title>
<!--[if gte mso 9]><xml>
<w:WordDocument>
<w:View>Print</w:View>
<w:DoNotHyphenateCaps/>
<w:PunctuationKerning/>
<w:DrawingGridHorizontalSpacing>9.35 pt</w:DrawingGridHorizontalSpacing>
<w:DrawingGridVerticalSpacing>9.35 pt</w:DrawingGridVerticalSpacing>
</w:WordDocument>
</xml><![endif]-->
<style>
<!--
/* Font Definitions */
@font-face
{font-family:Verdana;
panose-1:2 11 6 4 3 5 4 4 2 4;
mso-font-charset:0;
mso-generic-font-family:swiss;
mso-font-pitch:variable;
mso-font-signature:536871559 0 0 0 415 0;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
{mso-style-parent:"";
margin:0in;
margin-bottom:.0001pt;
mso-pagination:widow-orphan;
font-size:7.5pt;
mso-bidi-font-size:8.0pt;
font-family:"Verdana";
mso-fareast-font-family:"Verdana";}
p.small
{mso-style-parent:"";
margin:0in;
margin-bottom:.0001pt;
mso-pagination:widow-orphan;
font-size:1.0pt;
mso-bidi-font-size:1.0pt;
font-family:"Verdana";
mso-fareast-font-family:"Verdana";}
@page Section1
{size:8.5in 11.0in;
margin:1.0in 1.25in 1.0in 1.25in;
mso-header-margin:.5in;
mso-footer-margin:.5in;
mso-paper-source:0;}
div.Section1
{page:Section1;}
-->
</style>
<!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1032">
<o:colormenu v:ext="edit" strokecolor="none"/>
</o:shapedefaults></xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1"/>
</o:shapelayout></xml><![endif]-->
$this->htmlHead
</head>
<body>
EOH;
return $return;
}
/**
* Return Document footer
*
* @return String
*/
function getFotter(){
return "</body></html>";
}
/**
* Create The MS Word Document from given HTML
*
* @param String $html :: HTML Content or HTML File Name like path/to/html/file.html
* @param String $file :: Document File Name
* @param Boolean $download :: Wheather to download the file or save the file
* @return boolean
*/
function createDoc($html, $file, $download = false){
if(is_file($html)){
$html = @file_get_contents($html);
}
$this->_parseHtml($html);
$this->setDocFileName($file);
$doc = $this->getHeader();
$doc .= $this->htmlBody;
$doc .= $this->getFotter();
if($download){
@header("Cache-Control: ");// leave blank to avoid IE errors
@header("Pragma: ");// leave blank to avoid IE errors
@header("Content-type: application/octet-stream");
@header("Content-Disposition: attachment; filename="$this->docFile"");
echo $doc;
return true;
}else {
return $this->write_file($this->docFile, $doc);
}
}
/**
* Parse the html and remove <head></head> part if present into html
*
* @param String $html
* @return void
* @access Private
*/
function _parseHtml($html){
$html = preg_replace("/<!DOCTYPE((.|n)*?)>/ims", "", $html);
$html = preg_replace("/<script((.|n)*?)>((.|n)*?)</script>/ims", "", $html);
preg_match("/<head>((.|n)*?)</head>/ims", $html, $matches);
$head = !empty($matches[1])?$matches[1]:'';
preg_match("/<title>((.|n)*?)</title>/ims", $head, $matches);
$this->title = !empty($matches[1])?$matches[1]:'';
$html = preg_replace("/<head>((.|n)*?)</head>/ims", "", $html);
$head = preg_replace("/<title>((.|n)*?)</title>/ims", "", $head);
$head = preg_replace("/</?head>/ims", "", $head);
$html = preg_replace("/</?body((.|n)*?)>/ims", "", $html);
$this->htmlHead = $head;
$this->htmlBody = $html;
return;
}
/**
* Write the content in the file
*
* @param String $file :: File name to be save
* @param String $content :: Content to be write
* @param [Optional] String $mode :: Write Mode
* @return void
* @access boolean True on success else false
*/
function write_file($file, $content, $mode = "w"){
$fp = @fopen($file, $mode);
if(!is_resource($fp)){
return false;
}
fwrite($fp, $content);
fclose($fp);
return true;
}
}
Para ello, lo primero que debemos hacer es cargar e inicializar la clase HTML_TO_MSDOC.
include_once 'HtmlToDoc.class.php'; $htd = new HTML_TO_MSDOC();
Después, define el contenido HTML que quieres convertir.
$htmlContent = '
<h1>Hello World!</h1>
<p>This document is created from HTML.</p>';
Llama a la función createdoc() para convertir el HTML en un documento Word.
$htd->createDoc($htmlContent, "my-document");
