IntroducciÃ³n a la compresiÃ³n de datos: Lempel-Ziv, Gzip

Fue ideado por Jacob Ziv y Abraham Lempel, y publicado en el IEEE Transactions on Information Theory, vol. IT-23, No 3 de Mayo de 1977, si bien ya habï¿½a sido presentado anteriormente en el IEEE International Symposium on Information Theory celebrado en Ronneby, Suecia, en Junio de 1976.

Desde entonces recibe el nombre de compresiï¿½n Lempel-Ziv o, para abreviar, LZ.

Existe una variante de LZ, denominada LZW (Lempel-Ziv-Welch), que se ha hecho muy famosa por ser la que se utiliza para comprimir en el formato de imï¿½genes GIF. Se trata de una modificaciï¿½n de LZ que, a costa de un menor ratio de compresiï¿½n, ofrece mejoras en cuanto a velocidad y uso de memoria, lo que hizo que se usara en los modems que soportan el protocolo V42bis. Es tambiï¿½n el algoritmo empleado en el programa compress. Sin embargo, a pesar de su atractivo, no lo trataremos aquï¿½ porque, desgraciadamente, se trata de un algoritmo sujeto a patentes. Pese a que la informaciï¿½n sobre su funcionamiento se encuentra accesible lï¿½bremente ("A Technique for High-Performance Data Compression'', Terry A. Welch, IEEE Computer, Junio 1984, pï¿½ginas 8-19), su funcionamiento en cambio no lo es. Contrariamente a lo que se podrï¿½a pensar, la patente no es de Terry Welch, que durante 7 aï¿½os, y hasta que en 1983 se marchï¿½ a DEC, estuvo trabajando en el Sperry Research Center de Sudbury, Massachusetts. Desde el principio fue Sperry el propietario de la patente, aunque nunca tratï¿½ de sacarle partido. Al menos hasta que en 1986 se uniï¿½ a Burroughs para formar Unisys. Fue entonces cuando empezaron a utilizarla contra los fabricantes de modems. Actualmente la patente pertenece a Unisys, que legalmente puede cobrar por su uso, como ya hizo con Compuserve, con la que llegï¿½ a un acuerdo para crear una licencia para productores de software sobre el formato GIF, que antes era libre. No obstante lo dicho, Unisys al final decidiï¿½ no cobrar derechos de patentes por cï¿½digo libre que se hubiera publicado con anterioridad a la decisiï¿½n de hacer efectiva la patente, y por ello hay una librerï¿½a -giflib- que se puede usar para cï¿½digo libre sin pagar patentes; la librerï¿½a estï¿½ ahora mantenida por Eric S. Raymond: http://www.ccil.org/ esr/giflib.

La idea en que se basa LZ resulta simple, visto todo lo que le hemos pedido al algoritmo en la secciï¿½n anterior: bï¿½sicamente busca secuencias repetidas dentro de los datos, y cada vez que encuentra una de ellas la reemplaza por un puntero a la zona en la que comienza la primera secuencia, mï¿½s la longitud que se debe tomar a partir de esa posiciï¿½n. En caso de que no haya repeticiones, se emite la secuencia como un literal.

Lo mï¿½s importante, y lo que conforma el nï¿½cleo de la idea, es identificar lo que Lempel-Ziv llaman extensiï¿½n reproducible de una cadena dentro de otra y que difiere un tanto de lo que coloquialmente llamamos "repeticiones''.

Veï¿½moslo con el mismo ejemplo del artï¿½culo original de los autores, pero desde un punto de vista mï¿½s descriptivo y menos matemï¿½tico para facilitar un poco su lectura: supongamos que tenemos la secuencia S=00101011. Pongï¿½moslo tabulado, de forma que podamos hacer referencia a cada elemento de la secuencia fijï¿½ndonos en el orden en el que aparece dentro de esta. La primero fila de la figura 1 indica la posiciï¿½n dentro del buffer y la segunda su contenido. Consideraremos la posiciï¿½n mï¿½s a la izquierda como posiciï¿½n 1.

Supongamos tambiï¿½n que los tres primeros elementos, 001, ya han sido codificados; en este momento nos da igual que hayan sido comprimidos o tomados como literales. Posteriormente nos ocuparemos de ese aspecto, pero ahora tenemos que codificar lo que sigue: 01011. Llamaremos a la secuencia ya codificada secuencia 1 y a la que estï¿½ siendo codificada ahora secuencia 2.

Si a una persona normal le pedimos que encuentre en 01011 una secuencia que estï¿½ repetida a partir de lo que ya hemos codificado (001), nos dirï¿½ que los dos primeros elementos de la secuncia a codificar (posiciones 4 y 5 dentro del buffer) son iguales a los dos ï¿½ltimos de 001 (posiciones 2 y 3), y que ahï¿½ hay una repeticiï¿½n. Y tendrï¿½ razï¿½n, pero la genialidad de LZ estï¿½ en darse cuenta de que se puede ir mï¿½s allï¿½ y utilizar la propia secuencia a codificar como lugar donde seguir buscando repeticiones. ï¿½Eso a pesar de que aï¿½n no la hemos codificado!

Veï¿½moslo: la secuencia 2 empieza por 0101 (posiciones 4 a 7). Si empezamos a mirar en lo que ya hemos codificado, la secuencia 1, tenemos que finaliza en 01, pero si seguimos entrando en la secuencia 2 ahora veremos que empieza por 01. Si juntamos el final de la secuencia 1 con el principio de la secuencia 2, tenemos 0101, que es igual al comienzo de la secuencia a codificar o secuencia 2. Es decir: los elementos 4, 5, 6 y 7 de la secuencia total son una "repeticiï¿½n'' de los elementos 2, 3, 4 y 5. Por tanto se codificarï¿½n como un puntero a la posiciï¿½n nï¿½mero 2 mï¿½s una longitud de 4. Luego veremos en un ejemplo cï¿½mo esto, aunque parezca imposible, funciona a la hora de decodificar.

La codificaciï¿½n se lleva a cabo introduciendo los datos dentro de un buffer de una longitud prefijada, n, dentro del cual se van buscando subcadenas ya repetidas haciendo uso del mï¿½todo que acabamos de explicar. En gzip, la longitud mï¿½xima de esas subcadenas, Ls, es de 258 bytes. Si una cadena no ocurriï¿½ dentro de los 32 Kbytes anteriores, se emite literalmente.

Un ejemplo ayudarï¿½ a ver cï¿½mo se llevan a cabo la compresiï¿½n y la descompresiï¿½n. Utilizaremos una simplificaciï¿½n de uno propuesto por los creadores del algoritmo. Supongamos que queremos codificar la secuencia S=001010210210212021021200... Por razones didï¿½cticas (aunque no prï¿½cticas) usaremos un buffer de longitud n=18 y una longitud mï¿½xima de cadena Ls de 9. Inicialmente se llenan las n-Ls posiciones del buffer con ceros, y las Ls restantes con los primeros datos de la secuncia, con lo que el buffer en la posiciï¿½n inicial quedarï¿½a como se ve en la figura 2.

La extensiï¿½n reproducible de Ls, empezando a buscar en la parte ya "codificada" (las n-Ls primeras posiciones del buffer), aparece en gris. La primera subcadena a codificar se formarï¿½ a partir de esa extensiï¿½n reproducible, 00, seguida del siguiente elemento que ya no estï¿½ repetido 1, luego S1=001. La palabra cï¿½digo que representa a esa subcadena serï¿½, por convenio y en ese orden, el puntero al comienzo de la repeticiï¿½n menos 1, seguido de la longitud de la repeticiï¿½n, seguido del elemento final, que no entraba en la repeticiï¿½n. Es decir, para este caso: C1=021.

Puesto que S1 tenï¿½a longitud 3, todo el contenido del buffer es despplazado hacia la izquierda 3 posiciones. En esta situaciï¿½n 2 seguiremos, como siempre, a partir de la posiciï¿½n 10, buscando la extensiï¿½n reproducible de 0102... La encontramos en la figura 3.

Aquï¿½, la extensiï¿½n periï¿½dica de los elementos a partir de la posiciï¿½n 10 se haya en la posiciï¿½n 8. Empezando tanto por 8 como por 10 encontramos la secuencia 010, asï¿½ que S2 es la parte que se repite del comienzo de Ls, 010 (posiciones 10 a 12), mï¿½s el siguiente elemento, 2, que ya no se repite (posiciï¿½n 13). Luego S2=0102, que se codifica cmo C2=732. Desplazamos 4 posiciones a la izquierda, que es lo que mide S2, y la "repeticiï¿½n'' de la secuencia Ls se encuentra en la zona marcada en la figura 4.

En ella se observa con claridad que, dado que Ls empieza por 10, habï¿½a una repeticiï¿½n en las posiciones 5 y 6, que tambiï¿½n son 10, que sin embargo no hemos marcado en negrita dentro de la figura. Esto es debido a que la secuencia formada por las posiciones 5 y 6, si bien representa una repeticiï¿½n de lo que aparece en Ls, no se trata de su extensiï¿½n periï¿½dica ya que tiene longitud 2, mientras que la coloreada en la figura tiene longitud mayor: 7. Por ello S3=10210212 y C3=672. Por ï¿½ltimo, tras desplazar las 8 posiciones que ocupa S3, se obtiene S4=021021200 y C4=280 (figura 5).

Comprobemos que la secuencia comprimida C=821732672280 puede decodificarse unï¿½vocamente dando como resultado la secuancia original S=001010210210212021021200. Es importante darse cuenta de que, si bien la longitud de las subcadenas no es fija (aunque sï¿½ limitada), la de las palabras cï¿½digo sï¿½ lo es: en este caso, 3 caracteres. Esto permite separar a partir de C palabra cï¿½digo de palabra cï¿½digo de forma simple. Incluso dentro de una misma palabra cï¿½digo, los tamaï¿½os asignados a una u otra funciï¿½n (posiciï¿½n a partir de la que empieza una repeticiï¿½n, longitud de esta y elemento siguiente a ella), son tambin fijos, y fï¿½cilmente separables,

La longitud de cada uno de estos campos, y de la palabra cï¿½digo como suma de todos ellos, estï¿½ directamente relacionada con el tamaï¿½o del buffer, n, y con el de la mï¿½xima subcadena, Ls. Mï¿½s detalles se pueden encontrar en el artï¿½culo de Lempel-Ziv.

Para descomprimir se emplea un buffer de longitud n-Ls donde se van guardando los sï¿½mbolos descodificados. Inicialmente el buffer se pone todo a 0.

Seguidamente se van leyendo palabras cï¿½digo, lo cual puede hacerse sin especiales cuidados al tener todas la misma longitud. Tambiï¿½n en este caso ilustraremos la descompresiï¿½n paso por paso. El primero se ilustra en la figura 6.

La primera palabra que se lee es '021'. El '0' sirve de puntero en el buffer, y lo llamaremos "p''. Se debe leer el carï¿½cter que estï¿½ en la posiciï¿½n p+1, luego se lee el de la posiciï¿½n 1. Como inicialmente el buffer estaba puesto a 0, no sorprende que lo que encontremos en la posiciï¿½n 1 sea un '0'. Tal y como estï¿½ el buffer, se desplazan todos sus elementos una posiciï¿½n hacia la izquierda, y en el hueco que queda a la derecha se introduce el carï¿½cter leï¿½do con anterioridad en esa posiciï¿½n 1. El segundo carï¿½cter de la palabra cï¿½digo es un '2'. Ello indica que la operaciï¿½n anterior de leer y desplazar se debe hacer dos veces, por lo que la repetimos: nuevamente se lee la posiciï¿½n 1. Aunque la posiciï¿½n es la misma, el dato leï¿½do no tiene por quï¿½ serlo, ya que el buffer se desplazï¿½ hacia la izquierda. En este caso volvemos a tener un '0', y el buffer tiene el mismo aspecto que antes. Al segundo elemento de las palabras cï¿½digo lo llamaremos a partir de ahora "n''. Puesto que ya hemos hecho dos veces la operaciï¿½n, tantas como indicaba el n de la palabra cï¿½digo que estamos decodificando, ahora se desplaza una vez mï¿½s a la izquierda, y en el hueco que ha aparecido se introduce el tercer carï¿½cter de la palabra cï¿½digo (a partir de ahora "c''), sin modificar: el '1'.

Al final de todas las figuras se resalta en negrita la parte del buffer que corresponde a la descodificaciï¿½n de la palabra cï¿½digo. Evidentemente, este tramo se encuentra siempre al final del buffer, y su longitud es bien simple de calcular: n+1.

La siguiente palabra a decodificar es 732. Como antes, y esta vez por 3 veces, se guarda el carï¿½cter de la posiciï¿½n 7+1 y se coloca a la derecha del buffer tras desplazarlo. El ï¿½ltimo carï¿½cter que se introduce por la derecha nos viene dado en la palabra cï¿½digo: ahora es un '2' (figura 7).

El proceso con las dos palabras cï¿½digo restantes es exactamente igual, y no requieren mayor explicaciï¿½n. No obstante, se ofrecen las figuras correspondientes para que el lector interesado pueda seguir el proceso hasta el final (figuras 8 y 9).

Extrayendo los tramos en negrita del final de cada paso, obtenemos 001, 0102, 10210212 y 021021200, que juntos vuelven a conformar la secuencia original S.