IntroducciÃ³n a la compresiÃ³n de datos: Lempel-Ziv, Gzip

A pesar de tan rimbonbante epiteto, el hecho de que estos cï¿½digos sean "ï¿½ptimos" no quiere decir necesariamente que sean de utilidad en todos los casos. Todo depende de cuï¿½l sea el caso concreto en el que pensamos utilizarlos. En el contexto de un sistema operativo, lo que se busca habitualmente es comprimir ficheros o salidas de otros programas que se quieren guardar haciendo uso del menor espacio de almacenamiento posible. Pero no es lo mismo comprimir un fichero de texto que guarda el capï¿½tulo de una novela, que otro que guarda el cï¿½digo fuente de un programa (que, en general, tiene mï¿½s redundancia) o un tercero que, en oposiciï¿½n a los archivos de texto, podemos llamar "binario". Incluso entre los archivos "binarios", unos permiten mucha mayor compresiï¿½n que otros.

Luego en esta necesidad concreta estamos buscando un cï¿½digo que se adapte bien a muchos tipos de fuentes, no conocidas -ni mucho menos, caracterizadas- a priori. Y es aquï¿½ donde la codificaciï¿½n Huffman, a pesar de ser "ï¿½ptima", como todas las que se basan en asignar palabras cï¿½digo cortas a las secuencias mï¿½s probables, sufre de graves inconvenientes:

En primer lugar, en los casos que nos ocupan, la ï¿½nica forma de conocer quï¿½ secuencias son mï¿½s probables es examinar de principio a fin aquello que se quiere comprimir. Eso obliga a dar dos pasadas por los datos: una para encontrar las secuencias que mï¿½s se repiten (y con ellas elaborar el cï¿½digo), mï¿½s una segunda para codificar la fuente con el cï¿½digo asï¿½ establecido. Este inconveniente es, a su vez, causa de:
- Pï¿½rdida de velocidad en la compresiï¿½n. Lo ideal serï¿½a poder ir comprimiendo segï¿½n van llegando los datos para que empecemos a tener resultados de forma inmediata.
- Imposibilidad de utilizar el compresor como un filtro. La necesidad de dar dos pasadas por los datos se puede satisfacer cuando se estï¿½ actuando sobre ficheros, en los que se puede aplicar la operaciï¿½n lseek para moverse a la posiciï¿½n deseada del mismo. Pero es muy comï¿½n querer comprimir los datos que se obtienen a travï¿½s de una tuberï¿½a, como en:
```
cat connexiones.log | grep sitio_malo | gzip > sitio_malo.gz
```
  donde la operaciï¿½n lseek no tiene sentido. Aunque ejemplificado desde el punto de vista del compresor, estï¿½ claro que esta limitaciï¿½n afecta, igualmente, al descompresor.
Con la asignaciï¿½n de palabras cï¿½digo a secuencias hay que hacerse en estos casos de codificaciï¿½n de fuentes genï¿½ricas la pregunta de cuï¿½ndo parar. Se pueden establecer y almacenar frecuencias de bytes, y se tendrï¿½ una tabla de 256 entradas, desde los mï¿½s frecuentes a los mï¿½s raros. Pero eso no basta: si estamos comprimiendo un texto, dependiendo del idioma en que estï¿½ escrito, encontramos que es mï¿½s comï¿½n que unas letras vayan acompaï¿½adas de otras. En espaï¿½ol, por ejemplo, es muy raro encontrar las secuencias "ts", "aa" o "bq". En otros idiomas, o en ficheros binarios, pueden darse mï¿½s unas agrupaciones y menos otras. Si estas agrupaciones se tienen en cuenta en el cï¿½digo, se obtendrï¿½ un mayor ratio de compresiï¿½n, pero nos encontramos con una tabla de 256x256 = 65536 entradas. En el ejemplo que presentaremos posteriormente, la codificaciï¿½n Lempel Ziv es capaz de reconocer una secuencia redundante de 8 caracteres y codificarla apropiadamente. Si pretendiï¿½ramos que los cï¿½digos Huffman fueran capaces de hacer esto, habrï¿½a sido necesario construir una tabla que computara las frecuencias de secuencias de 8 caracteres. Esa tabla por sï¿½ sola, sin tener en cuenta las que almacenarï¿½an frecuencias de agrupaciones mï¿½s pequeï¿½as de caracteres, tendrï¿½a 18.446.744.073.709.551.616 entradas.
Suponiendo que fueran aceptables la pï¿½rdida en velocidad, los problemas con las tuberï¿½as y los derivados del tamaï¿½o de las tablas, aï¿½n queda otro inconveniente por afrontar: dado que podemos encontrarnos con fuentes de lo mï¿½s variopintas y que por ello no es posible tener a priori cï¿½digos adaptados a cada una de ellas, conocidos en los dos extremos de la comunicaciï¿½n o en compresor y descompresor, no sï¿½lo es necesario guardar o transmitir la secuencia codificada, sino tambiï¿½n el propio cï¿½digo necesario para descodificarla. Dependiendo de lo voluminoso que sea este (y por lo visto en el punto anterior, puede llegar a ser muy voluminosos), podrï¿½a darse el caso de que juntando ï¿½mbos sumandos, datos mï¿½s cï¿½digo ocupen mï¿½s que los datos originales sin comprimir.

Con este modelo de compresiï¿½n sï¿½lo se pueden ofrecer soluciones parciales y poco eficientes a esta serie de problemas. Para el caso de los filtros no quedarï¿½a mï¿½s remedio que guardar lo que le llega al compresor/descompresor por su entrada estandard en un fichero intermedio, y despuï¿½s comprimir ese fichero, lo cual, dependiendo de lo cuantiosa que sea la salida del filtro, podrï¿½a implicar la imposibilidad de llevar a cabo la operaciï¿½n si en el disco duro no cupieran, simultaneamente, el fichero temporal sin comprimir mï¿½s la salida del gzip, ya comprimida. Por la misma razï¿½n de espacio, la soluciï¿½n de guardar TODOS los datos en memoria durante la primera pasada y volver sobre ellos en la segunda soluciona el problema de las tuberï¿½as pero es de dudosa utilidad, a menos que se cuente con memoria infinita.

Para evitar tener que guardar o transmitir datos comprimidos y cï¿½digo necesario para descomprimirlos, se podrï¿½a tratar de hacer un estudio de muchas fuentes y en funciï¿½n de ï¿½l sacar un ï¿½nico cï¿½digo que se aplicara a todas las fuentes. Evidentemente, eso serï¿½a poco eficiente. Por ser fruto del cï¿½lculo de una "media", probablemente no serï¿½a ï¿½ptimo para ninguna fuente. Pero, al fin y al cabo, esta es la soluciï¿½n adoptada, por ejemplo, en el cï¿½digo Morse, que este aï¿½o desaparece del mundo de la navegaciï¿½n tras mï¿½s de cien salvando vidas. En ï¿½l, la asignaciï¿½n de puntos y rayas a las letras no es aleatoria: el punto se hace corresponder con la letra ``e'', la mï¿½s frecuente en el idioma inglï¿½s. E igualmente con el resto de las letras: todas ellas codificadas en funciï¿½n de su frecuencia en el susodicho idioma. Mientras nos mantengamos en ï¿½l, es razonablemente eficiente, pero en cuanto la transmisiï¿½n se lleve a cabo en otro idioma, es probable que las letras mï¿½s usadas sean tambiï¿½n las que tienen un cï¿½digo de puntos y rayas mï¿½s largo.

La pï¿½rdida de velocidad no tiene soluciï¿½n, ni siquiera una no ï¿½ptima, si no se quiere usar un cï¿½digo genï¿½rico. Las dos pasadas hay que darlas, y hasta que no se haya llevado a cabo la primera, no es posible empezar a comprimir en la segunda.

En resumen, hace falta algï¿½n algoritmo o tipo de codificaciï¿½n que sea capaz de adaptarse a su fuente, que a partir de ella genere el cï¿½digo mï¿½s acertado posible y lo transmita junto con la fuente sin llegar a hacer inï¿½til la compresiï¿½n por el overhead que implica enviar el cï¿½digo junto con los datos, y que ademï¿½s empiece a hacer todo esto desde el primer momento en el que le van llegando los datos al compresor o descompresor, sin tener que llegar a conocer todo el mensaje.

Parece complicado, porque ademï¿½s implica un cierto (y atractivo) sentido de inteligencia por parte del codificador, que va aprendiendo de su fuente y localizando secuencias que tienen mï¿½s redundancia.

A continuaciï¿½n presentaremos un algoritmo que cumple con esas restrictivas condiciones. Evidentemente lo hace al precio de alejarse algo mï¿½s del lï¿½mite impuesto por la entropï¿½a. En ese sentido, los cï¿½digos Huffman comprimirï¿½an mejor, pero esto demuestra que un algoritmo que sea mï¿½s eficiente en un sentido puede resultar poco prï¿½ctico en conjunto.