Leer el contenido de un archivo(*.doc, *.pdf, ...)

cati
07 de Junio del 2005
Hola a todos! Me gustaría hacer un programa que me buscase palabras clave dentro de mis archivos de texto, pero algunos están en formato .pdf o .doc y abriéndolos con un File() no se lee el contenido.
Hay alguna forma de recuperar el contenido desde un programa Java???
Muchas Gracias.

Tigre Negro
07 de Junio del 2005
Estoy en las mismas, para que puedas buscar dentro de un archivo *.doc necesitas la libreria HWPF. Para pdf hay una libreria iText pero no se si logre leer archivos si los puedes crear pero de lo poco que he leido no puedes obtener el texto de estos archivos por la estructura de documentos PDF.

http://jakarta.apache.org/poi/trans/es/index.html
Aqui puedes ver el API HWPF

www.lowagie.com/iText
y en esta el API iText

Si encuentras un API que pueda leer PDF me avisas porfas.

Saludos

Eric
07 de Junio del 2005
Existe PDFBox que permite leer los PDFs. Es bastante sencillo.

www.pdfbox.org