Extraer Metadatos y Contenido de Texto desde Archivos utilizando Apache Tika
El kit de herramientas Apache Tika detecta y extrae metadatos y contenido de texto desde varios documentos – desde PPT, CSV hasta PDF – utilizando librerías existentes de interpretación. Tika unifica estos interpretes bajo una misma interfaz para permitir fácilmente interpretar más de mil diferentes tipos de archivos. Tika es útil para la indexación de motores de búsqueda, análisis de contenido, traducción, y mucho más.