domingo, 2 de mayo de 2010

MSS 2010: Indexación en ficheros pdf

A pesar de que SharePoint 2010 incorpora múltiples mejoras en el sistema de búsquedas (veremos este tema detallado en un próximo post), nuestros amigos ifilters siguen funcionando exactamente igual que en la versión 2007. SharePoint 2010 no indexa out-of-the-box ficheros .pdf y seguimos necesitando bajar el ifilter correspondiente para poder indexar correctamente este tipo de ficheros.
A continuación os engancho la información que he encontrado de un test de indexación para 3 productos diferentes, donde se prueban 3 de los ifilters de pdf más reconocidos del mercado. Como vereis, Foxit sigue siendo el más rápido de todos, con una gran diferencia, aunque hay que tener en cuenta que es de pago (como no) es una comparativa importante para grandes empresas que requieran de grandes volúmenes de ficheros en pdf y quieran agilizar los tiempos de indexación de los mismos.

Además, parece ser que la diferencia se acentúa cuantos más cores (núcleos) tiene el servidor, ya que el ifilter de adobe tan solo utiliza un único core, y tanto Foxit como TET hacen uso de los múltiples cores que tenga nuestro servidor indexador en SharePoint 2010.

Los productos testeados son los siguientes:
  1. Foxit PDF iFilter 2.0 x64
  2. TET PDF iFIlter 3.0 x64
  3. Adobe PDF iFilter 9.0 x64 
Fabricante
Tiempo  indexación(h:m:s)Tiempo indexación(s)Ficheros por seg.Exito (incluye avisos)Error
Foxit0:13:0078029.02226370
TET1:17:4446645.07226370
Adobe8:29:43305830.74226370

Os recomiendo visitar el artículo completo de la comparativa en el siguiente enlace.

En cuanto al procedimiento para conseguir realizar búsquedas exitosas dentro de los ficheros pdf de nuestro sharepoint 2010, el que me ha funcionado es el siguiente (utilizando el ifilter de Foxit 2.0 64x):

  1. Descargar la última versión de Acrobat Reader (enlace aquí) e instalarlo en nuestro servidor. 
  2. Descargar e instalar el ifilter del pdf seleccionado (por ejemplo el de Foxit 2.0 64x o el oficial de adobe)
  3. Añadir el tipo de fichero pdf al servicio de búsqueda desde la Administración Central--> Administración de Aplicaciones--> Aplicaciones de servicio--> Administrar aplicaciones de servicio -->Aplicación de servicio de búsqueda-->Tipos de Archivo-->Nuevo tipo de archivo.


  4. Descargar un icono de pdf en tamaño 16x16 (por ejemplo, de este enlace)
  5. Guardar la imagen con un nombre específico (por ejemplo "pdf.png") en la siguiente la siguiente ruta C:\Program Files\Common Files\Microsoft Shared\Web Server Extensions\14\TEMPLATE\IMAGES
  6. Editar el fichero DOCICON.XML en C:\Program Files\Common Files\Microsoft Shared\Web Server Extensions\14\TEMPLATE\XML
  7. Añadir la línea <Mapping Key="pdf" Value="pdf.png"/> dentro de la sección ByExtension
  8. Guardar los cambios realizados en DOCICON.XML
  9. abrir una línea de comandos con permisos de administración y ejecutar un "iisreset"
  10. reiniciar el servicio de búsqueda introduciendo las siguientes líneas en la misma línea de comandos que el paso anterior: "net stop osearch14" y posteriormente "net start osearch14"
  11. Realizar una indexación completa de nuestros orígnes de contenido.
Con este procedimento deberíamos tener ya indexados todos nuestros ficheros pdf. y lo podemos comprobar realizando una búsqueda de una palabra que sepamos esté contenido en un fichero pdf.


Ahora que ya tenemos el ifilter de pdf correctamente instalado en nuestro servidor de sharepoint 2010, podemos proceder a relataros muchos más aspectos relativos a las búsquedas en la nueva plataforma. Eso será en los próximos posts que tengo en mente redactar.

¡Estad atentos al blog! Saludos a tod@s.

3 comentarios:

Anónimo dijo...

urgente urgente, donde veo el tiempo de caducidad de mi moss beta 2010!!!!!!! necesito saber cuanto le queda y como hacer para no perder lo que tengo en el, ayuda!!!!!!!!!!!!!!

Atte.

JAneth

FALAS dijo...

Muy bueno este blog, pero tengo una pregunta que no me la resuelve Google. ¿Como se puede llamar al webservice de busqueda del moss? es que tengo que aprovechar el servicio de busqueda del moss pero desde otro dispositivo via webservice y no se como llamarlo. Gracias

Ignasi Tebé Tena dijo...

Hola Falas, el servicio web de búsqueda de SharePoint 2007 es el search.asmx y puedes encontrar la documentación oficial de cómo usarlo en la página de Microsoft:

http://msdn.microsoft.com/es-es/library/ms543175(office.12).aspx

También te adjunto una URL donde explica cómo usarlo programáticamente.

http://msdn.microsoft.com/en-us/library/bb625950(office.12).aspx

Si después de empaparte de la teoría sigues teniendo problemas, avísame e intentaré echarte un cable.

Eso sí, en este blog no puedo atender urgencias, bastante tengo con mi trabajo y mi família (eso lo digo por Anómimo más arriba). Hago lo que puedo, cuando puedo.

Saludos!