[greenstone-users] creating an index from PDF file properties

From Pier Luigi ROSSI
DateWed Mar 16 14:04:35 2011
Subject [greenstone-users] creating an index from PDF file properties
In-Reply-To (20110315080415-3091D2263B23-fx402-security-mail-net)
Bonjour,

if you can read french ....

and you have pdf files made with version =< Acrobat 8


Param□trage du □ plugiciel □ (□ plugin □) d'importation des fichiers PDF

Pour importer les documents PDF dans une collection, Greenstone utilise
une application externe qui permet d'extraire le contenu des fichiers
PDF (les objets texte, les m□tadonn□es, les images).

Le param□trage de cette application se fait dans l'onglet □ Param□trer □
qui contient le menu □ Plugiciels de document □. Dans ce menu, on choisi
□ PDFPlugin □ dans la partie de la fen□tre □ Plugiciels attribu□s □.

Pour le configurer, on peut soir faire un double cliq, soit juste le
s□lectionner avec un cliq puis le configurer en validant le choix avec
le bouton □ Configurer plugiciel □.

Zone de Texte:


Il est □ noter que le fait d'avoir commenc□ □ b□tir cette collection □
partir de la structure de □ Nouvelle collection □, induit une mise en
ouvre de plusieurs plugiciels (ZIPPlug, WordPlug, ....) qui ne sont pas
n□cessaires pour r□aliser cette collection de fichiers PDF. Toutefois
leur pr□sence ne compromet pas la construction de la collection.

La fen□tre de configuration des arguments pour PDFPlugin comporte
plusieurs champs et cases □ cocher. Pour la r□alisation de la collection
de fichiers PDF, les principaux arguments □ d□finir sont :

a)□ Metadata fields □ : il faut cocher la case □ metadata_fields □ pour
extraire les valeurs des champs de m□tadonn□es des fichiers PDF et
indiquer dans la zone de saisie les noms de ces champs :
Title,Author,Subject,Keywords. Il s'agit des champs standard de
m□tadonn□es des fichiers PDF que l'on □crit en anglais avec une
majuscule et la virgule comme s□parateur.

b)□ Noimages □ : il faut cocher, □ priori, la case □ noimages □. En
effet, un fichier PDF peut contenir un nombre tr□s important d'images :
pour un fichier scann□, chaque page comporte au moins une image. Le fait
d'extraire toutes les images engendrait une collection tr□s volumineuse
sans aucune utilisation des images extraites : en effet, □ priori,
l'utilisateur visualisera le fichier PDF dans son format d'origine avec
un visualisateur de ce format (Reader ou toute autre application
permettant de visualiser un fichier PDF).

c)□ Keep_original_filename □ : il faut cocher la case
□ keep_original_filename □. Avec ce choix l'url des fichiers se
terminera avec le nom d'origine du fichier PDF. Dans le cas contraire
Greenstone attribue □ tous les fichiers le m□me nom (□ doc.pdf □) et les
diff□rencie par le nom du dossier de stockage g□n□r□ en interne.
Lorsqu'on souhaite conna□tre le taux de consultation des fichiers par
l'analyse des □ fichiers de log □ du serveur, il faut donc pouvoir
identifier les fichiers par leur nom d'origine.


Le 15/03/2011 09:03, Luz M Quiroga a □crit :
> Aloha
>
> I would like to create the index extracting, for example, keywords
> from the PDF properties; I am using 2.83; I understand that this
> feature was going to be part of new releases; any tip will be appreciated
>
> Lu Marina Quiroga
>
> *-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*
>
> "El exceso de informacion ya es obra de deformacion": Facundo Cabral
> "Cuando yo tenia listas las respuestas, me cambiaron las preguntas."
> Graffitti en Quito citado por Benedetti (1992)
> *-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*
>
> Luz M. Quiroga Information & Computer Sciences
> Assistant Professor Library and Information Science
> mailto: lquiroga@hawaii.edu University of Hawai'i at Manoa
> POST 305E (808) 956-9988 1680 East West Road,
> HL 002J (808) 956-5838 Honolulu, HI 96822
> Cell: (808) 389-2489
> Fax: (808) 956-3548
> http://www2.hawaii.edu/~lquiroga/
> *-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*
>
>
>
>
>
>
> _______________________________________________
> greenstone-users mailing list
> greenstone-users@list.scms.waikato.ac.nz
> https://list.scms.waikato.ac.nz/mailman/listinfo/greenstone-users


--
Pier Luigi ROSSI
IRD
32, avenue Henri Varagnat
93140 Bondy
France

Tel : 33 (0)1 48 02 56 96
Fax : 33 (0)1 48 47 30 88

-------------- next part --------------
Skipped content of type multipart/related