[greenstone-users] creating an index from PDF file properties

From Luz M Quiroga
DateWed Mar 16 05:30:52 2011
Subject [greenstone-users] creating an index from PDF file properties
In-Reply-To (20110315141735-7E05A226376C-fx402-security-mail-net)
Bonjour
unfortunately that is all my French :(((

If somebody could provide a link to the documentation or tutorial where this is written in English it will be great

Thanks in advance

Luz
----- Original Message -----
From: Pier Luigi ROSSI <rossi@ird.fr>
Date: Tuesday, March 15, 2011 4:17 am
Subject: Re: [greenstone-users] creating an index from PDF file properties
To: Luz M Quiroga <lquiroga@hawaii.edu>
Cc: greenstone-users@list.scms.waikato.ac.nz

> Bonjour,
>
> if you can read french ....
>
> and you have pdf files made with version =< Acrobat 8
>
>
> Param□trage du □ plugiciel □ (□ plugin □)
> d'importation des fichiers PDF
>
> Pour importer les documents PDF dans une collection, Greenstone
> utilise
> une application externe qui permet d'extraire le contenu des
> fichiers
> PDF (les objets texte, les m□tadonn□es, les images).
>
> Le param□trage de cette application se fait dans l'onglet □
> Param□trer □
> qui contient le menu □ Plugiciels de document □. Dans ce menu,
> on choisi
> □ PDFPlugin □ dans la partie de la fen□tre □ Plugiciels
> attribu□s □.
>
> Pour le configurer, on peut soir faire un double cliq, soit
> juste le
> s□lectionner avec un cliq puis le configurer en validant le
> choix avec
> le bouton □ Configurer plugiciel □.
>
>
>
> Zone de Texte:
>
>
> Il est □ noter que le fait d'avoir commenc□ □ b□tir cette
> collection □
> partir de la structure de □ Nouvelle collection □, induit une
> mise en
> ouvre de plusieurs plugiciels (ZIPPlug, WordPlug, ....) qui ne
> sont pas
> n□cessaires pour r□aliser cette collection de fichiers PDF.
> Toutefois
> leur pr□sence ne compromet pas la construction de la collection.
>
> La fen□tre de configuration des arguments pour PDFPlugin
> comporte
> plusieurs champs et cases □ cocher. Pour la r□alisation de la
> collection
> de fichiers PDF, les principaux arguments □ d□finir sont :
>
> a)□ Metadata fields □ : il faut cocher la case □ metadata_fields
> □ pour
> extraire les valeurs des champs de m□tadonn□es des fichiers PDF
> et
> indiquer dans la zone de saisie les noms de ces champs :
> Title,Author,Subject,Keywords. Il s'agit des champs standard de
> m□tadonn□es des fichiers PDF que l'on □crit en anglais avec une
> majuscule et la virgule comme s□parateur.
>
> b)□ Noimages □ : il faut cocher, □ priori, la case □ noimages □.
> En
> effet, un fichier PDF peut contenir un nombre tr□s important
> d'images :
> pour un fichier scann□, chaque page comporte au moins une image.
> Le fait
> d'extraire toutes les images engendrait une collection tr□s
> volumineuse
> sans aucune utilisation des images extraites : en effet, □
> priori,
> l'utilisateur visualisera le fichier PDF dans son format
> d'origine avec
> un visualisateur de ce format (Reader ou toute autre application
> permettant de visualiser un fichier PDF).
>
> c)□ Keep_original_filename □ : il faut cocher la case
> □ keep_original_filename □. Avec ce choix l'url des fichiers se
> terminera avec le nom d'origine du fichier PDF. Dans le cas
> contraire
> Greenstone attribue □ tous les fichiers le m□me nom (□ doc.pdf
> □) et les
> diff□rencie par le nom du dossier de stockage g□n□r□ en interne.
> Lorsqu'on souhaite conna□tre le taux de consultation des
> fichiers par
> l'analyse des □ fichiers de log □ du serveur, il faut donc
> pouvoir
> identifier les fichiers par leur nom d'origine.
>
>
>
>
>
>
> Le 15/03/2011 09:03, Luz M Quiroga a □crit :
> > Aloha
> >
> > I would like to create the index extracting, for example,
> keywords
> > from the PDF properties; I am using 2.83; I understand that
> this
> > feature was going to be part of new releases; any tip will be
> appreciated>
> > Lu Marina Quiroga
> >
> > *-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-
> *-*-*-*-*-*-*-*-*
> >
> > "El exceso de informacion ya es obra de deformacion": Facundo Cabral
> > "Cuando yo tenia listas las respuestas, me cambiaron las preguntas."
> > Graffitti en Quito citado por Benedetti (1992)
> > *-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-
> *-*-*-*-*-*-*-*-*
> >
> > Luz M.
> Quiroga Information & Computer Sciences
> > Assistant
> Professor Library and Information Science
> > mailto:
> lquiroga@hawaii.edu University of Hawai'i at Manoa
> > POST 305E (808) 956-
> 9988 1680 East West Road,
> > HL 002J (808) 956-
> 5838 Honolulu, HI 96822
> > Cell: (808) 389-2489
> > Fax: (808) 956-3548
> > http://www2.hawaii.edu/~lquiroga/
> > *-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-
> *-*-*-*-*-*-*-*-*
> >
> >
> >
> >
> >
> >
> > _______________________________________________
> > greenstone-users mailing list
> > greenstone-users@list.scms.waikato.ac.nz
> > https://list.scms.waikato.ac.nz/mailman/listinfo/greenstone-users
>
>
> --
> Pier Luigi ROSSI
> IRD
> 32, avenue Henri Varagnat
> 93140 Bondy
> France
>
> Tel : 33 (0)1 48 02 56 96
> Fax : 33 (0)1 48 47 30 88
> null
-------------- next part --------------
An HTML attachment was scrubbed...
URL: https://list.scms.waikato.ac.nz/mailman/private/greenstone-users/attachments/20110315/0882c73b/attachment.html