Opentext
De LodelWiki.
Opentext est un webservice de conversion de fichiers développé par le Centre pour l'édition électronique ouverte (Cléo, Unité mixte de services du CNRS, de l'EHESS, de l'Université de Provence et de l'Université d'Avignon, soutenu par le Très grand équipement Adonis). Il permet de convertir des documents bureautiques dans des formats XML adaptés à l'édition électronique.
Afin d'assurer aux utilisateurs la fiabilité et la rapidité du service, Opentext se base sur un système d'architecture distribuée entre les serveurs des utilisateurs du service. Les serveurs reliés à Opentext envoient régulièrement des informations sur leur état, et le serveur le plus disponible sera mis à disposition de l’utilisateur envoyant des fichiers.
Ce service est disponible à l'adresse http://opentext.lodel.org . Le code est téléchargeable sur Sourcesup (voir le dépôt Subversion).
Sommaire |
Utiliser Opentext
Se connecter
Il est possible d'utiliser un compte de test pour essayer le service Opentext. Pour cela, il suffit d'utiliser les identifiants suivants lors de la connexion :
- nom d'utilisateur : guest
- mot de passe : guest
Convertir des fichiers
Via l'interface
Une fois connecté au service, il suffit de sélectionner le fichier à convertir. Il peut être aux formats rtf, doc ou encore docx.
Il est possible de le convertir vers les formats suivants :
- odt ;
- txt ;
- rtf ;
- doc ;
- pdf ;
- xhtml ;
- tei.
Des fichiers bureautiques sont disponibles en téléchargement, afin de tester le service.
Via des requêtes SOAP
Exemple de requête
Installer un serveur OTX
Quelques prérequis indispensables
- apache2
- MySQL xx
- PHP5
- le processeur xsl pour php5 : paquet debian php5-xsl
- avec les droits d'administration...
Pour éviter des déconvenues plus tard...
- mettre à jour la liste des dépôts (pour mémoire apt-get update)
- nous conseillons d'installer d'abord openoffice du dépôt, même en français... Cela permet d'avoir l'environnement nécessaire au niveau java, python, ... (apt-get install openoffice.org-headless)
- test : soffice -h en mode console (peut-être une erreur, prévisible celle-là, si le client X n'est pas installé).
Installation d'OpenOffice pour une utilisation en mode serveur
- la version française nous ayant causé quelques soucis, nous vous conseillons d'installer la version anglaise US
- pour avoir la dernière version d'OpenOffice, faites votre choix sur la page http://download.openoffice.org/other.html
- le plus facile : copier l'url correspondant à la version choisie et, en mode console, téléchargez dans un répertoire quelconque avec wget
- décompression
- positionnez-vous dans le répertoire OOO-blablab/DEBS et lancez l'installation : dpkg -i *.deb
- un petit coup d'oeil dans /opt/openoffice.org pour déterminer le path du program (il varie selon les distributions). Mais normalement, le path de soffice doit être définis dans les chemins par défaut.
- et finalement lancez le serveur par cette commande un peu complexe (un copié-collé vaut mieux) :
soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;" -nofirststartwizard -norestore &
- le serveur OpenOffice "écoute" maintenant sur port 8100, il ne reste plus qu'à lui "parler"...
Tester le serveur OpenOffice
Nous vous proposons d'utiliser un script python qui va communiquer avec le serveur soffice. JODConverter est un convertisseur de documents écrit en JAVA (http://www.artofsolving.com/opensource/jodconverter). PyODConverter fait presque la même chose, mais en plus simple et en ligne de commande : http://www.artofsolving.com/opensource/pyodconverter.
- télécharger le script python DocumentConverter.py sur la page de PyODConverter
- lancer des tests de conversion, par exemple (avec les bons chemins) :
/opt/openoffice.org3/program/python DocumentConverter.py monfichier.odt monfichier.pdf
En langage simple, DocumentConverter communique avec soffice et soffice fait la conversion.
Installation du serveur OTX
- décompressez les sources dans un répertoire à la racine du site web
- le répertoire otx/CACHE doit être accessible en écriture à l'utilisateur Apache, plus précisément 775 pour CACHE et 777 pour CACHE/tmp
- adaptez le script de configuration otx/webservoo/servoo2.inc.php à votre configuration locale
- l'url du serveur web
- le répertoire temporaire sur le serveur (en général, /tmp)
- le chemin absolu des fichiers de log (par exemple : /var/www/CACHE/tmp/otx.log)
- les chemins absolus des variables liées à servel
- le chemin absolu du program python lié à soffice (par exemple : /opt/openoffice.org3/program/python)
- le chemin absolu duf ichier de debug (par exemple : /var/www/CACHE/tmp/otx.debug.xml)
- la durée de vie dans le cache
- si tout est bien configuré, l'url http://votre.serveur.web/otx/ affiche un fichier xml : welcome