IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Intégration massive de documents dans un ECM/GED suivant un plan de classement avec L'ETL Talend


précédentsommairesuivant

III. ETL Talend : Composant tAlfrescoOutput

III-A. Rappels sur ETL Talend

III-A-1. Définition de ETL

L'ETL (Extract Transform Load) est une technologie de l'informatique décisionnelle permettant d'effectuer des synchronisations massives de données entre diverses sources et entrepôts. Un processus ETL s'organise autour de trois grandes étapes qui ont pour but de transférer les données des bases de données et des applications de production vers des systèmes décisionnels ou pour alimenter les bases d'autres applications. Plusieurs solutions ETL open source existent sur le marché : Pentaho, JasperETL Talend etc. Dans notre cas, nous voulons interfacer une solution ETL avec la plateforme Alfresco. Pour les raisons que nous allons présenter dans la section suivante, nous avons choisi la solution Talend Open Studio.

III-A-2. ETL Talend

Talend à travers ses solutions Talend Open Studio (TOS), Talend Open Profiler (TOP) et Talend Integration Suite (TIS) est devenu l'un des acteurs majeurs en matière d'intégration des données. Distribué sous licence GPL, TOS est un véritable IDE permettant de modéliser graphiquement, exécuter, analyser et planifier des processus fonctionnels.

Bâti sur le modèle Eclipse/perspective, il fournit une palette munie d'une large variété de composants adressant les modes ETL et ELT. Le mode ELT (Extract Load Transform) permettant d'exploiter au mieux les fonctionnalités et mécanismes propres au SGBD afin de réaliser des opérations de transformation sur les données en base de données. En outre, la solution Talend est très facile et rapide à mettre en œuvre. Opérant en générateur de code, les utilisateurs peuvent selon leur convenance choisir de générer un projet Java/Perl. Talend fournit également des mécanismes permettant d'évaluer le temps d'exécution d'un job, et donc de l'optimiser.

Malgré une quasi-inexistence des moyens de collaboration, Talend est une solution assez ouverte dans la mesure où, en même temps qu'elle définit une démarche de développement de nouveaux composants, elle fournit en natif un large éventail de composants facilitant l'interconnexion avec des solutions métier à l'instar de SAP, SugarCRM, SalesForce, Microsoft AX, CentricCRM et Alfresco à travers le composant tAlfrsecoOutput qui sera d'une importance capitale dans la réalisation de ce projet.

III-B. Le composant tAlfrescoOutput

Le composant tAlfrescoOutput est un connecteur Talend pour Alfresco. Il permet de mapper des informations externes (documents, dossiers, groupes d'utilisateurs et utilisateurs, etc.) à des modèles de contenus Alfresco. À travers la connexion qu'elle crée avec le serveur Alfresco, il permet d'intégrer ces informations directement dans le repository.

Ne se limitant pas uniquement à l'import de documents et dossiers, il permet d'intégrer n'importe quel type de contenu Alfresco comme les types personnels, les aspects, toutes propriétés et associations, toute arborescence de documents. Il permet également d'importer une politique de gestion des permissions sur les contenus. La connexion avec Alfresco se fait par des interactions simples suivant le style architectural REST (Representational State Transfer) http. Le composant se connecte au serveur avant d'intégrer les données.

Sponsorisé par Habitat 76Habitat 76, le composant a été conçu et développé par Marc Dutoo d'Open Wide SAOpen Wide SA, les exemples et tests ont été faits par Nicolas Feray et Jérôme Bourgeois, Habitat 76Habitat 76. Support et management : Cedric et Olivier Carbone de TalendTalend. Nous les remercions pour cet excellent travail.

Le composant possède des librairies côté serveur et client. Côté serveur, il s'agit d'une extension Alfresco qui est sous licence GPL. La librairie cliente est sous licence LGPL. Pour plus d'information reportez-vous iciAlfrescoETLConnector.


précédentsommairesuivant