Menu

Wat is Content ETL?

ETL: Extraction, Transformation en Load

Wat is Content ETL?

Extraction, Transformation en Load, afgekort ETL, is een begrip uit de informatica en wordt traditioneel toegepast op gestructureerde data. Het benoemt de processen die gebruikt worden om gegevens uit verschillende gestructureerde databases te verenigen in een andere database, veelal een datawarehouse. Meer over ETL.

Het begrip Content ETL is recentelijk geïntroduceerd en wordt toegepast op ongestructureerde data, zoals aanwezig op filesystemen, ECM, WCM en DM-systemen. Content ETL benoemt de processen die worden ingezet om documenten/content eenvoudig tussen verschillende content systemen/repositories uit te wisselen. Het ETL (extraheren, transformeren en laden) proces is voor ongestructureerde data veel lastiger dan gestructureerde data. Dat heeft een aantal oorzaken.  

De uitdagingen van Content ETL

Om ongestructureerde data toch te harmoniseren is het noodzakelijk om de ongestructureerde data te valideren, vervolgens aan te vullen en waar nodig te corrigeren. Om dit te kunnen doen, wordt gebruikt gemaakt van informatie uit verschillende bronnen.

Zo wordt gekeken naar welke informatie impliciet beschikbaar is over documenten, zoals waar het document is opgeslagen; wordt kennis over de bedrijfsprocessen gebruikt; en kan de inhoud van het document zelf worden geanalyseerd.