Waarom het beoordelen van de access date toegevoegde waarde biedt
door Werner Taube, op 14-jul-2020 9:15:00
Hoewel je misschien denkt dat je bekend bent met de access date van je data, wordt het toch vaak verward met de modified date. De access- en modified datum en tijd hangen namelijk wel nauw met elkaar samen, maar zijn niet hetzelfde. Standaard geven de meeste bestands-verkenners de access datum en tijd niet weer of hebben de functie uitgeschakeld. Sommige file systemen ondersteunen de access date niet.
Wat is de access date?
Maar wat is dan de access date? Na het onderzoeken van verschillende bestandssystemen kan ik met overtuiging stellen wat de intentie van de access date is. Het zou de datum en tijd moeten weergeven wanneer een bestand of container (een folder/ map in de meeste gevallen, document managementsystemen gebruiken andere terminologie) is geraadpleegd. Sta even stil bij wat dit precies betekent: als “een bestand wordt geopend met een programma” is het “geraadpleegd”. Wanneer er gekeken wordt naar informatie over een bestand zoals de bestandsnaam of -grootte, dan wordt de content niet bekeken en daarom niet geopend. De verwarring met de modified date is begrijpelijk: een bestand wordt meestal geopend om te bekijken, aan te passen en op te slaan.
Maar waarom is het dan toch interessant? Op je thuissysteem is dat waarschijnlijk niet het geval. Op gedeelde locaties waar je samenwerkt, wel. Het toont aan of een locatie of document nog steeds wordt bezocht en dus relevant is.
Twee voorbeelden:
- Een map die 10 jaar geleden is gemaakt, 8 jaar geleden is gewijzigd en 8 jaar geleden voor het laatst is geopend, zal de komende tijd waarschijnlijk niet worden bezocht en zou moeten worden gearchiveerd.
- Een document over richtlijnen dat tien jaar geleden is opgesteld, vijf jaar later is gewijzigd en vorige week is geraadpleegd, laat zien dat het nog steeds wordt bekeken en zou als actief moeten worden beschouwd.
Het is misschien niet zo interessant om naar één locatie of één document te kijken, maar de collectieve informatie van een geheel file systeem kan veel vertellen. Dat is een van de dingen die we bij Xillio doen.
Document managementsystemen
Ik schreef opzettelijk “…de intentie…”. De reden hiervoor is dat er variabele afhankelijkheden zijn over wanneer het wordt bijgewerkt of toegepast. Document managementsystemen zullen de implementatie van de access date binnen het eigen systeem vastleggen. De onderliggende create/ modified/ access date en tijd op de daadwerkelijke bestandsopslag zijn niet zichtbaar voor de gebruiker en kunnen worden genegeerd. Maar eerlijk gezegd: hoeveel van jullie gebruiken nog een gedeelde drive met collega’s? Een afdelings- of openbare drive om gemakkelijk documenten te delen en samen te werken. Op een share wordt het heel anders geïmplementeerd, als al.
Voeg hieraan toe de volgende variabele afhankelijkheden wanneer de access date wordt toegepast:
- Het besturingssysteem dat de file share aanbiedt
- De formattering van het file systeem
- Het besturingssysteem waarmee de file share is verbonden
- Met wat/ hoe toegang wordt verkregen
- In enkele gevallen: een vlag in het register
- Wachtrij tijd
Het laatste zal je misschien verrassen. Het lijkt erop dat de "access date update" in de wachtrij staat en een lagere prioriteit heeft dan sommige van de andere taken die het besturingssysteem uitvoert. Deze ‘vertraging’ varieert enorm, tijdens mijn testen duurde het soms bijna 8 uur voordat de access date werd bijgewerkt, waardoor mijn eerste testwaarnemingen ongeldig werden. Dit kan zelfs handmatig worden gestart.
En nu?
Ik weet dat je je afvraagt wat nu dan de toegevoegde waarde is. Het analyseren van content is een complex mechanisme wanneer je informatie levert om een drempel vast te stellen, de verwachting is dat het exact en berekend is. Waarde kan worden gevonden in de nauwkeurige beknoptheid van hoe het raadplegen zich gedraagt en wat het precies betekent in de situatie wanneer er een beslissing dient te worden gemaakt. Je weet nu dat er meer achter zit.
Helaas gebeurt het per ongeluk beïnvloeden van de access date nog wel eens . Denk aan je zoek indexering, maar ook bij het uitvoeren van statistiek op documenten wordt de access date vaak per ongeluk gewijzigd. Ik heb onderzocht wanneer dit wordt gewijzigd op verschillende types bestandssystemen. Het meest voorkomende scenario: NTFS-geformatteerd bestandssysteem dat toegankelijk is via een NetBIOS drive-letter gemapped naar een Windows-client, maar ook op ext4 en HFS/AFPS.
Afhankelijkheid
Een van de bevindingen was een afhankelijkheid van het gebruikte programma. Het bekijken van een bestand in Kladblok had bijvoorbeeld geen invloed op de access date. Het openen van het document in MSOffice wel. Ik heb verschillende (Perl & Python) scripts uitgevoerd, die allebei het bestand hebben geraadpleegd, waardoor de access date onbetrouwbaar werd.
Klaarblijkelijk zijn om alle metadata van een bestand te kunnen raadplegen zonder het aan te raken, niet alleen professionele analyse- en migratiehulpmiddelen nodig, maar ook mensen die écht begrijpen hoe het werkt. Het moet goed worden onderzocht, maar ik kan me voorstellen dat je dit vervelende, vermoeiende en saaie werk liever niet aangaat. Bel ons dan, Xillio. Wij zijn de migratiedeskundige die inzicht geeft in je content.