Auteur: PACKED vzw

    Wat zijn bestandsformaten en codecs?

    Het bestandsformaat bepaalt op welke manier de informatie in een computerbestand gecodeerd is. Het bestandsformaat wordt vaak aangegeven door middel van een extensie in de bestandsnaam. Gebruik een open en goed gedocumenteerd bestandsformaat. Zo vermijd je afhankelijk te worden van specifieke software.

    Een codec is een stuk soft- of hardware dat toelaat data te coderen/decoderen of te comprimeren/decomprimeren.   

    Wat zijn criteria voor een goed bestandsformaat (en codec) in functie van digitale duurzaamheid? 

    • Kwaliteit

    Voor het behoud van alle data, geniet het gebruik van ongecomprimeerde bestandsformaten de voorkeur, om zo de kwaliteit van de data op lange termijn te kunnen behouden. Het gebruik van ongecomprimeerde formaten minimaliseert het risico op fouten en beschadigingen bij het comprimeren en decomprimeren van bestanden. 

    • Openheid 

    Bestandsformaten (en codecs) zonder gepatenteerde technologie of licenties hebben de voorkeur. Door het gebruik van open bestandsformaten verklein je het risico dat je afhankelijk wordt van bepaalde technologieën of leveranciers en dat de gebruikte technologie in onbruik raakt. 

    • Gebruik 

    Bestandsformaten (en codecs) die wijdverspreid zijn, vaak gebruikt worden en goed bekend zijn, genieten de voorkeur. Brede ondersteuning maakt de beschikbaarstelling eenvoudiger en de inhoud beter bereikbaar. 

    • Transparantie 

    Bestandsformaten (en codecs) die een veelgeprezen standaard zijn met een weinig complexe structuur en goede beschikbare technische specificaties, genieten de voorkeur. Als een bestandsformaat heel complex is opgebouwd, is het immers moeilijker en duurder om er applicaties voor te ontwikkelen. Als bovendien ook nog de nodige documentatie ontbreekt of moeijlijk beschikbaar is, verhoogt dat de drempel voor langetermijnbewaring. Problemen voor de langetermijnbewaring ontstaan ook als de documentatie veel opties open laat of onvolledig is. 

    • Duurzaamheid 

    Bestandsformaten (en codecs) waaraan geen grote of constante veranderingen gebeuren en die mogelijk ook backwards compatibel zijn met oudere versies, genieten de voorkeur.

    • Functionaliteit 

    Bestandsformaten die de mogelijkheid bieden om unieke identificatoren en andere metadata in het bestand in te bedden, genieten de voorkeur. Dit betekent dat de bestandsformaten vaste en specifiek toegewezen elementen bezitten voor de identificatie van de inhoud, uitgebreide technische metadata en preserveringsmetadata, en informatie over rechten. Bij audiovisuele bestanden zijn ook functionaliteiten als frame checksums en packaging belangrijk om een vlotte overdracht over een netwerk te verzekeren. 

    • Bruikbaarheid 

    Bestandsformaten (en codecs) waarvoor meer dan één type software voor visualisatie of weergave bestaat, genieten de voorkeur.

    Welke bestandsformaten gebruiken voor bewaring?

    Laat je bij je keuze voor een duurzaam bestandsformaat leiden door volgende overwegingen:

    • Welke info vind je belangrijk om te bewaren? (Lettertypes, kleuren, tekststructuur, hyperlinks, afbeeldingslagen...?)
    • Nauw daaraan verbonden, waarvoor wil je jouw bestanden in de toekomst gebruiken? (Publicatie op het web? Hergebruik in een nieuw project? Wettelijke bewaring? Als documentatie...?)
    • Wat zijn de kosten en baten? (Hoeveel kost de benodigde software? Hoeveel manuren vereisen de overzettingen van het oorspronkelijke formaat naar het nieuwe formaat...?)  
    • Hoe ingewikkeld is het om een oorspronkelijk formaat om te zetten naar een archiveringsformaat? Hoe ingewikkelder de conversie, hoe meer risico op fouten en informatieverlies.

    Tekstdocumenten

    Bestandsextensie

           Omschrijving

    .txt

    .txt (Text) is een bestandsformaat voor platte tekst.

    .xml

    .xml (Extensible Markup Language) is syntaxis van formele opmaaktalen waarmee men met behulp van tags en attributen gestructureerde gegevens kan weergeven in de vorm van platte tekst.

    .doc of . docx

    .doc (Document) is een bestandsformaat voor opgemaakte tekst en wordt meestal gebruikt door Microsoft Office Word. In het verleden werd de bestandsextensie gebruikt voor platte tekst. Het bestandsformaat werd opgevolgd door .docx.  De toegevoegde ‘x’ betekent dat de aangemaakte documenten standaard in XML-indeling worden opgeslagen (en geen macro’s bevat).

    .odt

    .odt (Open Document Text) is een open, op XML-gebaseerd bestandsformaat voor opgemaakte tekst.

     

    PDF, PDF/A

    PDF/A is geschikt als archiveringformaat. 

    Het is moeilijk om van dit bestandsformaat verdere afgeleiden te maken. Bewaar daarom, wanneer je later nog aanpassingen wil maken aan het bestand, ook nog een .docx naast de PDF-versie.

     

    Voor XML en txt wordt er best gebruik gemaakt van een UTF-8 codering

    Afbeeldingen

    Bestandsextensie

          Omschrijving

    .tiff of .tif

    .tiff of .tif (Tagged Image File Format) is het meest aanbevolen formaat omwille van zijn robuustheid en brede ondersteuning. Het TIFF- formaat is zo flexibel opgezet dat het mogelijkheid biedt extensies te schrijven boven op het basisbestand. Deze extensies kunnen echter problematisch zijn voor langetermijnarchivering omdat de ondersteuning van sommige extensies gering is. Er wordt daarom in geval van archivering geadviseerd gebruik te maken van het zogenaamde TIFF-basisbestand, zonder interne compressie: TIFF baseline 6.0 uncompressed. Een extra voordeel van het TIFF-formaat is dat het erg goed bestand lijkt tegen datacorruptie.

    .gif

    .gif (Graphics Interchange Format) is een beeldformaat dat beperkt is tot 256 kleuren (8 bits). Gebruik GIF enkel voor logo's, grafieken en animaties.

    .jpg of .jpeg

    .jpg of .jpeg is naast GIF het meest gebruikte formaat voor afbeeldingen op internet. Om de bestandsgrootte te reduceren maakt JPEG gebruik van lossy compressie (waarbij dus beeldinformatie verloren gaat). Gebruik JPEG enkel als er ook een (originele) analoge wordt bewaard en de digitale representatie louter gebruikt wordt voor raadpleging van de inhoud van de foto.

    .jp2

    .jp2 is een formaat met heel veel functionaliteiten voor online ontsluiting van grote complexe beeldbestanden, maar bijgevolg ook met een complexe structuur. JPEG2000 biedt mogelijkheden voor het gebruik van zowel lossless als lossy compressie. Gebruik JPEG2000 als je de omvang van het moederbestand wil beperken.Gebruik JPEG2000 met lossy compressie enkel als er ook een (originele) analoge wordt bewaard en de digitale representatie louter gebruikt wordt voor raadpleging van de inhoud van de foto.

    .png

    .png (Portable Network Graphics) is een open beeldformaat dat gebruik maakt van lossless compressie (waarbij dus geen beeldinformatie verloren gaat). Gebruik PNG enkel als er ook een (originele) analoge wordt bewaard en de digitale representatie louter gebruikt wordt voor raadpleging van de inhoud van de foto.

    Spreadsheets

    PDF, PDF/A, XLS

    • Wanneer je gegevens en formules wil bewaren, maak je best gebruik van XLS
    • Bij een CVS en XML worden geen formules bewaard
    • Wanneer je enkel je opmaak wil bewaren, je gegevens wil raadplegen of dit wil publiceren op je website, dan volstaat een PDF of PDF/A
    • PDF of PDF/A: het is moeilijk om van dit bestandsformaat verdere afgeleiden te maken. Bewaar daarom best een .xsl/.xslx naast je PDF-versie. 

    E-mail

    XML, msg

    Audio

    Bestandsextensie 

          Omschrijving en opmerkingen

    .wav

    .wav (Waveform Audio File Format) is een breed ondersteund audioformaat dat ongecomprimeerde audiobestanden kan bewaren en ontwikkeld werd door Microsoft en IBM.

    .aiff

    .aiff (Audio Interchange File Format) is een breed ondersteund audioformaat dat ongecomprimeerde audiobestanden kan bewaren en ontwikkeld werd door Apple.

    .flac

    .flac (Free Lossless Audio Codec) is een open-source, lossless gecomprimeerd audioformaat.

    Codering 

          Omschrijving en opmerkingen

    LPCM

    Linear Pulse Code Modulation is de standaardopslagvorm van digitaal geluid in computers, in verschillende bestandsformaten en op CD.

     

    Video

    Bestandsextensie

          Omschrijving

    .mkv

    .mkv (Matroska) is een open standaard multimediacontainerformaat dat virtueel elke bitstream kan verpakken, maar er zijn nog maar weinig best practices uit de erfgoedsector bekend. De software voor het transcoderen en valideren van .mkv is vrij beschikbaar. Matroska gebruik je wanneer je een open containerformaat verkiest.

    .mxf

    .mxf (Material eXchange Format) is geen open standaard, maar wel een industriestandaard. Het formaat wordt breed ondersteund door professionele videosoftware en er zijn best practices beschikbaar voor integratie van H.262, H.264 en JPEG2000 videostreams. MXF is echter een complex containerformaat en de implementaties van het formaat zijn sterk productgebonden. Om het risico op problemen met de uitwisselbaarheid te beperken is het aanbevolen gebruik te maken van het OP1a-profiel, beschreven in de SMPTE ST 378:2004 standaard, bij voorkeur als onderdeel van het AS-03 profiel of de Digital Cinema System Specification. MXF gebruiken doe je vooral wanneer je het videomateriaal voornamelijk voor de omroep- en filmsector beschikbaar stelt.

    .avi

    .avi (Audio Video Interleaved) is een gesloten formaat, maar de specificaties zijn vrij beschikbaar en ze worden door vrijwel alle mediaspelers voor respectievelijk Windows en Mac (Apple) ondersteund. AVI gebruik je wanneer je slechts over beperkte expertise en tools beschikt om videobestanden af te spelen en te transcoderen.

    .mov

    .mov (QuickTime) is een gesloten formaat, maar de specificaties zijn vrij beschikbaar en ze worden door vrijwel alle mediaspelers voor respectievelijk Windows en Mac (Apple) ondersteund. MOV gebruik je wanneer je slechts over beperkte expertise en tools beschikt om videobestanden af te spelen en te transcoderen.

          Codering 

          Omschrijving en opmerkingen

    FFV1

    FFV1 is een lossless codering. De codecs en specificaties zijn beschikbaar via de FFmpeg-bibliotheek die door de meeste open source mediaspelers gebruikt wordt.

    JPEG2000

    De JPEG2000-codering kan zowel lossless als lossy worden gebruikt. Gebruik de lossless JPEG2000 codering, en bij voorkeur de OpenJPEG-bibliotheek voor het maken van JPEG2000-streams.

    Websites

    • XML
    • HTML (alle pagina’s)
    • CMS bewaren
    • PDF

    Bladmuziek

    PDF, PDF/A, TIFF, MusicXML

    Technische tekeningen

    Technische tekeningen kunnen voorkomen in de vorm van 3D-geometrieën, CAD-tekeningen (2D en 3D) en modellen in BIM (hier niet behandeld).

    3D-geometrieën

    3D-geometrieën zijn vectoriële afbeeldingen in 3D. De bestandsformaten die hier als duurzaam worden gepresenteerd zijn enkel geschikt als je de geometrische (vormelijke) informatie wilt bewaren. Ze zijn niet geschikt voor de bewaring van andere eigenschappen zoals kleur, tekst of lagen.

    • PDF/E: Overweeg dit bestandsformaat wanneer je 3D-geometrieën enkel nog wil raadplegen of publiceren op het web.
    • STEP: Overweeg dit bestandsformaat indien je de bestanden nog beschikbaar wil houden voor hergebruik in een productieomgeving.
    • IGES: Overweeg dit bestandsformaat bij relatief eenvoudige 3D-geometrieën en wanneer je de bestanden nog beschikbaar wil houden voor hergebruik in een productieomgeving.

    Meer informatie vind je op http://www.cvaa.be/nl/advies/archiveringsformaten-voor-3d-geometrieen

    2D CAD

    In tegenstelling tot enkel geometrische informatie, bevatten CAD-bestanden ook andere eigenschappen, zoals kleur, lagen, blocks, tekst enz. Dit maakt de preservatie van de bestanden wat complexer. Voor 2D CAD kunnen volgende bestandsformaten gelden:

    • PDF/A-2, PDF/A-3 en PDF/E: Overweeg dit bestandsformaat wanneer je CAD-bestanden enkel nog wil raadplegen of publiceren op het web.
    • DWG en DXF: Overweeg dit bestandsformaat wanneer je de bestanden nog beschikbaar wil houden voor hergebruik in een productieomgeving, zeker wanneer je werkt met AutoDesk-software. (DWG is geen open formaat!)
    • SVG: Overweeg dit bestandsformaat bij relatief eenvoudige tweedimensionale objecten.

    Meer informatie op http://www.cvaa.be/nl/advies/preservatie-van-cad-archiveringsformaten-voor-2d-cad

    3D CAD

    Voor CAD-bestanden in 3D is momenteel nog geen geschikt archiveringsformaat vastgesteld, zelfs niet voor raadpleging of documentatie. Wel kunnen enkele bestandsformaten genoemd worden, maar conversies naar deze formaten dienen steeds grondig te worden gecontroleerd op verlies van essentiële informatie:

    • DWG en DXF 1: Overweeg dit bestandsformaat voor bewaring op lange termijn, zeker wanneer je werkt met AutoDesk-software. (DWG is geen open formaat!)
    • COLLADA: Overweeg dit bestandsformaat voor bewaring op lange termijn, voor de bestanden van SketchUp.

    Meer informatie op http://www.cvaa.be/nl/advies/preservatie-van-cad-archiveringsformaten-voor-3d-cad

    CC BY-SA