Verktyg: Livscykel för data

Data har en livscykel och behöver kontinuerligt arbetas med för att förbli aktuellt. Förståelse för data i hela livscykelperspektivet lägger grunden för att få rätt processer och rätt resurser på plats för att arbeta strategiskt med data. Projektets expert på dataflöden, Jenny Carlstedt, har tagit fram en vägledning för vad du behöver tänka på genom datans hela livscykel.

Data förändras över tid
Olika data behöver hanteras på olika sätt pga skillnader mellan data
Skapa förståelse för ingående data och arbeta medvetet med data
Att ta hand om data måste ske kontinuerligt, det är inte en engångsinsats

Insamling. Vad ska vi göra med datan och hur ska den användas? Ska den samlas in av oss eller köpas? Se exempel på olika datastrategier här.
Metadata. Finns det metadata om data som vi samlar in? I metadatan kan vi förstå datans ursprung samt till vad data kan användas.
Säkerhet. Ska dataåtkomst vara behörighetsstyrd? Vad gäller för både indata och resultat? Tänk på att data som aggregeras kan få en annan säkershetsklassning än enskilda datamängder.
Långsiktig planering. Finns det en plan för förvaltning och uppdatering och finns det resurser för detta? Är analysen en engångsinsats eller ska indata eller resultat uppdateras och återanvändas?
Upphandling. Kravställ från användningsområde och hur data ska användas. Glöm inte att detta också gäller utredningar, kravställ på data som AI ska använda.
Avtal. Säkerställ att vi får göra det vi vill, och att andra kan använda datan såsom tänkt. Detta gäller både till AI-lösning (träningsdata) och resultatet av AI-analyserna.
Arkivering. När datan inte ska användas mer, ska den då gallras, raderas eller arkiveras?

Federerad* eller lokal lösning. Hur ska AI-lösningen använda datan och vad ställer det för krav på lagringen?

Standarder och specifikationer. Data som ska lagras internt eller federerat – finns det standarder som bör följas?
Lagar och regelverk. Finns det lagar och regelverk som påverkar data vi vill använda, som påverkar struktur och lagring?
Användning och tillämpning. Hur ska data användas, påverkar det struktur och lagring?
System. Vilka system ska kunna läsa datan?
Läsa från källan. Ska data återanvändas, går det att läsa data från källan? Behövs lokala kopior, hur uppdateras data då?
Upphandling. Kravställ på struktur och lagring som passar lösningen.
Lagrings- respektive beräkningskapacitet. Hur mycket data ska lagras och när, och vart ska analyser ske?
Arkivering, gallring och radering. Med möjligheten att samla in mycket data kommer ett ansvar att fundera på vad som ska sparas, och hur rutiner för gallring, arkivering och radering ska se ut.

*
Att lagra data federerat betyder att datan inte samlas centralt, utan i stället ligger kvar hos respektive datakälla – exempelvis på olika servrar, organisationer eller användares enheter. Det möjliggör till exempel att man kan analysera eller träna AI på datan utan att behöva flytta den, vilket stärker integritet, säkerhet och dataskydd.

Tillgänglighet

Vem/vilka ska komma åt datan, är det en AI-algoritm, utvecklare eller slutanvändare?
Vilket sätt önskar exempelvis AI-algoritm, utvecklare eller slutanvändare konsumera data?
Vad krävs för att exempelvis AI-algoritm, utvecklare eller slutanvändare ska kunna nyttja data?
Vilka regelverk styr tillgängliggörandet av data?
Behöver data finnas tillgängligt alltid?

Trygghet

Var finns datakällorna och vem äger datan?
Vad sker med analyser och resultat om AI-lösningar använder datan?
Hur ser rutinerna ut för omvärldsbevakning kopplat till datan?

Tillförlitlighet

Vad behöver finnas på plats för att användaren ska ha förtroende för datan?
Bygger vår analys på rätt data – dvs rätt källa, rätt version? Finns en tydlighet och spårbarhet i vilka data som används?
Metadata – finns det metadata, behöver vi ha med metadata i vår lösning? I metadata kan vi både läsa eller själva beskriva var data kommer från och hur det kan användas. Det är viktig information både vid utveckling av AI-lösningen och tolkningen av resultaten.

Tillförlitlighet och trovärdighet. Värdet av data, och därmed lösningen, faller snabbt om den blir inaktuell och inte uppdateras.
Uppdateringstakt. Olika datamängder kräver olika uppdateringstakt.
Informationsägarskap. Om ni ansvarar för datan – vem äger ansvaret att data är uppdaterat, och är ansvaret och förväntningarna tydligt kommunicerat?
Läs data från källan. Länka om möjligt till källan, om lokalt sparat, ha rutiner för uppdatering.
Kommunicera uppdateringar. Om ändringar eller uppdateringar görs av data, kommunicera detta till utvecklare och slutanvändare.
Versionshantering. I samhällsbyggnadsprocess är det viktigt att veta vilken version som används.
Resurser för underhåll och uppdateringar. I uppdaterade data ligger värdet av det vi skapar, säkerställ att det finns resurser avsatta för förvaltning av data. Det är en ständigt pågående process som aldrig blir klar.

Gallring. AI kräver data för att tränas, men det är svårt att spara på allt. Gallra men med eftertanke, fundera på vilka datamängder som är intressanta att spara utifrån arkivlagens krav men också som framtida träningsdata respektive underlag för analyser.
Arkivlagen. Vilka krav ställer avtal och den arkivmyndighet som underlaget ska levereras till på leveransens och återskapbarhet? Arkivlagen ställer krav på arkivbeständighet, det kan uppnås genom såväl format som processer. Är det resultaten av AI-analysen som ska arkiveras eller datan som den bygger på?

Arkiv ska ses som en lagring av återanvändbar data, inte ett oåtkomligt slutförvar.

AI-lösningens behov av mer data. AI genererar data, och blir bättre när den tränas på mer data, vad ska återanvändas av det vi använt initialt?
Andra kunder. Andra aktörer än de som använt den intiala datan och resultaten från våra AI-lösningar kan vara intresserade av att konsumera dessa – återanvändbarhet kräver förståelse för kommande behov.
Delningskultur. Inköpta system där data är låsta och stängda förhindrar återbruk, ska AI-lösningarna vara öppna eller stängda?

Experttips

Hitta balansen – djupdyk inte i alla data, ta reda på vad som krävs för att hantera data i AI-lösningen och säkerställ att resurser och tid finns

Om tjänsten är rådgivning – ställ frågor om hur data hanteras till kunden

← Tillbaka: Verktyg metoder och övningar

Övning 3B: utveckla en datastrategi→