Verktyg: Datastrategi

Det här verktyget tillhör Övning 3B – utveckla en datastrategi

Samtliga AI-lösningar bygger på data: träningsdata, data till analysen och data som genereras av AI. Därför behöver din AI-drivna affärsmodell en datastrategi.

Förutom att fundera på vilken data som krävs för att uppnå ett mål, så behöver du även fundera över vem som äger datan och om rättigheterna finns för att använda datan i en AI-lösning? Det finns även ett behov att fundera på lagring och hantering av data, det vill säga hur hanteras data under analys-fasen, exempelvis var lagras datan samt hur hanteras data efter genomförda analyser?

All information på den här sidan baseras på kunskap och verktyg från projektets expert på dataflöden Jenny Carlstedt och AI-experten Marcus Weiland.

  • Vilka data krävs?
  • Vem äger dessa?
  • Vilka rättigheter har vi att nyttja data i AI-lösning?
  • Vilka rättigheter har vi till resultatet från vår AI-lösning?
Olika former av data
  • Öppna data
  • Delade data
  • Inlåsta data
  • Analyser i form av rapporter
  • AI-genererade data
  • Syntetiska data
Data inom samhällsbyggnad – exempel
  • Geodata
  • Jordobservationsdata
  • Laserdata och punktmoln
  • Sensordata
  • Registerdata
  • Planeringsunderlag och utredningar
  • BIM-modeller

Vad är en datastrategi?

En bra datastrategi sätter en positiv spiral av datainsamling i rörelse: där användandet av verktyget genererar mer data vilket leder till en smartare AI som skapar förutsättningar för en bättre produkt vilket förhoppningsvis ger fler användare och ännu mer data.

Utgångspunkten är att du skapar en produkt som ger kundvärde baserat på data du har eller kan införskaffa. När kunderna börjar använda din produkt alstras mer data som du kan använda till att förbättra din AI, något som förhoppningsvis leder till fler användare, ännu mer data och därmed en ännu bättre produkt.

Det här är en iterativ process. Om du har en riktigt bra strategi där du ligger steget före, har du designat en produkt som tillåter dig att proaktivt samla in ny data, data som behövs för nästa steg i produktutvecklingen – kanske en helt ny AI. På så sätt kan den befintliga produkten hjälpa dig att komma åt de unika datakällor du behöver för att bygga nästa kunderbjudande. Det blir som steg på en trappa

Datastrategitrappan är framtagen av Marcus Weiland

Bilen kan inte automatiskt bromsa, men målet är att den ska kunna göra det. Bilföretaget har dock inte lyckats utveckla en tillräckligt pålitlig AI för automatisk inbromsning. Bilföretaget bygger en enklare AI som skickades ut till bilarna och som försöker förutsäga när föraren kommer att bromsa. Om föraren tvärbromsar när AI:n inte var beredd på det, då vet bilföretaget att något intressant har hänt, och tvärtom om AI:n tror att bilen måste tvärbromsa men föraren inte gör det. De sista två sekundernas data från bilen skickas hem till bilföretagets datacenter. Denna data utgör träningsdata som bilföretaget sedan tränar nästa version av AI:n som skickas ut till bilarna. På så sätt får bilföretaget hela tiden in data där modellen inte var tillräckligt bra på att förutsäga om en inbromsning behövdes eller ej.

Efter ett tag blir AI:n tillräckligt bra så att bilföretaget kan låta AI:n förbereda bilen för inbromsning, kanske genom att pumpa upp bromsarna när AI:n tror att en inbromsning kommer. När modellen är ännu bättre kan de aktivera automatisk inbromsning, efter att ha testat den i tusentals bilar och jämfört med förarnas beteende.

2012 fanns en app som hette Ingress där man kunde träna och få motion i en slags alternativ verklighet (augmented reality, AR). Utvecklarna började samla in data om exempelvis var folk träffades, hur det ser ut i världen och var användare rörde sig.  2016 lanserade utvecklarna Pokémon GO baserat på datan från Ingress, kombinerat med öppen data så som kartor från Open Street Map och Google Maps. Detta blev extremt framgångsrikt och de har nu samlat ett stort värde i data om hur människor rör sig och var de träffas. Detta ger dem en unik databas över människors rörelsemönster, som de potentiellt kan använda för att bygga nya affärer, exempelvis genom att sälja data till butiksägare om var de bör öppna nya butiker.

Verklighetsförankra din datastrategi

  • Vilka data behövs för analysen?
  • Är det data som redan finns hos en aktör eller ska de samlas in? Eller en kombination?
  • Har du rätt (rätt avtal för) att använda datat till det du vill?
  • Vad är kostnaden för data och rätt avtal vs värdet av analysen?
  • Data inom samhällsbyggnadsprocessen kan finnas hos olika källor, eller i olika versioner (ex tidsstämplar) – vilka passar din lösning?
  • Är det viktigt att kunna ange eller spåra vilken källa respektive vilken version som datat som ingår i analysen har? Ex om den bygger på bygghandling eller relationshandling? Hur säkerställer lösningen det?
  • Har du koll på livscykelhanteringen av ditt data? Läs mer här

Exempel på datastrategier

Målet är att designa exempelvis padelhallar med AI och för detta krävs data. Inledningsvis används manuell datainsamling, genom att fotografera på plats, samla in ritningar, grundkartor från kommunen, geotekniska undersökningar och söka samarbete med olika padelhallsaktörer. Med denna kvalitetssäkrade data kan sedan en AI tränas och padelhallar kan börja genereras. Som arkitekt och teknikkonsult rättar vi AI:n där den har skapat fel vilket ger mer data för nästa generation av AI:n. Till sist har det skapats en padelhall-generator.

Börja smalt, i stället för att greppa efter för mycket genom att skapa en AI som kan hjälpa till med stadsbyggnad så avgränsas strategin från början till parkeringsplatser. Riktigt bra data samlas in som en AI kan tränas på. När AI kan parkeringsplatser läggs ytterligare en pusselbit till med slutmålet att kunna designa hela staden.

Tänk Open Street Map där alla får lägga in sina kartor. Datainsamlingen kan göras till ett spel där användaren lämnar ifrån sig data. Google gjorde ett spel där man snabbt skulle rita något utifrån ett givet ord, och andra användare skulle gissa vad det föreställde. Det var roligt för användarna, men Googles syfte var att samla in data som kopplade ord till skisser. Samma princip gäller när vi klickar på trafikljus i CAPTCHA-bilder – vi hjälper AI att lära sig känna igen trafikljus för självkörande fordon. 

Ett program skapar något med AI, exempelvis en skiss. Denna skiss kan sedan användaren förbättra. Programmet sparar ner slutresultatet, den förbättrade skissen. Detta skapar kontinuerligt data vilket AI:n kan tränas på för att bli bättre.

Ge bort en app eller tjänst gratis och samla in data parallellt. Till exempel så ges tjänsten ”transkribera och sammanställa mötesanteckningar” bort gratis men parallellt samlas allt som sägs i mötet in för att kunna utveckla andra produkter.

Exempel 1 är ett sådant exempel. Inledningsvis kanske produkten inte har så mycket AI-tjänster, men det finns en datainsamlingsstrategi som kan användas för att utveckla AI-funktioner som adderas/trycks ut i produkten.

Börja bygga något som baseras på öppna datakällor alternativt köpa data inledningsvis. När det finns en användarbas kan mer data samlas in, data som inte är öppen.
AI-bolag är ofta generösa med att dela sina AI-modeller, men inte sitt data. Som AI-bolag vill man ha en data-fördel. När Google köpte YouTube var det främst för att få tillgång till videodata för att kunna träna sina AI-modeller.

Kan vara en knepig strategi utifrån avtal. Ett företag, som t.ex. tillhandahåller affärssystem, kan titta på alla fakturor som läggs in i systemet och se vilka bolag som köper vilka tjänster från vilka andra bolag. Företaget kan bygga affärer och utveckla nya produkter baserat på data som egentligen inte var deras från början. 

Köp ett annat företag för att få tillgång till deras data.

För små aktörer kan man vara starkare tillsammans genom att aggregera allas data och på så sätt skapa förutsättningar för att bygga AI-lösningar alla kan använda och bli mer produktiva. Detta gör t.ex. svenska stålbolag som samarbetar nära eftersom de insett att den verkliga konkurrensen inte är mot andra svenska bolag utan mot Kina. Genom att lägga ihop sina data kan de göra mer nytta

Nedladdningsbart material

Datastrategitrappa

Läs mer här

Livscykel för data