Med machine learning har vi udviklet helt nye muligheder for at trække viden ud af CVR-data og regnskabstal
Forfatter: Anders Højrup
Stort set siden det første hulkort blev stanset ud, har både udvikling og anvendelse af IT-løsninger krævet brug af stamdata. Og selv om hulkortdamerne for længst er blevet omskolet, og hulkortoperatørerne har smidt den hvide kittel, så står vi stadig med mange af de samme problemstillinger i brugen af stamdata.
Lad os fx tage CVR-data og regnskabstal. Data ligger samlet og frit tilgængelige på fx cvr.dk, men det er alligevel omstændeligt og kompliceret at gøre data brugbare i praksis. Det skyldes fx forskellige retningslinjer for de forskellige virksomhedsklasser og manglende standardisering i strukturen på XBRL (XML) regnskaber og ikke mindst kvaliteten på data.
Vi har øget kvaliteten og brugbarheden af offentligt tilgængelige virksomhedsdata
Vi har gennem de seneste 10 måneder arbejdet intenst med offentligt tilgængelige virksomhedsdata. Vi har ikke kun fundet en løsning på at øge kvaliteten og brugbarheden af disse data – ved hjælp af machine learning (ML) er vi gået et langt skridt videre end dét.
Vi har simpelthen udviklet et værktøj, der kan søge på kryds og tværs, både i CVR-data, regnskabsdata og på specifikke nøgleord på virksomhedernes hjemmesider. Vi har kigget dybt i regnskaberne for at få helt styr på, hvilke nøgletal vi kan hive ud, og hvilke der er de korrekte tal! Korrekte nøgletal er helt essentielt i forhold til de anvendelsesmuligheder, fx segmentering af virksomheder, som kræver stærke og uniforme data. Til sidst har vi hældt det hele i et BI-værktøj, så brugeren lynhurtigt kan få en detaljeret liste over præcis de virksomheder, der har interesse.
Hva’ sku’ det være? Stamdata a la carte? S’gerne!
Har du fx brug for en liste med alle fremstillingsvirksomheder i Midtjylland med mere end 20 medarbejdere og en omsætning på over 1 mio., så leverer vores system sådan en liste, meget præcist og meget hurtigt!
Har du brug for at identificere virksomheder der opererer inden for specifikke brancher eller interesseområder – jamen, så finder systemet dem!
Sådan bruger vi ML til at styrke, udbygge og udnytte stamdata
Hvad er det så for et ekstra skridt, vi har taget med ML – og hvordan? Vi bruger ML til at styrke vores data, til at udbygge vores data og til at udnytte vores data.
- Vi bruger ML til at styrke vores data
Da virksomheder er underlagt forskellig lovgivning i form af, hvilke nøgletal de skal offentliggøre i deres årsregnskab, vil der forekomme huller i dataene. Dette kan skabe problemer, når vi senere ønsker at analysere på disse nøgletal. - Regression
Vi har arbejdet med XGBoost-algoritmen til at beregne estimater for de uoplyste nøgletal. Dette er lykkedes med så tilfredsstillende præcision, at vi kan inddele virksomheder i kategorier baseret på fx medarbejderantal, selvom virksomheden ikke nødvendigvis har offentliggjort det præcise antal i sit årsregnskab. - Vi bruger ML til at udbygge vores data
Som nævnt tidligere kan ML bruges til at finde og anvende struktur og mønstre i data. Ovenover anvendte vi denne egenskab, hvor vi sammenligner virksomheder der regnskabsmæssigt ligner hinanden, til at beregne manglende information. Tilsvarende kan vi bruge ML til at sammenligne en virksomhed med tidligere versioner, så vi kan lave prognoser på, hvordan virksomhedens udvikling ser ud i fremtiden.Denne type ML anvendes flittigt indenfor en bred vifte af brancher, blandt andet kreditinstitutter til forecasting af renter og aktiekurser, produktionsvirksomheder til forecasting af indkommende ordrer og energiselskaber til forecasting af elpriser.Derfor har det været oplagt også at undersøge mulighederne inden for regnskabsdata og for at udbygge vores datasæt med endnu mere spændende information. - Vi bruger ML til at udnytte vores data
Når vores data er blevet styrket og endnu mere korrekt, har vi flere muligheder for at anvende dem til noget, der giver forretningen værdi.Find anomalier
Endnu en af de mange anvendelsesmuligheder af ML er at identificere virksomheder, der skiller sig ud fra mængden. Vi kan finde virksomheder der skylder unormalt få penge væk i forhold deres nøgletal, og sammenligne dem med andre virksomheder der har lignende regnskaber.Dette er blot et af mange eksempler, som vi tænkte kunne være relevant for specielt finanssektoren til at hjælpe med at opspore nye, potentielle kunder.Anomaly detection kan anvendes på mange andre områder: - Mulige sikkerhedsbrud i en server-infrastruktur
- Elmålere som opfører sig mærkeligt
- Find ”potentielle” patienter ud fra journaldata.
Har du brug for stamdata af høj kvalitet – så tag fat i os!
Det er umuligt at komme uden om ML, når der skal analyseres store datamængder, såkaldt big data. Gennem træning med kendte observationer lærer du maskinen at genkende mønstre og strukturer, som den så senere kan overføre til ukendte observationer.
Dette fungerer supergodt i et setup, hvor den har rigtig meget data tilgængeligt, så den kan finde mønstre og sammenhænge, som et menneske aldrig ville være i stand til.