microsoft purview sensitive information types jannenevalainen.com

Pelkkä näkyvyys tietoihin ei vielä auta vaan meidän tulee saada myös käsitys minkälaista dataa ympäristössämme oleskeleva tieto sisältää ja yksi varmasti tärkeimpiä kysymyksiä on millaista arkaluonteista dataa järjestelmästä löytyy. Tässä asiassa SIT-tietueet auttavat.

Sensitive Information Types (SIT) -tietueet ovat olennainen osa Microsoft Purviewia. Näihin tietueisiin voi törmätä niin DLP-politiikoissa, Sensitivity Labeleissa kuin myös Data Explorerissa. Otetaan siis pikatutustuminen Sensitive Information Type -tietueisiin ennen kuin syvennymme tarkemmin Purviewin tekniikoihin!

Helpoiten pääset tarkastelemaan SIT-tietueita suunnistamalla Purviewin portaalissa Information Protection alueelle ja valitsemalla siellä Classifiers -> Sensitive info types.

Purview SIT

SIT-tietueet ja Confidence levelit

Arkaluonteisen tiedon tunnistamiseksi Microsoft Purview sisältää useita Sensitive Information Type (SIT) tietueita. Nämä tietueet ovat Microsoftin valmiiksi luomia tunnistimia joita voidaan käyttää tiedon tunnistamisessa. Kirjoitushetkellä erilaisia SIT-tietueita on 328 kappaletta ja ne sisältävät mahdollisuuden tunnistaa esimerkiksi luottokorttinumeroita, nimi/osoitetietoja, eri maiden sosiaali/henkilötunnuksia tai tilinumeroita.

Ennen tarkempaa tutustumista SIT-tietueisiin on suositeltavaa tutustua Microsoftin sivuston ”Sensitive information type entity definitions” -artikkeliin jossa listataan ajankohtaiset käytössä olevat SIT-tietueet sekä niiden luokittelutavat (löytyy täältä).

Otetaanpa esimerkkitietueeksi vaikkapa sivustolla mainittu SIT-tietue ”Credit Card Number”. Kyseessä on nimensä mukaisesti luottokorttinumeron tunnistava SIT. Microsoftin sivuston mukaan tietue on ”14 to 19 digits that can be formatted or unformatted (dddddddddddddddd) and that must pass the Luhn test.” Tämä siis tarkoittaa että mikä tahansa numerosarja ei kelpaa vaan numerosarjan täytyy läpäistä Luhnin testi joka on algoritmi jota käytetään tarkistamaan ovatko luottokortin numerot oikein. Voidaan siis sanoa että esimerkiksi luottokorttinumerolla on siis tarkistussumma joka auttaa tunnistamaan vain oikeat luottokorttinumerot, vähentäen vääriä hälytyksiä.

Toinen tärkeä asia on SIT-tietueissa mainittu Confidence level. Confidence levelin avulla voidaan hienosäätää kuinka luotettavana löydetyn datan tulosta pidetään ennen kuin se tunnistetaan SIT-tietueeksi. Samaista Credit Card -esimerkkiä käyttäessämme näemme että low confidencessa riittää että Func_credit_card -tietue (eli edellä mainittu luottokorttinumero) löytyy sisällöstä. High Confidence level puolestaan vaatii että luottokorttinumeron lisäksi sisällöstä täytyy löytyä 300 merkin alueella myös ennalta määritetty avainsana. Kyseisesessä esimerkissä ne olisivat esimerkiksi bank card, card number, issue number, card holder ja niin edelleen. Luotaessa SIT-tietueita käyttävää sääntöä (esim DLP-sääntö), säännössä voidaan määrittää mitä confidence levelia vasten tietoja verrataan.

 

purview sensitive info type microsoft 365
Esimerkki Purviewin sisäänrakennetuista SIT -tietueista

DIY SIT

Mutta entä jos Microsoftin ennalta määrittämät tietueet eivät riitä vaan meidän täytyy tunnistaa uniikkia organisaatiodataa? Hyvät uutiset ovat että myös omia SIT-tietueita on mahdollista tehdä. Yksinkertaisin tapa luoda oma SIT on valita Create sensitive info type valikossa.

create sit purview janne nevalainen
SIT-tietueen luominen voi olla yksinkertaisimmillaan varsin helppo toimenpide. SIT-tietueelle annetaan kuvaava nimi ja sille määritetään tunnistamislogiikka seuraavista vaihtoehdoista:
  • Regular expression (Regex-lauseke)
  • Keyword list (avainsanoihin perustuva haku)
  • Keyword dictionary (ennalta määritetty avainsanalista)
  • Functions (olemassa oleva SIT-funktio, esim edellä mainittu Func_credit_card)
 
Näiden lisäksi SIT tietueelle voi määrittää lisäehtoja (avainsanat, merkkimäärä minkä sisältä tietueet pitää löytyä)
 
Alla olevassa kuvassa näkyy esimerkki itse tehdystä SIT-tietueesta. SIT-tietue on low confidence tyyppinen tietue joka hakee Standeni projektinumero -nimistä Regex-arvoa (Sta-dddddddd) datan sisällöstä.
purview custom sit jannenevalainen.com

Toinen tapa on luoda Fingerprint based SIT. Kyseisen tietueen voi tehdä samasta paikasta kuin normaalin SIT-tietueen.

 

create fingerprint sit purview

Luotaessa Fingerprint SIT sinua pyydetään lataamaan dokumentti joka toimii ”sormenjälkenä” SIT-tietueelle. Kunhan lomakkeen perusrakenne pysyy samana kuin lomake joka ladattiin SIT-tietueeksi lomakkeeseen voidaan lisätä tietoja. Tämä SIT-malli sopiikin hyvin yrityksen vakioiduille dokumenttipohjille kuten kyselyille, lomakkeille tai raporteille.

fingerprint sit purview

Kun dokumentti on ladattu (huomaa 4000 merkin minimivaatimus) homma onkin aika lailla tehty ja SIT on valmis käytettäväksi. Tarvittaessa ylläpitäjä voi säätää SIT-tietueen confidence levelia jos SIT tuottaa liikaa false positive/negative tuloksia.

Näkyvyys kriittiseen dataan

SIT-tietueet ovat keskeinen osa tiedon näkyvyyttä ja hallintaa Purview-ratkaisussa. SIT-tietueiden avulla ylläpitäjät voivat tunnistaa, hallita ja suojata yrityksen dataa eri lähteissä. Microsoftin tarjoamien käyttövalmiiden ratkaisujen lisäksi organisaatiolla on mahdollisuus luoda myös omaan toimintaan räätälöityjä SIT-tietueita, parantaen suojausta entisestään.