Pelkkä näkyvyys tietoihin ei vielä auta vaan meidän tulee saada myös käsitys minkälaista dataa ympäristössämme oleskeleva tieto sisältää ja yksi varmasti tärkeimpiä kysymyksiä on millaista arkaluonteista dataa järjestelmästä löytyy. Tässä asiassa SIT-tietueet auttavat.
Sensitive Information Types (SIT) -tietueet ovat olennainen osa Microsoft Purviewia. Näihin tietueisiin voi törmätä niin DLP-politiikoissa, Sensitivity Labeleissa kuin myös Data Explorerissa. Otetaan siis pikatutustuminen Sensitive Information Type -tietueisiin ennen kuin syvennymme tarkemmin Purviewin tekniikoihin!
Helpoiten pääset tarkastelemaan SIT-tietueita suunnistamalla Purviewin portaalissa Information Protection alueelle ja valitsemalla siellä Classifiers -> Sensitive info types.
SIT-tietueet ja Confidence levelit
Arkaluonteisen tiedon tunnistamiseksi Microsoft Purview sisältää useita Sensitive Information Type (SIT) tietueita. Nämä tietueet ovat Microsoftin valmiiksi luomia tunnistimia joita voidaan käyttää tiedon tunnistamisessa. Kirjoitushetkellä erilaisia SIT-tietueita on 328 kappaletta ja ne sisältävät mahdollisuuden tunnistaa esimerkiksi luottokorttinumeroita, nimi/osoitetietoja, eri maiden sosiaali/henkilötunnuksia tai tilinumeroita.
Ennen tarkempaa tutustumista SIT-tietueisiin on suositeltavaa tutustua Microsoftin sivuston ”Sensitive information type entity definitions” -artikkeliin jossa listataan ajankohtaiset käytössä olevat SIT-tietueet sekä niiden luokittelutavat (löytyy täältä).
Otetaanpa esimerkkitietueeksi vaikkapa sivustolla mainittu SIT-tietue ”Credit Card Number”. Kyseessä on nimensä mukaisesti luottokorttinumeron tunnistava SIT. Microsoftin sivuston mukaan tietue on ”14 to 19 digits that can be formatted or unformatted (dddddddddddddddd) and that must pass the Luhn test.” Tämä siis tarkoittaa että mikä tahansa numerosarja ei kelpaa vaan numerosarjan täytyy läpäistä Luhnin testi joka on algoritmi jota käytetään tarkistamaan ovatko luottokortin numerot oikein. Voidaan siis sanoa että esimerkiksi luottokorttinumerolla on siis tarkistussumma joka auttaa tunnistamaan vain oikeat luottokorttinumerot, vähentäen vääriä hälytyksiä.
Toinen tärkeä asia on SIT-tietueissa mainittu Confidence level. Confidence levelin avulla voidaan hienosäätää kuinka luotettavana löydetyn datan tulosta pidetään ennen kuin se tunnistetaan SIT-tietueeksi. Samaista Credit Card -esimerkkiä käyttäessämme näemme että low confidencessa riittää että Func_credit_card -tietue (eli edellä mainittu luottokorttinumero) löytyy sisällöstä. High Confidence level puolestaan vaatii että luottokorttinumeron lisäksi sisällöstä täytyy löytyä 300 merkin alueella myös ennalta määritetty avainsana. Kyseisesessä esimerkissä ne olisivat esimerkiksi bank card, card number, issue number, card holder ja niin edelleen. Luotaessa SIT-tietueita käyttävää sääntöä (esim DLP-sääntö), säännössä voidaan määrittää mitä confidence levelia vasten tietoja verrataan.
DIY SIT
Mutta entä jos Microsoftin ennalta määrittämät tietueet eivät riitä vaan meidän täytyy tunnistaa uniikkia organisaatiodataa? Hyvät uutiset ovat että myös omia SIT-tietueita on mahdollista tehdä. Yksinkertaisin tapa luoda oma SIT on valita Create sensitive info type valikossa.
- Regular expression (Regex-lauseke)
- Keyword list (avainsanoihin perustuva haku)
- Keyword dictionary (ennalta määritetty avainsanalista)
- Functions (olemassa oleva SIT-funktio, esim edellä mainittu Func_credit_card)
Toinen tapa on luoda Fingerprint based SIT. Kyseisen tietueen voi tehdä samasta paikasta kuin normaalin SIT-tietueen.
Luotaessa Fingerprint SIT sinua pyydetään lataamaan dokumentti joka toimii ”sormenjälkenä” SIT-tietueelle. Kunhan lomakkeen perusrakenne pysyy samana kuin lomake joka ladattiin SIT-tietueeksi lomakkeeseen voidaan lisätä tietoja. Tämä SIT-malli sopiikin hyvin yrityksen vakioiduille dokumenttipohjille kuten kyselyille, lomakkeille tai raporteille.
Kun dokumentti on ladattu (huomaa 4000 merkin minimivaatimus) homma onkin aika lailla tehty ja SIT on valmis käytettäväksi. Tarvittaessa ylläpitäjä voi säätää SIT-tietueen confidence levelia jos SIT tuottaa liikaa false positive/negative tuloksia.