30kmhcz

Prosíme přihlašte se nebo zaregistrujte.

Přihlašte se svým uživatelským jménem a heslem.
Pokročilé vyhledávání  

Novinky:

>>DŮLEŽITÉ UPOZORNĚNÍ: ČTOU TO TADY JAK ÚŘEDNÍCI, TAK POLICIE. Neuvádějte nic, podle čeho by protistrana mohla dovodit, o jaký případ se jedná. Jak na to? Pojďte >>sem<<.

Autor Téma: [návrh] Návod na anonymizaci dokumentů  (Přečteno 68493 krát)

mikky

  • stálý člen 30kmh.cz
  • *
  • Příspěvků: 282
    • Zobrazit profil
[návrh] Návod na anonymizaci dokumentů
« kdy: 16 Října 2015, 15:07:23 »

MOD: nechám připíchnuté nahoře, po dokončení umístím a ovedu odkaz na toto téma u varování v záhlaví webu. Dobrá práce, díky. F.

--
Anonymizace nahrávaných dokumentů a případů je nutná zejména u započatých a probíhajících případů.  U těchto případů není žádoucí, aby případný agent - uředník dokázal konkrétní případ identifikovat a přizpůsobovat mu svou úřední taktiku, nebo, u vyšších agentských levelů, k případu rovnou prasit i tady.

Anonymizovat je nutné i v neveřejných sekcích, protože většina informací z nich se nakonec, po vyřešení případu, zveřejní, aby z informací mohli těžit i další nevinné oběti silničního fašismu.

TL;DR: Nejjednodušší řešení pro jednotlivé typy dokumentů:
  • Vytištěný dokument nascanujte nebo vyfoťte, uložte jako JPG. Pak postupujte podle bodu Anonymizace JPG
  • Elektronický textový dokument (doc, docx, pdf, apod.) vytiskněte a postupujte podle předchozího bodu.
  • Elektronický grafický dokument (jpg, png, bmp, scanované pdf, apod.) anonymizujte podle bodu Anonymizace JPG. Pokud nevíte, jak otevřít PDF pro malování, postupujte přiměřeně  podle předchozího bodu.
  • Audio a video záznamy sdílejte pouze na požádání některého ze stálých uživatelů, hardcore uživatelů, nebo administrátorů - ti vám zároveň poradí jak moc je případně nutné záznam anonymizovat

Anonymizaci je nutné řešit ve dvou rovinách - faktické a technické.

Faktická rovina anonymizace určuje, jaké informace je bezpodmínečně nutné z dokumentu odstranit. Technická rovina říká, jak na to.

Které údaje anonymizovat?

V každém případě (i u archivních případů a/nebo neveřejných případů) je nutné z dokumentů eliminovat přinejmenším tyto údaje:
  • číslo jednací
  • jména všech osob včetně iniciálů
  • rodná čísla
  • čísla dokladů
  • telefonní čísla
  • podpisy, razítka
  • registrační značky vozidel
  • názvy souborů a další metadata (např. elektronické podpisy, bude vysvětleno v technické části níže)

Pro veřejně řešené a živé případy (a nebo pokud jste nadstandardně paranoidní) anonymizujte dle vlastního uvážení a okolností případu také:
  • veškeré datumy*
  • jména úředníků, včetně celé plochy razítek a podpisů
  • informace o osobách, včetně pohlaví
  • informace o počtu osob, včetně policistů, pokud to není důležité ze skutového hlediska
  • místa, včetně měst (možná vyjma Prahy a některých specifických regionů)
  • veškeré časové údaje, včetně denní doby
  • tovární značky vozidel
  • modely vozidel, včetně motorizace a barvy
  • celé hlavičky a patičky dokumentů (protože úředník by mohl poznat šablonu dokumentu)

*) U datumů existují výjimky a těmi jsou datumy rozhodné pro posuzování udajného přečinu z hlediska platnosti právní úpravy. Česky řečeno: zákony se v čase mění a je např. rozdíl, jestli se nějaký přestupek stal 31.12.2015 nebo 1.1.2016, protože zrovna tehdy začaly platit nějaké změny1, nebo mohlo dojít ke změně místní úpravy2. Takovýchto "zlomových" datumů je víc a budete na ně v diskusi nejspíše upozorněni. Pokud ale již během "cenzury" o těchto datumech víte, uveďte to relativně, tzn. např. "přestupek se stal před změnou místní úpravy."

Technická rovnia zajišťuje, že k anonymizaci došlo takovým způsobem, že není možné anonymizovaná data rekonstruovat.

Elektronické dokumenty mohou mít obecně dvě podoby - textovou a grafickou ("Wordy" a "Skeny"). Pozor, některé druhy dokumentů mohou obsahovat více "poddokumentů" v tzv. "vrstvách" (typicky PDF). Jak poznat a anonymizovat takový dokument bude popsáno níže. Pro publikování dokumentace tady na fóru osobně doporučuji používat pouze formáty JPG a PDF. Zásadně nedoporučuji používat formáty MS-Word, OO-XML nebo ODF (tedy MS Word a Libre/OpenOffice a jiné "Office" programy), pokud pro to nemáte opravdu dobrý důvod.

Dále budu předpokládat, že budete na fórum dávat pouze PDF a JPG soubory.

Elektronické dokumenty obsahují tzv. metadata. To jsou informace obsažené v samotném souboru, které nejsou součástí obsahu, který vidíme, ale které obsahují informace o souboru a datech v něm obsažených. Například soubory Word, ODF či PDF jsou na sebe schopné v metadatech napráskat takové informace, jako je jméno autora, jména lidí, kteří prováděli změny, datum vytvoření, datum změny, počet změn a v některých případech i historii změn. Obrázky, jako třeba JPG, zase v metadatech obsahují informace o modelu fotoaparátu (nebo telefonu) kterým byly pořízeny, světelné podmínky, jestli byl použit blesk, ale třeba i geografickou polohu místa, odkud byl snímek pořízen.

Metadata jsou překvapivě název souboru - pokud svůj dokument pojmenujete "Jarda Novák - nehoda v Žitné.jpg", říkáte tím celkem dost. Ovšem i takový "MHMP-OD-35512XA.PDF" může nést zajímavé informace. V tomhle případě jde o (zcela smyšlený) způsob pojmenování souborů na Magistrátu hl.m. P., odboru dopravy s číslem jednacím. Úředník na první pohled pozná, jestli jméno souboru odpovídá nějaké šabloně, kterou jeho úřad používá.

Všechna metadata je nutné ze souboru odstranit, nebo je přepsat.

Textová podoba znamená, že soubor obsahuje čitelná textová data, lze v nich vyhledávat, lze z nich text kopírovat (ctrl+c, ctrl+v) a to často i v případech, že text není vidět. Představte si, že byste ve Wordu změnili barvu textu na bílou barvu: sice nebude vidět, ale pořád tam bude a bude možné jej z dokumentu získat jiným způsobem, než čtením. To je naivní (ale ne zas tak neobvyklý) případ nefunkční anonymizace textového dokumentu. Stejného nefunkčního efektu byste dosáhli např. překrytím části textu nějakým obrázkem (třeba černým obdélníkem). Text je nutné z těchto dokumentů skutečně odstranit.

Grafická podoba znamená, že soubor obsahuje pouze obrázková data - např. fotografii nebo scan dokumentu. Grafické dokumenty mohou být součástí jiných dokumentů (PDF, Word), ale mohou to být i samostatné soubory (JPG, PNG, BMP). Způsob anonymizace se v těchto případech liší - u samostatných souborů stačí dotčené pasáže pouze "přebarvit" třeba v Malování a soubor "uložit jako" (vysvětlím proč), u PDF s obrázkem je nutné zajistit, aby se přebarvení anonymizovaných pasáží nedělo v jiné vrstvě, postup je jinak stejný.

Vrstvy mohou být součástí PDF dokumentů. Každá PDF stránka může být složena z více vrstev. Vrstvu si můžete představit jako průhlednou folii, na které je něco napsáno nebo nakresleno. Vezměte více takových folií, dejte je přes sebe a dostanete hotovou stránku tak, jak jí vidíte na monitoru.

Anonymizace PDF

Při anonymizaci PDF je nutné si dát pozor na to, aby anonymizační program jen nevytvořil nad textem novou vrstvu, do které nakreslí černé obdélníčky přes místa, která chcete anonymizovat. Taková anonymizace nefunguje, protože i méně gramotný úředník se dokáže naučit mechanický postup, jak takovou anonymizační vrstvu z PDF souboru odstranit. Je tedy nutné zajistit, aby data z PDF opravdu zmizela a nebyla jen překryta jinou vrstvou. To platí pro textové i grafické PDF. Z textového PDF lze takto "anonymizovaná" data dostat extrémně jednoduše - označit text pod obdélníčkem a ctrl+c, ctrl+v. O žiletku složitější to je u PDF, které obsahují obrázek (typicky scan dokumentu), tam lze v některých PDF prohlížečích kliknout na ten obrázek a opět ho "kopírovat" a "vložit" někam jinam, bez té otravné anonymizační vrstvy. Pozor na to.

Anonymizace JPG

U JPG je situace výrazně jednodušší. JPG neumí vrstvy ani text. Je to jen obyčejný obrázek, ve kterém stačí, např. v Malování, citlivé pasáže prostě překreslit černým obdélníčkem (nedělejte žádné psí kusy jako sprejování, transformace, kostičkování, apod3.) Pak je nutné odstranit metadata. To lze nejjednoduššeji udělat tak, že překreslený anonymizovaný obrázek dáte "Uložit jako", čímž se vytvoří metadata nová, která nebudou obsahovat žádné užitečné informace. Při této příležitosti zároveň můžete obrázek trochu zmenšit, pro scanovaný text stačí bohatě rozlišení okolo 100dpi, což je nějakých 826 pixelů na šířku u A4.

Anonymizace na papíře

Napadlo vás dokument začernit fixou a vyfotit nebo nascanovat? Tak na to hned zase zapomeňte, dokument nascanujte tak jak ho máte a postupujte podle předchozího bodu. Je to bezpečnější. Proč? Zkuste to. Vemte fixu a začerněte na stránce své jméno. Pak si vemte lupu, baterku a prozkoumejte ten flek. Vidíte to? Úředník to vidí taky.

« Poslední změna: 27 Března 2017, 16:40:03 od mikky »
IP zaznamenána
Je-li vám 35 a méně, jsme vrstevníci => budeme si tykat. Je-li vám více než 35, jsem pro vás děcko => můžete mi tykat.

mikky

  • stálý člen 30kmh.cz
  • *
  • Příspěvků: 282
    • Zobrazit profil
Re:[návrh] Návod na anonymizaci dokumentů
« Odpověď #1 kdy: 16 Října 2015, 15:07:40 »

času málo, práce moc, ale nezanevřel jsem na vás :)

změny 27.3.2017:
  • rozdělen seznam údajů k anonymizaci na MUST a MAY
  • opraveno dalších pár překlepů a další mírné učesání

změny 24.3.2017:
  • přidána sekce TL;DR
  • opraveno pár překlepů a mírně učesáno

změny 13.1.2016:
  • přidána poznámka k anonymizaci datumů
  • rozšíření teorie
  • návod na anonymizaci JPG
  • rozepsán návod na anonymizaci PDF (TODO)
  • varování k začerňování fixou na papíře
  • upozornění na název souboru

Uvítám pomoc s anonymizací PDF - jako IT-degenerovaný odborník nepoužívám zrovna user-friendly metody...
« Poslední změna: 27 Března 2017, 16:41:01 od mikky »
IP zaznamenána
Je-li vám 35 a méně, jsme vrstevníci => budeme si tykat. Je-li vám více než 35, jsem pro vás děcko => můžete mi tykat.

frantisek

  • Administrator
  • *****
  • Příspěvků: 436
    • Zobrazit profil
    • OSBID o.s.
Re:[návrh] Návod na anonymizaci dokumentů
« Odpověď #2 kdy: 17 Října 2015, 08:45:25 »

Poznámka. Předpokládám že to autor zapracuje, ale prozatím, velmi stručně řečeno:
  • bacha na dokumenty začerněné fixou a potom skenované. Kombinací fotoefektů se lze dobrat původního textu.
  • bacha na vrstvy. Pokud něco prekreslujete "v pocitaci", ulozte to tak, aby prekryvajici kosticky byly soucasti dokumentu, odstrante veskere vrstvy!

Idealni metoda pro ty co se nevyznají - dokument oscanovat a v elektronicke podobe zamazat vse co je třeba v nejakem primitivnim "malovani". Před ulozenim zkontrolovat, zda dokument neobsahuje vrstvy, pokud ano, tak sloucit vse do jedne.
IP zaznamenána
www.osbid.cz - s autem svobodně a bezpečně
frantisek@osbid.cz
t: 602392900 - ale jen když je to fakt nutné ;)

Behemot

  • stálý člen 30kmh.cz
  • *
  • Příspěvků: 2 652
    • Zobrazit profil
    • HW World
Re:[návrh] Návod na anonymizaci dokumentů
« Odpověď #3 kdy: 19 Října 2015, 00:37:31 »

Případně ukládat do formátu, který vrstvy neumí, např. JPEG (ne JPEG 2000!).
IP zaznamenána
STICKERS-CZ - nekonformní samolepky a placky

dj-bobr

  • stálý člen 30kmh.cz
  • *
  • Příspěvků: 674
    • Zobrazit profil
Re:[návrh] Návod na anonymizaci dokumentů
« Odpověď #4 kdy: 19 Října 2015, 10:21:51 »

U JPEGu by to chtělo, aby v něm nebyla zapouzdřena data umožňující identifikaci (EXIF). Pokusil jsem se naočkovat kamaráda k vytvoření online anonymizovátka, snad se na to nevykašle :)
IP zaznamenána
automaticky mi tykejte, vykání je přežilá formalita

k17

  • Příspěvků: 17
    • Zobrazit profil
Re:[návrh] Návod na anonymizaci dokumentů
« Odpověď #5 kdy: 21 Října 2015, 23:21:35 »

Re: EXIF
není potřeba čekat a doufat v kamaráda, každý si může EXIF metadata zkontrolovat a upravit sám například pomocí nástroje "exiftool"
http://www.sno.phy.queensu.ca/~phil/exiftool/
Licence: free software

příklad 1: vypiš metadata
exiftool.exe obrazek.png

File Creation Date/Time         : 2015:10:10 10:10:10+10:00
Creator                         : Otto Wichterle
Creator Tool                    : PDFCreator Version 1.7.3
Make                            : Apple
Camera Model Name               : iPhone 5
GPS Altitude                    : 200.2 m Above Sea Level
GPS Date/Time                   : 2015:10:10 10:10:10Z
GPS Latitude                    : 40 deg 40' 40.40" N
GPS Longitude                   : 20 deg 20' 20.20" E
GPS Position                    : 40 deg 40' 40.40" N, 20 deg 20' 20.20" E


příklad 2: vypiš pouze metadatum "creator"
exiftool.exe -creator "obrazek.png"

Creator                         : Otto Wichterle

příklad 3: nastavení hodnoty metadata creator
exiftool.exe -creator="nova hodnota" obrazek.PNG

příklad 4: smazání metadata Creator
exiftool.exe -creator= obrazek.PNG

Pozn.:
Metadata se zaznamenávají nejen k obrázkům JPG, PNG apod. ale taky k videu.
Není dobré všechny metadata mazat, jsou tam užitečné informace důležité pro další zpracování (pro zobrazení, konverzi apod.).
V příkladu 1 je upravený a zkrácený výpis pro náhodně vybraný obrázek stažený z tohoto webu. Takže ti co mají smartphone s GPS a ještě propojený s účtem na google by se měli mít na pozoru.
IP zaznamenána

vava

  • stálý člen 30kmh.cz
  • *
  • Příspěvků: 139
    • Zobrazit profil
Re:[návrh] Návod na anonymizaci dokumentů
« Odpověď #6 kdy: 22 Října 2015, 06:09:49 »

Re:exiftool
Pro smrtelníky doporučuji toto rozšíření nástroje exiftool. Obsahuje totiž opravdové uživatelské rozhraní.
IP zaznamenána

Behemot

  • stálý člen 30kmh.cz
  • *
  • Příspěvků: 2 652
    • Zobrazit profil
    • HW World
Re:[návrh] Návod na anonymizaci dokumentů
« Odpověď #7 kdy: 22 Října 2015, 11:25:49 »

Si už můžete rovnou pořídit XnView, ve kterým se to dá i otáčet, ořezávat od černých okrajů, mazat a ukládat úplně bez EXIF dat.
IP zaznamenána
STICKERS-CZ - nekonformní samolepky a placky

job999

  • hard core 30kmh.cz
  • ****
  • Příspěvků: 47
    • Zobrazit profil
Re:[návrh] Návod na anonymizaci dokumentů
« Odpověď #8 kdy: 02 Prosince 2015, 20:20:07 »

Dalším krokem může být používání starého grafického software, Třeba jako tenhle původní Paint shop pro 3.12 z roku 1995. Funguje nádherně (a nezná vrstvy ani průledný pngčka.)
(Jeto samorozbalovací EXE archiv z RARu a trial verze programu  je nějakým způsobem deaktivovaná). Řekl bych že je o dost lepší než malování. Stačí rozbalit archiv a začít používat....bez instalace.
IP zaznamenána

mikky

  • stálý člen 30kmh.cz
  • *
  • Příspěvků: 282
    • Zobrazit profil
Re:[návrh] Návod na anonymizaci dokumentů
« Odpověď #9 kdy: 13 Ledna 2016, 11:10:18 »

Update, viz changelog. EXIF imho nejlíp vyřešit přes Malováni a uložit jako. Co vim, tak Malování ani neumí JP2, takže problém s vrstvama padá.

Uvítám pomoc s návodem na anonymizaci PDF (především odstranění metadat).

thx.

-m.
IP zaznamenána
Je-li vám 35 a méně, jsme vrstevníci => budeme si tykat. Je-li vám více než 35, jsem pro vás děcko => můžete mi tykat.

am6

  • Příspěvků: 224
    • Zobrazit profil
Re:[návrh] Návod na anonymizaci dokumentů
« Odpověď #10 kdy: 05 Dubna 2016, 16:26:38 »

A co EXIF odstřihnout přímo zde na serveru při uploadu?
IP zaznamenána

mikky

  • stálý člen 30kmh.cz
  • *
  • Příspěvků: 282
    • Zobrazit profil
Re:[návrh] Návod na anonymizaci dokumentů
« Odpověď #11 kdy: 24 Března 2017, 16:29:36 »

Po roce zase menší úprava, osobně už ten návod považuju za použitelnej a zveřejnitelnej :)

Připomínky samozřejmě vítány.

 -m.
IP zaznamenána
Je-li vám 35 a méně, jsme vrstevníci => budeme si tykat. Je-li vám více než 35, jsem pro vás děcko => můžete mi tykat.

2M

  • hard core 30kmh.cz
  • ****
  • Příspěvků: 3 992
    • Zobrazit profil
Re:[návrh] Návod na anonymizaci dokumentů
« Odpověď #12 kdy: 24 Března 2017, 17:20:21 »

Možná přidat upozornění že i věci v neveřejné sekci se mají anonymizovat protože budou po ukončení zveřejněné..

A rozdělit to na živý a veřejný případ a skončený a nebo neveřejný případ..
můj názor jak ten seznam rozdělit:

u všech anonymizovat..
číslo jednací
jména všech osob včetně iniciálů
rodná čísla
čísla dokladů
telefonní čísla
podpisy, razítka
registrační značky vozidel
názvy souborů a další metadata (např. elektronické podpisy, bude vysvětleno v technické části níže)

když je to veřejně a k živému případu a nebo jste paranoidní tak navíc..
veškeré datumy*
jména úředníků, včetně celé plochy razítek a podpisů
informace o osobách, včetně pohlaví
informace o počtu osob, včetně policistů, pokud to není důležité ze skutového hlediska
místa, včetně měst (možná vyjma Prahy a některých specifických regionů)
veškeré časové údaje, včetně denní doby
tovární značky vozidel
modely vozidel, včetně motorizace a barvy
celé hlavičky a patičky dokumentů (protože úředník by mohl poznat šablonu dokumentu)
IP zaznamenána

2M

  • hard core 30kmh.cz
  • ****
  • Příspěvků: 3 992
    • Zobrazit profil
Re:[návrh] Návod na anonymizaci dokumentů
« Odpověď #13 kdy: 24 Března 2017, 17:38:25 »

A taky poznámku že anonymizace ano, ale někdy na těch anonymizovaných informacích závisí taktika v řízení.. třebas datum napsat aspoň na měsíc.. je vidět jaká verze zákonů tehdy platila a jak rychle úřad postupuje.. a jaký to je kraj.. je vidět rychlost odvolačky a jaký bude mít přístup..
IP zaznamenána

mikky

  • stálý člen 30kmh.cz
  • *
  • Příspěvků: 282
    • Zobrazit profil
Re:[návrh] Návod na anonymizaci dokumentů
« Odpověď #14 kdy: 27 Března 2017, 16:09:18 »

... někdy na těch anonymizovaných informacích závisí taktika v řízení.. třebas datum napsat aspoň na měsíc.. je vidět jaká verze zákonů tehdy platila ...

To tam řeším, dokonce i trochu šířeji (např. rozhodné datum pro změny místní úpravy).

Citace
a jak rychle úřad postupuje.. a jaký to je kraj.. je vidět rychlost odvolačky a jaký bude mít přístup..
Tohle už neřeším - osobně si myslím, že tohle je spíš bonusová informace a anonymizace tímhle směrem by mohla být v režimu "MAY", nikoliv "MUST".

Podle mě je lepší, když je anonymizace prvotně přísnější a následně mohou být na vyžádání některé informace doplněny, protože doplnit do kuchyně je bezpečnější, než to zpětně odněkud mazat. Všichni přeci dobře víme, že co Internet jednou schvátí, to už nenavrátí :)

Nicméně souhlasím, že ten seznam by se mohl rozdělit na "extrémně paranoidní" a "zdravě paranoidní". Zapracuju. Díky!
IP zaznamenána
Je-li vám 35 a méně, jsme vrstevníci => budeme si tykat. Je-li vám více než 35, jsem pro vás děcko => můžete mi tykat.