30kmhcz

Vzkazy administrátorům => Vzkazy uživatelů administrátorům => Téma založeno: mikky 16 Října 2015, 15:07:23

Název: [návrh] Návod na anonymizaci dokumentů
Přispěvatel: mikky 16 Října 2015, 15:07:23
MOD: nechám připíchnuté nahoře, po dokončení umístím a ovedu odkaz na toto téma u varování v záhlaví webu. Dobrá práce, díky. F.

--
Anonymizace nahrávaných dokumentů a případů je nutná zejména u započatých a probíhajících případů.  U těchto případů není žádoucí, aby případný agent - uředník dokázal konkrétní případ identifikovat a přizpůsobovat mu svou úřední taktiku, nebo, u vyšších agentských levelů, k případu rovnou prasit i tady.

Anonymizovat je nutné i v neveřejných sekcích, protože většina informací z nich se nakonec, po vyřešení případu, zveřejní, aby z informací mohli těžit i další nevinné oběti silničního fašismu.

TL;DR: Nejjednodušší řešení pro jednotlivé typy dokumentů:

Anonymizaci je nutné řešit ve dvou rovinách - faktické a technické.

Faktická rovina anonymizace určuje, jaké informace je bezpodmínečně nutné z dokumentu odstranit. Technická rovina říká, jak na to.

Které údaje anonymizovat?

V každém případě (i u archivních případů a/nebo neveřejných případů) je nutné z dokumentů eliminovat přinejmenším tyto údaje:

Pro veřejně řešené a živé případy (a nebo pokud jste nadstandardně paranoidní) anonymizujte dle vlastního uvážení a okolností případu také:

*) U datumů existují výjimky a těmi jsou datumy rozhodné pro posuzování udajného přečinu z hlediska platnosti právní úpravy. Česky řečeno: zákony se v čase mění a je např. rozdíl, jestli se nějaký přestupek stal 31.12.2015 nebo 1.1.2016, protože zrovna tehdy začaly platit nějaké změny1 (http://www.auto.cz/novinky-pro-ridice-2016-prichazeji-velke-zmeny-91961), nebo mohlo dojít ke změně místní úpravy2 (http://praha.idnes.cz/ridici-jezdi-na-magistrale-stale-padesat-fdq-/praha-zpravy.aspx?c=A160106_2216382_praha-zpravy_nub). Takovýchto "zlomových" datumů je víc a budete na ně v diskusi nejspíše upozorněni. Pokud ale již během "cenzury" o těchto datumech víte, uveďte to relativně, tzn. např. "přestupek se stal před změnou místní úpravy."

Technická rovnia zajišťuje, že k anonymizaci došlo takovým způsobem, že není možné anonymizovaná data rekonstruovat.

Elektronické dokumenty mohou mít obecně dvě podoby - textovou a grafickou ("Wordy" a "Skeny"). Pozor, některé druhy dokumentů mohou obsahovat více "poddokumentů" v tzv. "vrstvách" (typicky PDF). Jak poznat a anonymizovat takový dokument bude popsáno níže. Pro publikování dokumentace tady na fóru osobně doporučuji používat pouze formáty JPG a PDF. Zásadně nedoporučuji používat formáty MS-Word, OO-XML nebo ODF (tedy MS Word a Libre/OpenOffice a jiné "Office" programy), pokud pro to nemáte opravdu dobrý důvod.

Dále budu předpokládat, že budete na fórum dávat pouze PDF a JPG soubory.

Elektronické dokumenty obsahují tzv. metadata. To jsou informace obsažené v samotném souboru, které nejsou součástí obsahu, který vidíme, ale které obsahují informace o souboru a datech v něm obsažených. Například soubory Word, ODF či PDF jsou na sebe schopné v metadatech napráskat takové informace, jako je jméno autora, jména lidí, kteří prováděli změny, datum vytvoření, datum změny, počet změn a v některých případech i historii změn. Obrázky, jako třeba JPG, zase v metadatech obsahují informace o modelu fotoaparátu (nebo telefonu) kterým byly pořízeny, světelné podmínky, jestli byl použit blesk, ale třeba i geografickou polohu místa, odkud byl snímek pořízen.

Metadata jsou překvapivě název souboru - pokud svůj dokument pojmenujete "Jarda Novák - nehoda v Žitné.jpg", říkáte tím celkem dost. Ovšem i takový "MHMP-OD-35512XA.PDF" může nést zajímavé informace. V tomhle případě jde o (zcela smyšlený) způsob pojmenování souborů na Magistrátu hl.m. P., odboru dopravy s číslem jednacím. Úředník na první pohled pozná, jestli jméno souboru odpovídá nějaké šabloně, kterou jeho úřad používá.

Všechna metadata je nutné ze souboru odstranit, nebo je přepsat.

Textová podoba znamená, že soubor obsahuje čitelná textová data, lze v nich vyhledávat, lze z nich text kopírovat (ctrl+c, ctrl+v) a to často i v případech, že text není vidět. Představte si, že byste ve Wordu změnili barvu textu na bílou barvu: sice nebude vidět, ale pořád tam bude a bude možné jej z dokumentu získat jiným způsobem, než čtením. To je naivní (ale ne zas tak neobvyklý) případ nefunkční anonymizace textového dokumentu. Stejného nefunkčního efektu byste dosáhli např. překrytím části textu nějakým obrázkem (třeba černým obdélníkem). Text je nutné z těchto dokumentů skutečně odstranit.

Grafická podoba znamená, že soubor obsahuje pouze obrázková data - např. fotografii nebo scan dokumentu. Grafické dokumenty mohou být součástí jiných dokumentů (PDF, Word), ale mohou to být i samostatné soubory (JPG, PNG, BMP). Způsob anonymizace se v těchto případech liší - u samostatných souborů stačí dotčené pasáže pouze "přebarvit" třeba v Malování a soubor "uložit jako" (vysvětlím proč), u PDF s obrázkem je nutné zajistit, aby se přebarvení anonymizovaných pasáží nedělo v jiné vrstvě, postup je jinak stejný.

Vrstvy mohou být součástí PDF dokumentů. Každá PDF stránka může být složena z více vrstev. Vrstvu si můžete představit jako průhlednou folii, na které je něco napsáno nebo nakresleno. Vezměte více takových folií, dejte je přes sebe a dostanete hotovou stránku tak, jak jí vidíte na monitoru.

Anonymizace PDF

Při anonymizaci PDF je nutné si dát pozor na to, aby anonymizační program jen nevytvořil nad textem novou vrstvu, do které nakreslí černé obdélníčky přes místa, která chcete anonymizovat. Taková anonymizace nefunguje, protože i méně gramotný úředník se dokáže naučit mechanický postup, jak takovou anonymizační vrstvu z PDF souboru odstranit. Je tedy nutné zajistit, aby data z PDF opravdu zmizela a nebyla jen překryta jinou vrstvou. To platí pro textové i grafické PDF. Z textového PDF lze takto "anonymizovaná" data dostat extrémně jednoduše - označit text pod obdélníčkem a ctrl+c, ctrl+v. O žiletku složitější to je u PDF, které obsahují obrázek (typicky scan dokumentu), tam lze v některých PDF prohlížečích kliknout na ten obrázek a opět ho "kopírovat" a "vložit" někam jinam, bez té otravné anonymizační vrstvy. Pozor na to.

Anonymizace JPG

U JPG je situace výrazně jednodušší. JPG neumí vrstvy ani text. Je to jen obyčejný obrázek, ve kterém stačí, např. v Malování, citlivé pasáže prostě překreslit černým obdélníčkem (nedělejte žádné psí kusy jako sprejování, transformace, kostičkování, apod3 (http://thelede.blogs.nytimes.com/2007/10/08/interpol-untwirls-a-suspected-pedophile/).) Pak je nutné odstranit metadata. To lze nejjednoduššeji udělat tak, že překreslený anonymizovaný obrázek dáte "Uložit jako", čímž se vytvoří metadata nová, která nebudou obsahovat žádné užitečné informace. Při této příležitosti zároveň můžete obrázek trochu zmenšit, pro scanovaný text stačí bohatě rozlišení okolo 100dpi, což je nějakých 826 pixelů na šířku u A4.

Anonymizace na papíře

Napadlo vás dokument začernit fixou a vyfotit nebo nascanovat? Tak na to hned zase zapomeňte, dokument nascanujte tak jak ho máte a postupujte podle předchozího bodu. Je to bezpečnější. Proč? Zkuste to. Vemte fixu a začerněte na stránce své jméno. Pak si vemte lupu, baterku a prozkoumejte ten flek. Vidíte to? Úředník to vidí taky.

Název: Re:[návrh] Návod na anonymizaci dokumentů
Přispěvatel: mikky 16 Října 2015, 15:07:40
času málo, práce moc, ale nezanevřel jsem na vás :)

změny 27.3.2017:

změny 24.3.2017:

změny 13.1.2016:

Uvítám pomoc s anonymizací PDF - jako IT-degenerovaný odborník nepoužívám zrovna user-friendly metody...
Název: Re:[návrh] Návod na anonymizaci dokumentů
Přispěvatel: frantisek 17 Října 2015, 08:45:25
Poznámka. Předpokládám že to autor zapracuje, ale prozatím, velmi stručně řečeno:

Idealni metoda pro ty co se nevyznají - dokument oscanovat a v elektronicke podobe zamazat vse co je třeba v nejakem primitivnim "malovani". Před ulozenim zkontrolovat, zda dokument neobsahuje vrstvy, pokud ano, tak sloucit vse do jedne.
Název: Re:[návrh] Návod na anonymizaci dokumentů
Přispěvatel: Behemot 19 Října 2015, 00:37:31
Případně ukládat do formátu, který vrstvy neumí, např. JPEG (ne JPEG 2000!).
Název: Re:[návrh] Návod na anonymizaci dokumentů
Přispěvatel: dj-bobr 19 Října 2015, 10:21:51
U JPEGu by to chtělo, aby v něm nebyla zapouzdřena data umožňující identifikaci (EXIF). Pokusil jsem se naočkovat kamaráda k vytvoření online anonymizovátka, snad se na to nevykašle :)
Název: Re:[návrh] Návod na anonymizaci dokumentů
Přispěvatel: k17 21 Října 2015, 23:21:35
Re: EXIF
není potřeba čekat a doufat v kamaráda, každý si může EXIF metadata zkontrolovat a upravit sám například pomocí nástroje "exiftool"
http://www.sno.phy.queensu.ca/~phil/exiftool/
Licence: free software

příklad 1: vypiš metadata
exiftool.exe obrazek.png

File Creation Date/Time         : 2015:10:10 10:10:10+10:00
Creator                         : Otto Wichterle
Creator Tool                    : PDFCreator Version 1.7.3
Make                            : Apple
Camera Model Name               : iPhone 5
GPS Altitude                    : 200.2 m Above Sea Level
GPS Date/Time                   : 2015:10:10 10:10:10Z
GPS Latitude                    : 40 deg 40' 40.40" N
GPS Longitude                   : 20 deg 20' 20.20" E
GPS Position                    : 40 deg 40' 40.40" N, 20 deg 20' 20.20" E


příklad 2: vypiš pouze metadatum "creator"
exiftool.exe -creator "obrazek.png"

Creator                         : Otto Wichterle

příklad 3: nastavení hodnoty metadata creator
exiftool.exe -creator="nova hodnota" obrazek.PNG

příklad 4: smazání metadata Creator
exiftool.exe -creator= obrazek.PNG

Pozn.:
Metadata se zaznamenávají nejen k obrázkům JPG, PNG apod. ale taky k videu.
Není dobré všechny metadata mazat, jsou tam užitečné informace důležité pro další zpracování (pro zobrazení, konverzi apod.).
V příkladu 1 je upravený a zkrácený výpis pro náhodně vybraný obrázek stažený z tohoto webu. Takže ti co mají smartphone s GPS a ještě propojený s účtem na google by se měli mít na pozoru.
Název: Re:[návrh] Návod na anonymizaci dokumentů
Přispěvatel: vava 22 Října 2015, 06:09:49
Re:exiftool
Pro smrtelníky doporučuji toto rozšíření (http://u88.n24.queensu.ca/~bogdan/) nástroje exiftool. Obsahuje totiž opravdové uživatelské rozhraní.
Název: Re:[návrh] Návod na anonymizaci dokumentů
Přispěvatel: Behemot 22 Října 2015, 11:25:49
Si už můžete rovnou pořídit XnView, ve kterým se to dá i otáčet, ořezávat od černých okrajů, mazat a ukládat úplně bez EXIF dat.
Název: Re:[návrh] Návod na anonymizaci dokumentů
Přispěvatel: job999 02 Prosince 2015, 20:20:07
Dalším krokem může být používání starého grafického software, Třeba jako tenhle původní Paint shop pro 3.12 (http://aliens.humlak.cz/aliens/aliens_papirove_modely/about/process/paintshop3.12.exe) z roku 1995. Funguje nádherně (a nezná vrstvy ani průledný pngčka.)
(Jeto samorozbalovací EXE archiv z RARu a trial verze programu  je nějakým způsobem deaktivovaná). Řekl bych že je o dost lepší než malování. Stačí rozbalit archiv a začít používat....bez instalace.
Název: Re:[návrh] Návod na anonymizaci dokumentů
Přispěvatel: mikky 13 Ledna 2016, 11:10:18
Update, viz changelog. EXIF imho nejlíp vyřešit přes Malováni a uložit jako. Co vim, tak Malování ani neumí JP2, takže problém s vrstvama padá.

Uvítám pomoc s návodem na anonymizaci PDF (především odstranění metadat).

thx.

-m.
Název: Re:[návrh] Návod na anonymizaci dokumentů
Přispěvatel: am6 05 Dubna 2016, 16:26:38
A co EXIF odstřihnout přímo zde na serveru při uploadu?
Název: Re:[návrh] Návod na anonymizaci dokumentů
Přispěvatel: mikky 24 Března 2017, 16:29:36
Po roce zase menší úprava, osobně už ten návod považuju za použitelnej a zveřejnitelnej :)

Připomínky samozřejmě vítány.

 -m.
Název: Re:[návrh] Návod na anonymizaci dokumentů
Přispěvatel: 2M 24 Března 2017, 17:20:21
Možná přidat upozornění že i věci v neveřejné sekci se mají anonymizovat protože budou po ukončení zveřejněné..

A rozdělit to na živý a veřejný případ a skončený a nebo neveřejný případ..
můj názor jak ten seznam rozdělit:

u všech anonymizovat..
číslo jednací
jména všech osob včetně iniciálů
rodná čísla
čísla dokladů
telefonní čísla
podpisy, razítka
registrační značky vozidel
názvy souborů a další metadata (např. elektronické podpisy, bude vysvětleno v technické části níže)

když je to veřejně a k živému případu a nebo jste paranoidní tak navíc..
veškeré datumy*
jména úředníků, včetně celé plochy razítek a podpisů
informace o osobách, včetně pohlaví
informace o počtu osob, včetně policistů, pokud to není důležité ze skutového hlediska
místa, včetně měst (možná vyjma Prahy a některých specifických regionů)
veškeré časové údaje, včetně denní doby
tovární značky vozidel
modely vozidel, včetně motorizace a barvy
celé hlavičky a patičky dokumentů (protože úředník by mohl poznat šablonu dokumentu)
Název: Re:[návrh] Návod na anonymizaci dokumentů
Přispěvatel: 2M 24 Března 2017, 17:38:25
A taky poznámku že anonymizace ano, ale někdy na těch anonymizovaných informacích závisí taktika v řízení.. třebas datum napsat aspoň na měsíc.. je vidět jaká verze zákonů tehdy platila a jak rychle úřad postupuje.. a jaký to je kraj.. je vidět rychlost odvolačky a jaký bude mít přístup..
Název: Re:[návrh] Návod na anonymizaci dokumentů
Přispěvatel: mikky 27 Března 2017, 16:09:18
... někdy na těch anonymizovaných informacích závisí taktika v řízení.. třebas datum napsat aspoň na měsíc.. je vidět jaká verze zákonů tehdy platila ...

To tam řeším, dokonce i trochu šířeji (např. rozhodné datum pro změny místní úpravy).

Citace
a jak rychle úřad postupuje.. a jaký to je kraj.. je vidět rychlost odvolačky a jaký bude mít přístup..
Tohle už neřeším - osobně si myslím, že tohle je spíš bonusová informace a anonymizace tímhle směrem by mohla být v režimu "MAY", nikoliv "MUST".

Podle mě je lepší, když je anonymizace prvotně přísnější a následně mohou být na vyžádání některé informace doplněny, protože doplnit do kuchyně je bezpečnější, než to zpětně odněkud mazat. Všichni přeci dobře víme, že co Internet jednou schvátí, to už nenavrátí :)

Nicméně souhlasím, že ten seznam by se mohl rozdělit na "extrémně paranoidní" a "zdravě paranoidní". Zapracuju. Díky!
Název: Re:[návrh] Návod na anonymizaci dokumentů
Přispěvatel: j0hn 08 Února 2018, 21:00:11
Není už čas tenhle návod přidat do upozornění o anonymizaci? Možná se tam dá doladit ještě pár detailů, ale nováčkům by to hodně pomohlo.