Vzkazy administrátorům > Vzkazy uživatelů administrátorům

[návrh] Návod na anonymizaci dokumentů

(1/4) > >>

mikky:
MOD: nechám připíchnuté nahoře, po dokončení umístím a ovedu odkaz na toto téma u varování v záhlaví webu. Dobrá práce, díky. F.

--
Anonymizace nahrávaných dokumentů a případů je nutná zejména u započatých a probíhajících případů.  U těchto případů není žádoucí, aby případný agent - uředník dokázal konkrétní případ identifikovat a přizpůsobovat mu svou úřední taktiku, nebo, u vyšších agentských levelů, k případu rovnou prasit i tady.

Anonymizovat je nutné i v neveřejných sekcích, protože většina informací z nich se nakonec, po vyřešení případu, zveřejní, aby z informací mohli těžit i další nevinné oběti silničního fašismu.

TL;DR: Nejjednodušší řešení pro jednotlivé typy dokumentů:

* Vytištěný dokument nascanujte nebo vyfoťte, uložte jako JPG. Pak postupujte podle bodu Anonymizace JPG
* Elektronický textový dokument (doc, docx, pdf, apod.) vytiskněte a postupujte podle předchozího bodu.
* Elektronický grafický dokument (jpg, png, bmp, scanované pdf, apod.) anonymizujte podle bodu Anonymizace JPG. Pokud nevíte, jak otevřít PDF pro malování, postupujte přiměřeně  podle předchozího bodu.
* Audio a video záznamy sdílejte pouze na požádání některého ze stálých uživatelů, hardcore uživatelů, nebo administrátorů - ti vám zároveň poradí jak moc je případně nutné záznam anonymizovat
Anonymizaci je nutné řešit ve dvou rovinách - faktické a technické.

Faktická rovina anonymizace určuje, jaké informace je bezpodmínečně nutné z dokumentu odstranit. Technická rovina říká, jak na to.

Které údaje anonymizovat?

V každém případě (i u archivních případů a/nebo neveřejných případů) je nutné z dokumentů eliminovat přinejmenším tyto údaje:

* číslo jednací
* jména všech osob včetně iniciálů
* rodná čísla
* čísla dokladů
* telefonní čísla
* podpisy, razítka
* registrační značky vozidel
* názvy souborů a další metadata (např. elektronické podpisy, bude vysvětleno v technické části níže)
Pro veřejně řešené a živé případy (a nebo pokud jste nadstandardně paranoidní) anonymizujte dle vlastního uvážení a okolností případu také:

* veškeré datumy*
* jména úředníků, včetně celé plochy razítek a podpisů
* informace o osobách, včetně pohlaví
* informace o počtu osob, včetně policistů, pokud to není důležité ze skutového hlediska
* místa, včetně měst (možná vyjma Prahy a některých specifických regionů)
* veškeré časové údaje, včetně denní doby
* tovární značky vozidel
* modely vozidel, včetně motorizace a barvy
* celé hlavičky a patičky dokumentů (protože úředník by mohl poznat šablonu dokumentu)
*) U datumů existují výjimky a těmi jsou datumy rozhodné pro posuzování udajného přečinu z hlediska platnosti právní úpravy. Česky řečeno: zákony se v čase mění a je např. rozdíl, jestli se nějaký přestupek stal 31.12.2015 nebo 1.1.2016, protože zrovna tehdy začaly platit nějaké změny1, nebo mohlo dojít ke změně místní úpravy2. Takovýchto "zlomových" datumů je víc a budete na ně v diskusi nejspíše upozorněni. Pokud ale již během "cenzury" o těchto datumech víte, uveďte to relativně, tzn. např. "přestupek se stal před změnou místní úpravy."

Technická rovnia zajišťuje, že k anonymizaci došlo takovým způsobem, že není možné anonymizovaná data rekonstruovat.

Elektronické dokumenty mohou mít obecně dvě podoby - textovou a grafickou ("Wordy" a "Skeny"). Pozor, některé druhy dokumentů mohou obsahovat více "poddokumentů" v tzv. "vrstvách" (typicky PDF). Jak poznat a anonymizovat takový dokument bude popsáno níže. Pro publikování dokumentace tady na fóru osobně doporučuji používat pouze formáty JPG a PDF. Zásadně nedoporučuji používat formáty MS-Word, OO-XML nebo ODF (tedy MS Word a Libre/OpenOffice a jiné "Office" programy), pokud pro to nemáte opravdu dobrý důvod.

Dále budu předpokládat, že budete na fórum dávat pouze PDF a JPG soubory.

Elektronické dokumenty obsahují tzv. metadata. To jsou informace obsažené v samotném souboru, které nejsou součástí obsahu, který vidíme, ale které obsahují informace o souboru a datech v něm obsažených. Například soubory Word, ODF či PDF jsou na sebe schopné v metadatech napráskat takové informace, jako je jméno autora, jména lidí, kteří prováděli změny, datum vytvoření, datum změny, počet změn a v některých případech i historii změn. Obrázky, jako třeba JPG, zase v metadatech obsahují informace o modelu fotoaparátu (nebo telefonu) kterým byly pořízeny, světelné podmínky, jestli byl použit blesk, ale třeba i geografickou polohu místa, odkud byl snímek pořízen.

Metadata jsou překvapivě název souboru - pokud svůj dokument pojmenujete "Jarda Novák - nehoda v Žitné.jpg", říkáte tím celkem dost. Ovšem i takový "MHMP-OD-35512XA.PDF" může nést zajímavé informace. V tomhle případě jde o (zcela smyšlený) způsob pojmenování souborů na Magistrátu hl.m. P., odboru dopravy s číslem jednacím. Úředník na první pohled pozná, jestli jméno souboru odpovídá nějaké šabloně, kterou jeho úřad používá.

Všechna metadata je nutné ze souboru odstranit, nebo je přepsat.

Textová podoba znamená, že soubor obsahuje čitelná textová data, lze v nich vyhledávat, lze z nich text kopírovat (ctrl+c, ctrl+v) a to často i v případech, že text není vidět. Představte si, že byste ve Wordu změnili barvu textu na bílou barvu: sice nebude vidět, ale pořád tam bude a bude možné jej z dokumentu získat jiným způsobem, než čtením. To je naivní (ale ne zas tak neobvyklý) případ nefunkční anonymizace textového dokumentu. Stejného nefunkčního efektu byste dosáhli např. překrytím části textu nějakým obrázkem (třeba černým obdélníkem). Text je nutné z těchto dokumentů skutečně odstranit.

Grafická podoba znamená, že soubor obsahuje pouze obrázková data - např. fotografii nebo scan dokumentu. Grafické dokumenty mohou být součástí jiných dokumentů (PDF, Word), ale mohou to být i samostatné soubory (JPG, PNG, BMP). Způsob anonymizace se v těchto případech liší - u samostatných souborů stačí dotčené pasáže pouze "přebarvit" třeba v Malování a soubor "uložit jako" (vysvětlím proč), u PDF s obrázkem je nutné zajistit, aby se přebarvení anonymizovaných pasáží nedělo v jiné vrstvě, postup je jinak stejný.

Vrstvy mohou být součástí PDF dokumentů. Každá PDF stránka může být složena z více vrstev. Vrstvu si můžete představit jako průhlednou folii, na které je něco napsáno nebo nakresleno. Vezměte více takových folií, dejte je přes sebe a dostanete hotovou stránku tak, jak jí vidíte na monitoru.

Anonymizace PDF

Při anonymizaci PDF je nutné si dát pozor na to, aby anonymizační program jen nevytvořil nad textem novou vrstvu, do které nakreslí černé obdélníčky přes místa, která chcete anonymizovat. Taková anonymizace nefunguje, protože i méně gramotný úředník se dokáže naučit mechanický postup, jak takovou anonymizační vrstvu z PDF souboru odstranit. Je tedy nutné zajistit, aby data z PDF opravdu zmizela a nebyla jen překryta jinou vrstvou. To platí pro textové i grafické PDF. Z textového PDF lze takto "anonymizovaná" data dostat extrémně jednoduše - označit text pod obdélníčkem a ctrl+c, ctrl+v. O žiletku složitější to je u PDF, které obsahují obrázek (typicky scan dokumentu), tam lze v některých PDF prohlížečích kliknout na ten obrázek a opět ho "kopírovat" a "vložit" někam jinam, bez té otravné anonymizační vrstvy. Pozor na to.

Anonymizace JPG

U JPG je situace výrazně jednodušší. JPG neumí vrstvy ani text. Je to jen obyčejný obrázek, ve kterém stačí, např. v Malování, citlivé pasáže prostě překreslit černým obdélníčkem (nedělejte žádné psí kusy jako sprejování, transformace, kostičkování, apod3.) Pak je nutné odstranit metadata. To lze nejjednoduššeji udělat tak, že překreslený anonymizovaný obrázek dáte "Uložit jako", čímž se vytvoří metadata nová, která nebudou obsahovat žádné užitečné informace. Při této příležitosti zároveň můžete obrázek trochu zmenšit, pro scanovaný text stačí bohatě rozlišení okolo 100dpi, což je nějakých 826 pixelů na šířku u A4.

Anonymizace na papíře

Napadlo vás dokument začernit fixou a vyfotit nebo nascanovat? Tak na to hned zase zapomeňte, dokument nascanujte tak jak ho máte a postupujte podle předchozího bodu. Je to bezpečnější. Proč? Zkuste to. Vemte fixu a začerněte na stránce své jméno. Pak si vemte lupu, baterku a prozkoumejte ten flek. Vidíte to? Úředník to vidí taky.

mikky:
času málo, práce moc, ale nezanevřel jsem na vás :)

změny 27.3.2017:

* rozdělen seznam údajů k anonymizaci na MUST a MAY
* opraveno dalších pár překlepů a další mírné učesání
změny 24.3.2017:

* přidána sekce TL;DR
* opraveno pár překlepů a mírně učesáno
změny 13.1.2016:

* přidána poznámka k anonymizaci datumů
* rozšíření teorie
* návod na anonymizaci JPG
* rozepsán návod na anonymizaci PDF (TODO)
* varování k začerňování fixou na papíře
* upozornění na název souboru
Uvítám pomoc s anonymizací PDF - jako IT-degenerovaný odborník nepoužívám zrovna user-friendly metody...

frantisek:
Poznámka. Předpokládám že to autor zapracuje, ale prozatím, velmi stručně řečeno:

* bacha na dokumenty začerněné fixou a potom skenované. Kombinací fotoefektů se lze dobrat původního textu.
* bacha na vrstvy. Pokud něco prekreslujete "v pocitaci", ulozte to tak, aby prekryvajici kosticky byly soucasti dokumentu, odstrante veskere vrstvy!
Idealni metoda pro ty co se nevyznají - dokument oscanovat a v elektronicke podobe zamazat vse co je třeba v nejakem primitivnim "malovani". Před ulozenim zkontrolovat, zda dokument neobsahuje vrstvy, pokud ano, tak sloucit vse do jedne.

Behemot:
Případně ukládat do formátu, který vrstvy neumí, např. JPEG (ne JPEG 2000!).

dj-bobr:
U JPEGu by to chtělo, aby v něm nebyla zapouzdřena data umožňující identifikaci (EXIF). Pokusil jsem se naočkovat kamaráda k vytvoření online anonymizovátka, snad se na to nevykašle :)

Navigace

[0] Seznam témat

[#] Další strana

Přejít na plnou verzi