15 Adatok publikálása, dokumentáció, etika

„FAIR adatok: Findable, Accessible, Interoperable, Reusable”

Az eddigi fejezetekben adatbázisokat építettünk (9), harmonizáltunk (9.6), vizualizáltunk (14). A kutatói ciklus utolsó — és legnagyobb valószínűséggel alulbecsült — szakasza a publikálás és archiválás: hogyan tesszük az adatainkat elérhetővé, újrahasználhatóvá, és a kutatástörténetben hosszú távon is megtalálhatóvá. Ez a fejezet a történeti adatpublikálás gyakorlati munkafolyamatát és etikai kereteit mutatja be.

15.1 Miért publikálni egyáltalán?

A történeti adatbázis publikálása nem luxus, hanem kutatói kötelezettség több ok miatt.

Tudományos reprodukálhatóság. Egy tanulmány állításai csak akkor ellenőrizhetők, ha az alapul szolgáló adat is hozzáférhető. Az 10 fejezet 1870 fős kádergárda-elemzése, vagy az 8 egyházmegyei ösztöndíjasok vizsgálata más kutatóknak csak akkor lesz kiindulópont, ha az adathalmaz is a kezükbe kerül — különben mindenkinek újra kellene csinálnia az adatgyűjtést.

Közpénzből finanszírozott kutatás. Ha a projekt NKFIH, OTKA, H2020, Horizon Europe vagy más közpénz-alapú támogatásból készül, a támogatási szerződés szinte mindig előírja a nyílt adatpublikálást — Horizon Europe esetén a FAIR alapelvek szerint, Data Management Plan (DMP) mellékelésével.

Tudománytörténeti értékőrzés. Egy gondosan felépített prozopográfiai adatbázis 20–30 év múlva is forrásértékű marad; egy tanulmány melléklet nélkül publikált változata ellenben „halott”. Az ElitData (9.8) vagy más nagy közgyűjteményi adatbázisok hosszú távú sikere azon múlik, hogy dokumentált, archivált, citálható formában élnek-e tovább.

Közösségi építkezés. A nyíltan közzétett adatokra mások ráépítenek: szélesítik a korpuszt, más kérdéseket tesznek fel, összekötik más adatbázisokkal. Ez a tudományterület egyik legfontosabb mozgatórugója.

15.2 FAIR — a nyílt adatpublikálás négy alapelve

A FAIR a 2016-ban publikált „FAIR Guiding Principles for scientific data management and stewardship” nevű dokumentum négy betűjét rövidíti. Ma az EU és a legtöbb nagy finanszírozó ezekre hivatkozik.

Betű Mit jelent? Történeti adatbázisra értve
F — Findable Megtalálható Tartós azonosító (DOI), részletes metaadatok, indexált repozitórium
A — Accessible Hozzáférhető Nyílt URL, szabványos protokoll (HTTP/HTTPS), hitelesítés ha kell
I — Interoperable Együttműködő Nyílt fájlformátum (CSV, JSON, TEI-XML, nem proprietary Excel-export), szabványos vokabulárium
R — Reusable Újrahasználható Egyértelmű licenc, részletes dokumentáció, származási (provenance) információ

A FAIR nem egyenlő a „nyílt hozzáférés”-sel — érzékeny adat is lehet FAIR, csak a hozzáférés feltételhez kötött. A prozopográfia kortárs változatában (pl. élő személyek karrieradatai) tipikus, hogy az adat Findable és Interoperable, de az Accessibility kérelemre történik, Reusability pedig etikai és adatvédelmi vállaláshoz kötött.

15.3 Hol publikáljunk? — repozitóriumok

A választás részben a diszciplínától, részben a finanszírozó előírásaitól függ. A történeti adatbázisokra leggyakrabban használt repozitóriumok:

Repozitórium Profil Miért érdemes?
Zenodo általános, CERN-üzemeltetés ingyenes, 50 GB/dataset, DOI, verziókezelés, GitHub-integráció
Figshare általános, kommersz felhasználóbarát UI, hosszú távú archiválás
OSF (Open Science Framework) projekt-fókuszú egész kutatási projektet kezelhetünk, preregisztráció
Harvard Dataverse társadalomtudomány kiforrott metaadat-szabványok (DDI), intézményi hálózat
CLARIN nyelvtechnológiai, humán TEI-XML, korpusz-szabványok, hosszú távú megőrzés
Hungaricana magyar kultúrtörténet magyar közgyűjteményi hálózat, elsősorban forrásközlés
GitHub csak verziókezelés nem hivatalos adatrepozitórium, DOI-hoz Zenodo-val kell kötni

Ökölszabály: kisebb-közepes prozopográfiai vagy forrásközlés jellegű adatbázishoz a Zenodo a legegyszerűbb és legelterjedtebb választás. Nyelvtechnológiai / TEI-XML korpuszhoz (mint a 13.2 adatai) CLARIN. Preregisztrált kutatáshoz OSF.

15.3.1 Munkamenet Zenodón: egy tipikus publikálás

  1. Regisztráció a zenodo.org oldalon (ORCID-dal javasolt, mert így az adat automatikusan a kutatói profilodhoz rendelődik).
  2. Upload → fájlok feltöltése (CSV, xlsx, JSON, PDF-dokumentáció, README).
  3. Metaadatok kitöltése: szerzők ORCID-del, cím, leírás, kulcsszavak, publikálási dátum, nyelvi kódok, kapcsolódó publikációk DOI-jai.
  4. Licenc választása (ld. 15.6 szakasz).
  5. Publish → a Zenodo kiad egy állandó DOI-t (10.5281/zenodo.XXXXXXX), amelyre a továbbiakban hivatkozni lehet.
  6. A DOI-t be kell illeszteni a tanulmányba (pl. lábjegyzetben vagy a „Data availability statement”-ben).

A Zenodo támogatja a verziózást: ha később javítunk vagy bővítünk az adatbázison, új verzió hozható létre, amely saját DOI-t kap, de egy közös „concept DOI”-hoz tartozik — így az olvasó mindig a legutolsó verzióra mutathat.

15.4 README mint műfaj — a dokumentáció standardja

A README egy egyszerű szöveges fájl (README.md vagy README.txt), amelyet a repozitórium gyökerébe helyezünk. Nélküle a legszebb adat is használhatatlan, mert az olvasó nem tudja, mit jelentenek az oszlopok, hogyan gyűjtötték őket, és mit szabad vele csinálni.

15.4.1 Egy jól felépített README

# [A projekt/adatbázis címe]

## Rövid leírás
Egy 3–5 mondatos összefoglaló: mit tartalmaz az adat, milyen kérdésre
készült, milyen korszakra és földrajzi területre vonatkozik.

## Szerzők és hozzájárulás
Név · intézmény · ORCID · szerep (adatgyűjtés / tisztítás / elemzés / dokumentáció)

## Az adatbázis szerkezete
Fájlok listája, minden fájlhoz rövid magyarázat:
  - szemelyek.csv      — 1 870 rekord, 10 oszlop
  - foglalkozasok.csv  — ~3 956 bejegyzés, 4 oszlop
  - README.md          — ez a dokumentum
  - metadata.xml       — DDI-kompatibilis metaadat

## Oszlopok (kódkönyv / data dictionary)
| Oszlop          | Típus  | Értékek           | Magyarázat                         |
|-----------------|--------|-------------------|-------------------------------------|
| szemely_id      | int    | 1–1870            | egyedi azonosító                    |
| nev             | string | szabadszöveg      | „Vezetéknév Keresztnév" formátum    |
| szul_ev         | int    | 1880–1935         | születési év, NULL = ismeretlen     |
| vallas          | string | rk, ref, ev, izr  | kódtábla a vallasok.csv-ben         |

## Források
Mely elsődleges és másodlagos forrásokból származik az adat;
hivatkozásokkal.

## Adatgyűjtés módszertana
Hogyan válogattuk ki a személyeket, milyen elvek szerint.
Mit csináltunk a bizonytalan adatokkal.

## Harmonizálási döntések
A nyers értékek tisztításának elvei (pl. a \@ref(prozo-adattisztitas-elitdata) fejezet
logikája szerint: az eredeti érték megmaradt az eredeti oszlopban, a kanonikus
forma külön oszlopba került).

## Ismert hiányosságok és bizonytalanságok
Mit NEM tudunk az adatról; hol vannak szisztematikus torzítások.

## Verzióhistória
v1.0 (2024-05) — első publikáció
v1.1 (2025-01) — foglalkozási harmonizáció finomítása

## Licenc
CC-BY 4.0 (ld. LICENSE fájl)

## Citálás
Preferált citálási forma:
[Szerzők]. (2024). [Cím]. [Repozitórium], DOI: 10.5281/zenodo.XXXXXXX

## Kapcsolat
[Szerző] · [Intézmény] · [email]

Ez a sablon az ökölszabály minimuma — egy tanulmány mellékleteként 500–2000 szó hosszú README-t érdemes készíteni, attól függően, mekkora az adatbázis és mennyi a harmonizálási döntés.

15.4.2 Gyakori hibák a README-ben

  • „Önmagáért beszélő” oszlopnevek, amelyek valójában nem beszélnek — a status vagy tipus oszlop kódrendszere nélkül az adat használhatatlan.
  • A harmonizálási döntések dokumentálásának hiánya — 5 év múlva a kutató maga sem fogja tudni, miért került a „R.k.” a „Római katolikus” kategóriába.
  • A „hiányzik” kódolásának elmulasztása — üres cella, „n.a.”, NULL, - vagy ? — legalább tudni kell, melyik volt az.
  • A verzióhistória hiánya — ha a repozitóriumban több verzió is van, és egyik sem tudja, mi változott, akkor a többi kutató sem tudja.

15.5 Metaadatok és szabványok

A README emberi olvasóra szabott dokumentum. A gépi feldolgozáshoz strukturált metaadat is kell, amelyet a repozitórium a háttérben tárol és szolgáltat.

Dublin Core — minimum 15 mező (title, creator, subject, description, publisher, date, type, format, identifier, language, rights, coverage stb.). Minden komoly repozitórium a bemenetét ezekre képezi le. Általános humán adatokhoz elegendő.

DDI (Data Documentation Initiative) — a társadalomtudományi survey- és longitudinális adathalmazok szabványa. A Harvard Dataverse és az ICPSR-alapú repozitóriumok ebben gondolkodnak. Prozopográfiai adatbázis-ra is jól illeszkedik.

TEI P5 — kritikai forráskiadások, szövegkorpuszok. A 13.2 fejezet anyaga ebben publikálható; a TEI header maga egy gazdag metaadatstruktúra.

schema.org / DataCite — weben publikált strukturált adathoz; a DataCite a DOI-kiadásnál elvárt séma.

A gyakorlatban nem kell kézzel XML-t írni: a repozitóriumok (Zenodo, Dataverse) űrlapon kérdezik be a mezőket, és háttérben generálják a megfelelő szabvány szerinti metaadat-fájlt.

15.6 Licencek — ki mit tehet az adatommal?

A licenc az, amely jogilag rendezi az újrahasználást. A legismertebb választások történeti adatokra:

Licenc Feltétel Mikor érdemes?
CC0 1.0 (Public Domain) Semmi Ha az adat közkincsből származik és nincs szerzői jogi érdekünk
CC-BY 4.0 Attribúció kötelező Akadémiai publikáláshoz a leggyakoribb választás
CC-BY-SA 4.0 Attribúció + azonos licenc Ha biztosítani akarjuk, hogy a ráépített adatok is nyíltak maradjanak
CC-BY-NC 4.0 Attribúció + nem-kereskedelmi Ha óvatosak vagyunk kommercializálástól, de sok nyílt szótár ezt nem fogadja el
ODbL Attribúció + SA + „open database” specifikus Tiszta adatbázis-licenc (az OpenStreetMap is ezt használja)

Ökölszabály: ha nincs különösebb okunk korlátozni, a CC-BY 4.0 a „default”. Az NC (non-commercial) és az ND (no-derivatives) akadémiai adat esetén inkább káros, mint hasznos — megakadályozza, hogy más tankönyvek, aggregátor-projektek, publikációs platformok használják.

Fontos megkülönböztetés: a szoftverre (pl. a torteneti_adatbazis.html kódja) más licencek valók — MIT, Apache 2.0, GPL —; Creative Commons licencek adatra és szövegre valók, nem kódra.

15.7 Adatvédelem és GDPR a történeti kutatásban

A GDPR (az EU általános adatvédelmi rendelete) a természetes személyek személyes adataira vonatkozik. Történeti kutatásban két nagy esetet kell megkülönböztetni.

15.7.1 Elhunyt személyek

A GDPR kifejezetten kimondja: nem terjed ki elhunyt személyek adataira (Recital 27). Tehát egy 19. századi vagy korábbi prozopográfia (pl. az 11 MTA-adatsora, az 9.8 Horthy-kori elitje) alapvetően GDPR-mentes. Alapvetően, mert a tagállami jog ezt kiegészítheti:

  • Magyarországon az Infotv. külön nem szabályozza az elhunytak adatait, de a kegyeleti jog (Ptk.) szerint a hozzátartozók a szeméyhez fűződő jog sérelme esetén fellebbezhetnek. Ez különösen érzékeny adatokra (szexuális orientáció, súlyos betegség, bűncselekmény) vonatkozik.
  • Egyes tagállamokban (pl. Dánia, Olaszország) a GDPR kifejezetten kiterjeszthető elhunytakra is — nemzetközi publikálásnál ezt mérlegelni kell.

15.7.2 Élő személyek

A kortárs (pl. 1990–2020-as) prozopográfia alapesetben a GDPR hatálya alá esik. A két tipikus kutatói jogalap:

Tudományos kutatás (GDPR 89. cikk): tudományos, statisztikai, levéltári célú feldolgozás megengedett megfelelő biztosítékok mellett. Ezek közé tartozik: adatminimalizálás, álnevesítés, hozzáférés-szabályozás, explicit etikai engedély (intézményi kutatóbizottság).

Hozzájárulás (GDPR 6. cikk (1) a)): a személy írásos, tájékozott hozzájárulása. Prozopográfiai adatokra ritkán praktikus (pl. 500 fős mintánál), de interjú- vagy életútkutatásnál standard.

Gyakorlati tanács: kortárs adaton soha ne publikáljunk név + cím + születési dátum kombinációt nyílt adathalmazként. Az ilyen adat pseudonimizálva (ID-vel, a nevek külön, hozzáférés-szabályozott táblában) publikálandó.

15.7.3 Különleges (szenzitív) kategóriák

A GDPR 9. cikke szerint szigorúbb védelem vonatkozik az alábbi adatokra: faji/etnikai hovatartozás, politikai vélemény, vallási/filozófiai meggyőződés, szakszervezeti tagság, genetikai/biometrikus adat, egészség, szexuális élet/orientáció.

Ezek közül történeti kutatásban a vallási hovatartozás és a politikai vélemény/párttagság kerül elő rendszeresen — az MTA felekezeti adatai, az MDP pártbeli pozíciók, az egyházmegyei ösztöndíjasok felekezeti adatai mind ebbe esnek. Elhunyt személyeknél nem GDPR-probléma, élőknél igen, és itt még az intézményi etikai engedély is szükséges lehet.

15.8 Kutatói etika történeti adatokon

Az adatvédelmi joggal nem fed le mindent, amit a történész a publikáláskor mérlegelni szokott.

Kegyeleti érzékenység. Egy elhunyt személy családjának vagy leszármazottainak fájhat a részletes, negatív tónusú karrierfeltárás, még ha a kutatás jogilag teljesen rendben is van. Ez különösen érzékeny korokra (Horthy-, Rákosi-, Kádár-rendszer) vonatkozik. Az 10 fejezet MDP-adatbázisa esetében is: a kádergárda tagjai ma többnyire elhunytak, de leszármazottaik élnek, és a párttagság / besúgói múlt feltárása komoly kegyeleti következménnyel járhat.

Archivális szerződések. Ha levéltári anyagból gyűjtöttünk adatot, az intézmény (MNL, egyházi levéltárak, MTA KK) szerződése rendszerint tartalmaz egy felhasználási klauzulát — pl. a digitalizált kép nem publikálható, csak a belőle kinyert adat. Ezt pontosan be kell tartani.

Élő kutatói közösség. Ha egy témán több kutató dolgozik párhuzamosan, a korai publikálás kisajátíthatja a kutatási területet. Etikus gyakorlat: a korai adat megosztása a közösséggel, amikor még a részletes elemzés folyik. Ez a pre-registration és a „living database” gyakorlata.

Attribúció. Ha az adat egy részét más kutató gyűjtötte vagy korábbi publikációból vettük át, névvel meg kell említeni — akkor is, ha formális engedély nem volt kötelező.

15.9 Hosszú távú megőrzés és archiválás

A publikálás nem azonos az archiválással. Egy ingyenes kommerciális szolgáltatás (Dropbox, Google Drive, egy egyetemi szerveroldal) 10 év múlva lehet, hogy nem létezik. Mit jelent a hosszú távú megőrzés a gyakorlatban?

Intézményi repozitórium. Az egyetemek (ELTE EDIT, MTA REAL) saját repozitóriumba gyűjtik a disszertációkat és a mellékletüket — ezek megőrzését az intézmény garantálja.

OAIS-szabványú letéti szolgáltatás (pl. Zenodo, a CERN adatkezelésével) — itt a hosszú távú megőrzés formális ígéret (Zenodo: „legalább a CERN élettartamára”).

Formátum-függetlenség. A .docx vagy .xlsx 20 év múlva nehezen olvasható lehet; a .csv, .xml, .json, .txt gyakorlatilag örök. A Word-fájl mellett mindig legyen egy CSV vagy TEI-XML változat is.

Több helyen. Egy repozitórium és egy GitHub, vagy egy intézményi és egy kereskedelmi. A LOCKSS elv: Lots of Copies Keep Stuff Safe.

15.10 Összefoglalás: egy prozopográfiai projekt publikálási kontrollistája

Egy tanulmány mellékleteként kiadandó adatbázis publikálási lépései:

Lépés Kérdés
1. Nyers + harmonizált adat Mindkét verzió elérhető? Egyértelmű, melyik melyik?
2. README Minden oszlopnak van-e magyarázata? A harmonizálási döntések dokumentáltak-e?
3. Metaadat Szerzők, dátum, kulcsszavak, kapcsolódó publikációk DOI-jai kitöltve?
4. Licenc A megfelelő Creative Commons (vagy ODbL) licenc választva? Az adatra, a kódra külön?
5. Forrásattribúció Minden forráshivatkozás pontos? A korábbi gyűjtők/kutatók említve?
6. Adatvédelem Van-e élő személy az adatban? Ha igen, pszeudonimizálva vagy hozzáférés-szabályozva?
7. Repozitórium Zenodo / Dataverse / CLARIN / Hungaricana kiválasztva, megfelel-e a finanszírozónak?
8. DOI Kiadott DOI a tanulmányba beillesztve?
9. Verziózás Ha később változni fog, verziózási terv megvan?
10. Személyes archiválás A saját gépen/intézményi felhőben is őrzött biztonsági másolat?

A lista végigmenve néhány óra a 1–2 napos munkát jelent — de a kutatás társadalmi értékét sokszorosára növeli.

15.11 További olvasnivaló

  • FAIR Principles: Wilkinson et al. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3:160018. https://doi.org/10.1038/sdata.2016.18
  • Zenodo Help: https://help.zenodo.org/ — gyakorlati útmutató a feltöltéstől a DOI-kiadásig.
  • Data Management Plan (DMP) tool: https://dmptool.org/ — a Horizon Europe-kompatibilis DMP sablonjai.
  • GDPR és kutatás: EDPB (Európai Adatvédelmi Testület) Guidelines 03/2020 on the processing of data concerning health for the purpose of scientific research in the context of the COVID-19 outbreak — a tudományos kutatás jogalapjait általában is részletezi.
  • Creative Commons licencválasztó: https://chooser-beta.creativecommons.org/ — interaktív eszköz, amely a céljaink alapján ajánl licencet.
  • Tim Hitchcock & William J. Turkel: The Old Bailey Proceedings Online — klasszikus tanulmány a történeti adatbázis-publikálás módszertanáról.
  • Open Science Framework: https://osf.io/ — preregisztráció és projekt-menedzsment.