11 Saját prozopográfiai eszköz — egyetlen böngészőablakban

Az előző két fejezetben (9, 10) egy nagyobb kutatócsoport által épített, szerveroldali relációs rendszert (ElitData / Supabase), illetve egy 1870 fős párttörténeti korpuszt láttunk. Ebben a fejezetben ennek a logikának a minimalista, egy kutatóra méretezett változatát mutatjuk be: egy egyetlen HTML-fájlba zárt prozopográfiai eszközt, amelyet doktoranduszként, szakdolgozóként vagy kutatás előkészítő fázisában is érdemes kipróbálni.

11.1 Miért egy kisebb, saját eszköz?

Az ElitData vagy az MDP hatásköri lista elemzése csoportmunka és hosszú évek befektetése: szerver, relációs séma, verziókezelt szkriptek, webes frontend. Egy egyéni kutató — különösen a kutatás felderítő szakaszában — rendszerint nem ezzel a készletrel dolgozik. A tipikus helyzet az, hogy:

a korpusz néhány tíztől néhány száz főig terjed,
a kutatási kérdés még alakul, tehát az adatmodell is mozgásban van,
az adatgyűjtés részben már meglévő Excel-táblákból, részben kézi bevitelből épül fel,
a teljes projekt egyetlen kutatónál található, aki egyszerre akarja kipróbálni a jegyzetelést, a harmonizálást és a vizualizációt.

Ilyenkor egy teljes Postgres-telepítés és egy saját Vanilla JS-frontend írása aránytalanul nagy ráfordítás. Ugyanakkor az Excel önmagában sem elegendő, mert az entitások közötti kapcsolatokat és a nyers értékek harmonizálását nem tudja kezelni. Erre a köztes igényre válaszol a most bemutatott eszköz.

11.2 Az eszköz paraméterei

A Történeti Adatbázis (torteneti_adatbazis.html) egyetlen, kb. 135 kB-os HTML-fájl, amely:

telepítés nélkül, bármely korszerű böngészőben elindul (Chrome, Firefox, Edge, Safari),
az adatot a böngésző localStorage-ában tárolja, így offline is működik — internetkapcsolatra csak a térképes csempékhez van szükség,
négy kész séma-sablont kínál (prozopográfia, levelezés, intézmény, anyakönyv), amelyek a jellegzetes levéltári forrástípusokat modellezik,
CSV/Excel-importot támogat, ami az Excelből induló adatgyűjtés folytatását teszi lehetővé,
egy beépített harmonizálási felülettel rendelkezik a nyers attribútumértékek egységesítésére,
négyféle vizualizációt kínál egy felületen: idővonal, kapcsolati hálózat, statisztika, térkép.

Az eszköz architektúrája szándékosan egyszerű, és az ElitData webes böngészőjének logikájára emlékeztet (ld. 9.8): minden egyetlen HTML-ben, minden lekérdezés élőben fut a betöltött adaton, egyetlen fájl jelenti a teljes projektet.

11.3 Adatmodell: könnyű séma + EAV

Az eszköz hibrid adatmodellt használ, amely az ElitData tbl_Szemelyek / tbl_Foglalkozasok / tbl_Kapcsolatok szerkezetének egyszerűsített változata.

Rekord (entitás). Minden rekordnak van néhány kötött, séma által meghatározott alapmezője (személy esetén pl. név, születési év, halálozási év, nem, forrás, megjegyzés). Ez a rész felel meg az ElitData tbl_Szemelyek táblájának.

Attribútum (kulcs–érték). Ezen felül minden rekord mellé tetszőleges számú kulcs–érték pár rögzíthető, típusmegjelöléssel: Foglalkozás = ügyvéd, Vallás = református, Lakóhely = Debrecen. Ez a generikus EAV-tábla (Entity-Attribute-Value) a 9.3 fejezetben tárgyalt tbl_Foglalkozasok / tbl_Egyetemek típusú többértékű jellemzőket váltja ki: a kutatónak nem kell előre minden lehetséges jellemzőnek táblát tervezni, elég, ha a kutatás közben felmerülő új dimenziót új attribútum-típusként felveszi.

Kapcsolat. Két entitás közötti él, típussal (házastárs, szülő/gyerek, kolléga, tanítvány, egyéb) és forráshivatkozással. Ez az ElitData tbl_Kapcsolatok táblájának közvetlen megfelelője.

Az EAV-modell előnye, hogy gyorsan fel lehet építeni vele egy kutatási adatbázist olyan esetekben, amikor az attribútumok listája menet közben bővül. Hátránya ugyanakkor, hogy tipusos lekérdezések (pl. „minden személy, akinek a születési éve 1820 és 1830 között van és az első foglalkozása tanár volt”) nehezebbek, mint egy tiszta relációs sémában. Éppen ezért az eszköz a kutatás előkészítő és feltáró szakaszára ajánlott — az eredmények nagy léptékű elemzését érdemes végül egy tényleges relációs rendszerbe (SQLite, PostgreSQL) átvinni (ld. 9.7.1).

11.4 Kutatási munkafolyamat az eszközzel

A 9.12 szakaszban felvázolt kilenc lépésből az eszköz a 3–8. lépést fedi le egy integrált felületen. A tipikus menet:

Séma választása (prozopográfia sablon), szükség esetén mezőnevek testre szabása a Beállításokban.
Meglévő Excel/CSV importálása oszloponkénti leképezéssel: melyik oszlop kerül az alaprekordba, melyik attribútummá.
Manuális kiegészítés (új rekordok bevitele űrlapon, vagy meglévő rekordok bővítése életrajzi adatokkal).
Harmonizálás: nyers attribútum-értékek (pl. „r.k.”, „rk”, „római katolikus”) külön oszlopban normalizált változatra való leképezése, az eredeti érték megtartása mellett (ld. a 9.6 szakasz elvét).
Kapcsolatok rögzítése forrásmegjelöléssel.
Vizualizáció: időbeli eloszlás, kapcsolati gráf, attribútum-statisztika, földrajzi szóródás.
Publikálás (statikus véglegesítés) vagy exportálás további elemzéshez.

11.5 Az eszköz letöltése és a demonstrációs adatsor

A fejezet kipróbálásához két fájl letölthető formában elérhető:

torteneti_adatbazis.html — maga a böngészőeszköz (~135 kB, egyetlen HTML-fájl)
MTA_alapitok_es_elso_nemzedek_1825-1850.xlsx — 50 rekordos prozopográfiai mintaadat az MTA első nemzedékéről (4 alapító, 4 kezdeti tisztségviselő, az 1831-ben megválasztott 23 rendes tag, és az 1831–1850 között felvett további 19 tag)

Letöltés: jobb kattintás a linken → „Hivatkozás mentése másként”. Az eszközt egy dedikált mappában célszerű tárolni, mert a böngésző a fájl elérési útjához köti a localStorage-tárolót.

Indítás: a torteneti_adatbazis.html fájlra kettős kattintás, vagy a fájl behúzása egy megnyitott böngészőablakba. A működéshez nincs szükség internetkapcsolatra — egyedül a térképi csempék szervikus forrását kivéve.

11.6 Demonstráció: az MTA első nemzedéke

Az MTA első nemzedéke tanulságos prozopográfiai minta: viszonylag kis elemszám mellett a magyar tudományos élet egy meghatározott alapító csoportját teszi vizsgálhatóvá, és olyan klasszikus prozopográfiai kérdések illusztrálására alkalmas, mint a felekezeti megoszlás, a foglalkozási heterogenitás, a tudományos osztályok közti arány, vagy a mesterségbeli kapcsolatok (pl. Kazinczy tanítványi köre).

11.6.1 Adatimport és autoMap

A demonstrációs xlsx-ben az oszlopnevek tudatosan úgy vannak kialakítva, hogy a séma mezőivel egybeessenek: Teljes név, Születési év, Halálozási év, Nem, Forrás, Megjegyzés — ezek automatikusan a sablon alapmezőibe kerülnek. A további oszlopok (Születési hely, Foglalkozás, Vallás, MTA szerep, MTA osztály, Választás éve) attribútum-típusokként importálódnak. Az automatikus oszlopleképezést (autoMap) érdemes minden esetben felülvizsgálni, mert egy valós forrásban az oszlopnevek ritkán fognak ilyen tisztán illeszkedni.

11.6.2 Harmonizálás: a vallás attribútum

A demonstrációs fájl szándékos zajt tartalmaz: a Vallás oszlopban három felekezet szerepel tíz különböző írásmódban (r.k., r.kat., rk, r. kat., római katolikus, katolikus, ref., református, ev., evangélikus). Ez a 9.6 szakaszban bemutatott valós helyzet miniatűr másolata: ugyanaz a forrásadat, a tipikus bevitel-variabilitással.

A Harmonizálás fülön:

Az autoFill minden nyers értéket önmagával tölt fel harmonizált párosként.
A kutató a harmonizált oszlopban három kanonikus értékre csökkenti a tíz variánst: Római katolikus, Református, Evangélikus.
Az eredeti nyers érték megmarad — ez reprodukálhatósági és forráshűségi követelmény.

A foglalkozás-attribútumon hasonló logikával dolgozható ki egy 6–8 elemű kanonikus kategóriarendszer (politikus, irodalmár, tudós, egyházi, orvos, jogász, főnemes). A 9.6 szakaszban leírt módszertannal azonos: soha ne írjuk felül az eredeti értéket, a normalizált változat mindig külön oszlopban tárolódik.

11.6.3 Kapcsolatok: forráskritika

A Kapcsolatok fülön rögzíthető viszonyok forrásmegjelölése nem formalitás, hanem a prozopográfiai adatbázis szakmai minőségének központi eleme. Néhány a demonstrációs adatsoron értelmes kapcsolat:

Kazinczy Ferenc → Tanítvány → Kölcsey Ferenc (forrás: Kazinczy-levelezés)
Kazinczy Ferenc → Tanítvány → Toldy Ferenc
Vörösmarty Mihály ↔︎ Kolléga ↔︎ Bajza József (forrás: Athenaeum triumvirátus)
Kisfaludy Sándor ↔︎ Testvér ↔︎ Kisfaludy Károly
Eötvös József ↔︎ Kolléga ↔︎ Szalay László (forrás: Centralisták)

Egy valódi kutatásban minden kapcsolatbejegyzéshez konkrét, visszakereshető forráshivatkozás társul (levelezéskötet oldalszáma, akadémikus életrajz, szakirodalom). A prozopográfiai adatbázis értéke jelentős részben a kapcsolati rétegben van — az elemzés nagy része az ElitData, az MDP, és hasonló rendszerek esetében is a kapcsolathálózat statikus és időbeli vizsgálatán alapul.

11.6.4 Vizualizáció

Az eszköz négy vizualizációs nézete párhuzamba állítható az ElitData négy nézetével (ld. 9.8 szakasz):

ElitData böngésző	A saját eszköz	Elemzési funkció
Statisztikák (vallási megoszlás, foglalkozás)	Statisztika	leíró megoszlások, endogámia
Személyes hálózat + egyetemi háló	Hálózat (D3 force-directed)	kapcsolati struktúra, klaszterek
Térkép	Térkép (Leaflet + helynév-szótár)	földrajzi eloszlás
Profilnézet	Rekordok (kártyás nézet)	egyéni adatlapok
—	Idővonal	életutak időbeli dimenziója

A térkép beépített helynév-szótárat használ (ékezet-függetlenül egyeztet) a Kárpát-medence és a szomszédos régiók történelmi helyneveivel; közvetlen koordináta is megadható 47.49, 19.04 formátumban, ha egy forráshely nincs a szótárban. A térkép alatt egy diagnosztikus sáv jelzi, hány rekordban van/nincs érték az aktuálisan választott hely-attribútumnál.

11.7 Mikor az egyetlen HTML-fájl a jó válasz, és mikor nem?

A választás a kutatási projekt mérete és munkamódja szerint alakul:

Szituáció	Javasolt eszköz
Exploratív, 20–300 fős prozopográfia, 1 kutató	Történeti Adatbázis (ez az eszköz)
Nagy korpusz (>1 000 személy), több kutató, verziókezelt szkriptek	Relációs DB (SQLite / PostgreSQL), saját vagy hosztolt
Publikus webes böngésző funkció, CI/CD, hozzáférés-szabályozás	Supabase / teljes backend + külön frontend (mint az ElitData)
Intézményi adminisztráció, közös nyilvántartás több író joggal	Dedikált adatbáziskezelő, Access vagy web-alapú

Az eszközök közti átmenet egyirányú, de nem lezáruló: a Történeti Adatbázis exportált CSV-je bármikor betölthető Pythonba (pandas) vagy R-be (readr) további elemzéshez, és áttölthető egy relációs DB-be is. Az átmenet másik irányában (nagy rendszerből kicsire) ritkán van szükség, de ha egy részkorpuszon szeretnénk gyorsan kísérletezni, egy SQL-lekérdezés eredménye pillanatok alatt CSV-ként exportálható, amit az eszköz közvetlenül betölt.

11.8 Korlátok és kockázatok

Az EAV-modell rugalmassága kompromisszumokkal jár, amelyeket érdemes előre tudatosítani.

LocalStorage-kockázat. Minden adat a böngésző localStorage-ában van, amit a böngésző „előzmények/sütik törlése” művelet eltávolít. Rendszeres CSV-export ezért kötelező mentési stratégia; a kutatási anyagot sosem szabad csak a böngészőben tárolni. Ugyanígy a böngészőváltás (másik gépre áttelepülés) is manuális fájl-áthozatallal jár.

Kollaboráció hiánya. Egyszerre egyetlen kutató tud dolgozni egy példányon. Két kutató munkája csak exportált CSV-k összefésülésével egyesíthető, ami nem triviális. Többfelhasználós környezethez az ElitData-típusú rendszer (9.7.1) indokolt.

Lekérdezési erő. Az EAV-modell komplexebb analitikus kérdésekre (többszörös JOIN, időablak-szűrés, agregátumok) nem optimális. Ilyenkor érdemes az adatot exportálni és Pythonban / R-ben elemezni — vagy áttölteni egy relációs rendszerbe.

Adatmodell-stabilitás. A séma testreszabhatósága vonzó, de egy kutatócsoporton belül ugyanaz a vonás felel a szétcsúszásért: ha minden doktorandusz a saját módján nevezi el a mezőket, a korpusz egyesítése fájdalmas lesz. Már kisebb projekten is érdemes kódolási útmutatót vezetni (ld. 9.5 szakasz).

11.9 Kutatási reflexió és önálló feladatok

A fejezet gyakorlati kipróbálásához három feladat ajánlott:

1. Saját mikro-prozopográfia. Válasszunk 20–30 fős csoportot a doktori vagy szakdolgozati témánkhoz (pl. egy település tanítói, egy tudós-levelezőkör, egy intézmény vezetői egy adott évtizedben). Építsük fel az eszközben, minimum 4 attribútum-típussal és 5 kapcsolattal. Reflektáljunk arra, milyen döntéseket kényszerített ki a séma választása.

2. Harmonizálási gyakorlat az MTA-adatsoron. A letöltött xlsx Foglalkozás attribútumában szereplő 26 nyers értéket redukáljuk 6–8 kanonikus kategóriára. Dokumentáljuk azokat a határeseteket, amelyeknél a döntés módszertani tétű (pl. „drámaíró” és „regényíró” együtt kezelése, „jogász-politikus” besorolása, egyházi és tudósi pályák átfedése).

3. Forráskritika a kapcsolatokon. Vegyünk fel legalább tíz új kapcsolatot az MTA-adatsoron, mindegyikhez pontos forráshivatkozással. Írjunk egy egyoldalas reflexiót arról, mely kapcsolatoknál volt egyértelmű a forrás, és melyeknél kellett fokozati jelzéssel élni („valószínű”, „feltételezett”, „vitatott”).

A feladatok nem arra szolgálnak, hogy az eszközt technikailag megtanuljuk — arra valók, hogy a módszertani döntések (mi legyen attribútum és mi mező, hogyan harmonizáljunk, mikor rögzítsünk egy kapcsolatot) explicitté váljanak a saját kutatási gyakorlatunkban.

11.10 Összefoglaló

A Történeti Adatbázis egy minimalista, saját kutatásra szabott prozopográfiai eszköz, amely az ElitData és az MDP-projektben bemutatott munkafolyamat egy kutatóra méretezett változatát nyújtja. Nem váltja ki a nagy léptékű relációs rendszereket, de a kutatás felderítő és előkészítő fázisában, doktoranduszi vagy szakdolgozói szinten, illetve egy nagyobb projekt pilotjaként hatékony eszköz. A módszertani elvek — forráskritika, eredeti érték megőrzése, harmonizálás külön oszlopban, kapcsolatok forrásmegjelöléssel — ugyanazok, amelyek a nagy rendszereknél: a különbség a léptékben és a kollaboráció nélküli, egyetlen kutatóra szabott munkamenetben van.

11.10.1 Letölthető anyagok

torteneti_adatbazis.html — a böngészőeszköz
MTA_alapitok_es_elso_nemzedek_1825-1850.xlsx — 50 rekordos demonstrációs adatsor