5 A TEI–RiC annotáló eszköz: gyakorlati útmutató
Az előző fejezetben megismertük a digitális forráskiadás elveit és a TEI XML szabvány alapjait. Ebben a fejezetben egy konkrét eszközzel foglalkozunk: a kurzusra fejlesztett TEI–RiC annotáló alkalmazással, amely egyetlen HTML-fájlként működik, és lehetővé teszi történeti szövegek strukturált annotálását böngészőben, telepítés nélkül.
5.1 Miért szükséges egy egyszerűsített annotáló eszköz?
A TEI XML szerkesztése hagyományosan XML-szerkesztő programokban történik (Oxygen XML Editor, VS Code TEI-bővítménnyel), amelyek tanulási görbéje meredek, és a felhasználó közvetlenül XML-kóddal dolgozik. A történészképzésben — különösen egy szemeszternyi kurzusban — ez a megközelítés túl sok technikai terhet ró a hallgatókra.
Az annotáló eszköz ezt a problémát úgy oldja meg, hogy a TEI-szabvány és az ICA Records in Contexts (RiC) archív leíró keretrendszer szemantikai kategóriáit vizuális felületen teszi elérhetővé. A felhasználó kijelöli a szöveget, kategóriát választ, és az annotáció azonnal megjelenik — a háttérben TEI-kompatibilis struktúra épül.
5.2 Az eszköz felépítése és funkciói
5.2.1 Alapvető munkafolyamat
Az annotáló három fő nézetből áll:
Dokumentumkezelés: Szöveges források betöltése, létrehozása, szervezése. Minden dokumentumhoz metaadatok rendelhetők (cím, dátum, típus, archívumi jelzet).
Annotálás: A betöltött szöveg megjelenítése olvasható formában, ahol a felhasználó kijelöléssel és kattintással ad hozzá annotációkat. Minden annotáció típussal, értékkel és opcionális megjegyzéssel rendelkezik.
Hálózat és elemzés: Az annotációkból automatikusan épülő kapcsolati háló vizualizációja, amely a szövegben említett személyek, szervezetek, helyek és más entitások közötti összefüggéseket mutatja.
5.2.2 Annotációs kategóriák
Az eszköz a TEI névtér-elemeket és a RiC archív leíró keretrendszer kategóriáit ötvözi:
| Kategória | TEI/RiC megfelelő | Szín | Példa |
|---|---|---|---|
| Személy | <persName> / RiC-E06 Agent |
piros | „Kovács János” |
| Szervezet | <orgName> / RiC-E04 Agent |
kék | „MDP Központi Vezetőség” |
| Mű/dokumentum | <title> / RiC-E02 Record |
zöld | „Szabad Nép” |
| Hely | <placeName> / RiC-E10 Place |
sárga | „Budapest” |
| Dátum | <date> |
lila | „1955. március 12.” |
| Család | RiC-E08 Family | barna | „Kovács család” |
| Pozíció | RiC-E12 Position | olívazöld | „osztályvezető” |
| Mandátum | RiC-E15 Mandate | mély lila | „1950. évi 35. tvr.” |
| Funkció | RiC-E14 Function | türkiz | „személyzeti nyilvántartás” |
| Tevékenység | RiC-E13 Activity | narancs | „pártiskolai oktatás” |
| Fogalom | <term> |
sötétkék | „önelemzés” |
| Esemény | RiC-E09 Event | magenta | „kongresszus” |
5.2.3 Az annotáció exportálása
Az elkészült annotációk többféle formátumban exportálhatók:
- TEI XML: szabványos XML kimenet, amely más TEI-eszközökkel kompatibilis
- JSON: gépi feldolgozásra optimalizált formátum
- CSV: egyszerű táblázatos export, amely Excelben vagy pandas-szal elemezhető
- RiC-O (Turtle): linked data formátum az archív leíró keretrendszerhez
5.3 A kitöltött annotáló: gyakorlati bemutató
Az alábbi képernyőképek egy előre kitöltött változatot mutatnak be, amelyben az MDP hatásköri listából származó dokumentumrészletek már annotálva vannak.
5.3.1 A dokumentumkezelő nézet
A kezdőképernyő a betöltött dokumentumok listáját mutatja kártyanézetben. Minden kártyán látható a dokumentum címe, dátuma, típusa és az annotációk összesítése.
Figure 5.1: A TEI–RiC annotáló dokumentumkezelő nézete – 51 betöltött dokumentum kártyanézetben
5.3.2 Az annotálás nézet
A TEI nézetben a kiválasztott dokumentum szövege jelenik meg, az annotációs kategóriák a jobb oldali panelen érhetők el. A szövegben való kijelölés után a megfelelő kategória kiválasztásával készül el az annotáció. Az exportálási lehetőségek (TEI XML, JSON) szintén ebből a nézetből érhetők el.
Figure 5.2: A TEI annotálás nézet – dokumentum szövege az annotációs kategóriákkal és exportálási lehetőségekkel
Letölthető eszköz: Az üres annotálót a saját forrásaiddal töltheted fel – mentsd le és nyisd meg böngészőben:
TEI–RiC annotáló letöltése (üres változat)5.4 Hogyan használd az annotálót? – Lépésről lépésre
5.4.1 1. Dokumentum létrehozása
Nyisd meg az üres HTML-fájlt a böngészőben. A Dokumentumok nézetben kattints az „Új dokumentum” gombra. Töltsd ki a metaadatokat:
- Cím: A forrás rövid azonosító neve
- Dátum: A forrás keletkezésének ideje
- Típus: A forrás jellege (pl. jegyzőkönyv, határozat, levelezés)
- Jelzet: Levéltári/archívumi hivatkozás
Ezt követően illeszd be a forrás szövegét a szerkesztő mezőbe.
5.4.2 2. Annotálás
Válts az Annotálás nézetre. Jelöld ki a szöveg egy részletét (pl. egy személynevet), majd a felugró menüből válaszd ki a megfelelő kategóriát. Az annotáció azonnal megjelenik a szövegben színkódolással.
Minden annotációhoz hozzáadható:
- Érték / azonosító: Szabványosított forma (pl. „Kovács János” → „kovacs_janos_1920”)
- Megjegyzés: Kutatói jegyzet, kontextuális információ
- Normatív alak: Az entitás szabványosított neve
5.4.3 3. Hálózati nézet és elemzés
Az Elemzés nézetben az annotációkból automatikusan épülő gráf jelenik meg: a csomópontok az annotált entitások, az élek a szövegbeli együttes előfordulást jelölik. A vizualizáció szűrhető kategória szerint, és a csomópontok mérete az előfordulás gyakiságát tükrözi.
5.5 A publikációs változat: a forráskiadvány
Az annotálás végső célja a digitális forráskiadvány: egy olyan publikációs formátum, amely a forrásszöveget az annotációkkal együtt, kereshető és navigálható felületen teszi közzé. Az alábbi képernyőkép a kurzushoz készült mintapéldányt mutatja:
Figure 5.3: A digitális forráskiadvány publikációs nézete – annotált szöveg kereshető és navigálható felületen
A forráskiadvány főbb funkciói:
- Több dokumentum kezelése egyetlen felületen, szűréssel és kereséssel
- Az annotációk vizuális megjelenítése a szövegben (kapcsolható színkódolás)
- Annotációs táblázat: a dokumentumban szereplő összes entitás listázható, szűrhető, rendezhető
- Hálózati vizualizáció: az entitások közötti kapcsolatrendszer interaktív gráfként
- Exportálási lehetőségek a további felhasználáshoz
Miért egyetlen HTML-fájl? A forráskiadvány tudatosan egyetlen, önálló HTML-fájlként készül, amelyet bármilyen modern böngésző megnyit. Nem igényel szervert, telepítést vagy internetkapcsolatot. Ez biztosítja a hosszú távú hozzáférhetőséget és a könnyű terjeszthetőséget — különösen fontos szempont a történeti forráskiadványoknál.
5.6 Összefoglalás
Az annotáló eszköz a digitális forráskiadás teljes munkafolyamatát lefedi: a nyers forrásszövegtől a strukturált annotáláson át a publikálásra kész forráskiadványig. A TEI és RiC szabványok alkalmazása biztosítja, hogy az adatok más rendszerekkel kompatibilisek legyenek, miközben a vizuális felület lehetővé teszi, hogy az eszközt XML-ismeretek nélkül is lehessen használni.
A következő fejezetekben a prozopográfiai adatbázis-építés módszertanát tekintjük át két további esettanulmányon keresztül, amelyek a strukturált adatgyűjtés és -elemzés más-más aspektusát mutatják be.