5 A TEI–RiC annotáló eszköz: gyakorlati útmutató

Az előző fejezetben megismertük a digitális forráskiadás elveit és a TEI XML szabvány alapjait. Ebben a fejezetben egy konkrét eszközzel foglalkozunk: a kurzusra fejlesztett TEI–RiC annotáló alkalmazással, amely egyetlen HTML-fájlként működik, és lehetővé teszi történeti szövegek strukturált annotálását böngészőben, telepítés nélkül.

5.1 Miért szükséges egy egyszerűsített annotáló eszköz?

A TEI XML szerkesztése hagyományosan XML-szerkesztő programokban történik (Oxygen XML Editor, VS Code TEI-bővítménnyel), amelyek tanulási görbéje meredek, és a felhasználó közvetlenül XML-kóddal dolgozik. A történészképzésben — különösen egy szemeszternyi kurzusban — ez a megközelítés túl sok technikai terhet ró a hallgatókra.

Az annotáló eszköz ezt a problémát úgy oldja meg, hogy a TEI-szabvány és az ICA Records in Contexts (RiC) archív leíró keretrendszer szemantikai kategóriáit vizuális felületen teszi elérhetővé. A felhasználó kijelöli a szöveget, kategóriát választ, és az annotáció azonnal megjelenik — a háttérben TEI-kompatibilis struktúra épül.

5.2 Az eszköz felépítése és funkciói

5.2.1 Alapvető munkafolyamat

Az annotáló három fő nézetből áll:

  1. Dokumentumkezelés: Szöveges források betöltése, létrehozása, szervezése. Minden dokumentumhoz metaadatok rendelhetők (cím, dátum, típus, archívumi jelzet).

  2. Annotálás: A betöltött szöveg megjelenítése olvasható formában, ahol a felhasználó kijelöléssel és kattintással ad hozzá annotációkat. Minden annotáció típussal, értékkel és opcionális megjegyzéssel rendelkezik.

  3. Hálózat és elemzés: Az annotációkból automatikusan épülő kapcsolati háló vizualizációja, amely a szövegben említett személyek, szervezetek, helyek és más entitások közötti összefüggéseket mutatja.

5.2.2 Annotációs kategóriák

Az eszköz a TEI névtér-elemeket és a RiC archív leíró keretrendszer kategóriáit ötvözi:

Kategória TEI/RiC megfelelő Szín Példa
Személy <persName> / RiC-E06 Agent piros „Kovács János”
Szervezet <orgName> / RiC-E04 Agent kék „MDP Központi Vezetőség”
Mű/dokumentum <title> / RiC-E02 Record zöld „Szabad Nép”
Hely <placeName> / RiC-E10 Place sárga „Budapest”
Dátum <date> lila „1955. március 12.”
Család RiC-E08 Family barna „Kovács család”
Pozíció RiC-E12 Position olívazöld „osztályvezető”
Mandátum RiC-E15 Mandate mély lila „1950. évi 35. tvr.”
Funkció RiC-E14 Function türkiz „személyzeti nyilvántartás”
Tevékenység RiC-E13 Activity narancs „pártiskolai oktatás”
Fogalom <term> sötétkék „önelemzés”
Esemény RiC-E09 Event magenta „kongresszus”

5.2.3 Az annotáció exportálása

Az elkészült annotációk többféle formátumban exportálhatók:

  • TEI XML: szabványos XML kimenet, amely más TEI-eszközökkel kompatibilis
  • JSON: gépi feldolgozásra optimalizált formátum
  • CSV: egyszerű táblázatos export, amely Excelben vagy pandas-szal elemezhető
  • RiC-O (Turtle): linked data formátum az archív leíró keretrendszerhez

5.3 A kitöltött annotáló: gyakorlati bemutató

Az alábbi képernyőképek egy előre kitöltött változatot mutatnak be, amelyben az MDP hatásköri listából származó dokumentumrészletek már annotálva vannak.

5.3.1 A dokumentumkezelő nézet

A kezdőképernyő a betöltött dokumentumok listáját mutatja kártyanézetben. Minden kártyán látható a dokumentum címe, dátuma, típusa és az annotációk összesítése.

A TEI–RiC annotáló dokumentumkezelő nézete – 51 betöltött dokumentum kártyanézetben

Figure 5.1: A TEI–RiC annotáló dokumentumkezelő nézete – 51 betöltött dokumentum kártyanézetben

5.3.2 Az annotálás nézet

A TEI nézetben a kiválasztott dokumentum szövege jelenik meg, az annotációs kategóriák a jobb oldali panelen érhetők el. A szövegben való kijelölés után a megfelelő kategória kiválasztásával készül el az annotáció. Az exportálási lehetőségek (TEI XML, JSON) szintén ebből a nézetből érhetők el.

A TEI annotálás nézet – dokumentum szövege az annotációs kategóriákkal és exportálási lehetőségekkel

Figure 5.2: A TEI annotálás nézet – dokumentum szövege az annotációs kategóriákkal és exportálási lehetőségekkel

Letölthető eszköz: Az üres annotálót a saját forrásaiddal töltheted fel – mentsd le és nyisd meg böngészőben:

TEI–RiC annotáló letöltése (üres változat)

5.4 Hogyan használd az annotálót? – Lépésről lépésre

5.4.1 1. Dokumentum létrehozása

Nyisd meg az üres HTML-fájlt a böngészőben. A Dokumentumok nézetben kattints az „Új dokumentum” gombra. Töltsd ki a metaadatokat:

  • Cím: A forrás rövid azonosító neve
  • Dátum: A forrás keletkezésének ideje
  • Típus: A forrás jellege (pl. jegyzőkönyv, határozat, levelezés)
  • Jelzet: Levéltári/archívumi hivatkozás

Ezt követően illeszd be a forrás szövegét a szerkesztő mezőbe.

5.4.2 2. Annotálás

Válts az Annotálás nézetre. Jelöld ki a szöveg egy részletét (pl. egy személynevet), majd a felugró menüből válaszd ki a megfelelő kategóriát. Az annotáció azonnal megjelenik a szövegben színkódolással.

Minden annotációhoz hozzáadható:

  • Érték / azonosító: Szabványosított forma (pl. „Kovács János” → „kovacs_janos_1920”)
  • Megjegyzés: Kutatói jegyzet, kontextuális információ
  • Normatív alak: Az entitás szabványosított neve

5.4.3 3. Hálózati nézet és elemzés

Az Elemzés nézetben az annotációkból automatikusan épülő gráf jelenik meg: a csomópontok az annotált entitások, az élek a szövegbeli együttes előfordulást jelölik. A vizualizáció szűrhető kategória szerint, és a csomópontok mérete az előfordulás gyakiságát tükrözi.

5.4.4 4. Exportálás és mentés

Az annotált szöveget bármikor elmentheted (az állapot a böngészőben megmarad), és exportálhatod TEI XML, JSON, CSV vagy RiC-O formátumban. Az exportált fájlok további feldolgozásra használhatók más eszközökben (pl. Gephi hálózatelemzéshez, pandas adatelemzéshez).

5.5 A publikációs változat: a forráskiadvány

Az annotálás végső célja a digitális forráskiadvány: egy olyan publikációs formátum, amely a forrásszöveget az annotációkkal együtt, kereshető és navigálható felületen teszi közzé. Az alábbi képernyőkép a kurzushoz készült mintapéldányt mutatja:

A digitális forráskiadvány publikációs nézete – annotált szöveg kereshető és navigálható felületen

Figure 5.3: A digitális forráskiadvány publikációs nézete – annotált szöveg kereshető és navigálható felületen

A forráskiadvány főbb funkciói:

  • Több dokumentum kezelése egyetlen felületen, szűréssel és kereséssel
  • Az annotációk vizuális megjelenítése a szövegben (kapcsolható színkódolás)
  • Annotációs táblázat: a dokumentumban szereplő összes entitás listázható, szűrhető, rendezhető
  • Hálózati vizualizáció: az entitások közötti kapcsolatrendszer interaktív gráfként
  • Exportálási lehetőségek a további felhasználáshoz

Miért egyetlen HTML-fájl? A forráskiadvány tudatosan egyetlen, önálló HTML-fájlként készül, amelyet bármilyen modern böngésző megnyit. Nem igényel szervert, telepítést vagy internetkapcsolatot. Ez biztosítja a hosszú távú hozzáférhetőséget és a könnyű terjeszthetőséget — különösen fontos szempont a történeti forráskiadványoknál.

5.6 Összefoglalás

Az annotáló eszköz a digitális forráskiadás teljes munkafolyamatát lefedi: a nyers forrásszövegtől a strukturált annotáláson át a publikálásra kész forráskiadványig. A TEI és RiC szabványok alkalmazása biztosítja, hogy az adatok más rendszerekkel kompatibilisek legyenek, miközben a vizuális felület lehetővé teszi, hogy az eszközt XML-ismeretek nélkül is lehessen használni.

A következő fejezetekben a prozopográfiai adatbázis-építés módszertanát tekintjük át két további esettanulmányon keresztül, amelyek a strukturált adatgyűjtés és -elemzés más-más aspektusát mutatják be.