2 Adat a történettudományban

2.1 Bevezetés

A digitális módszerek alkalmazása a történettudományban alapvető kérdéseket vet fel arról, hogyan viszonyulunk forrásainkhoz, milyen interpretációs döntéseket hozunk már az adatgyűjtés kezdeti fázisában, és milyen etikai következményekkel járnak ezek a döntések. Ez a fejezet három fő kérdéskör mentén vezeti be a digitális történészi munkát:

Mi a különbség az adat és a forrás között, és miért fontos ez a megkülönböztetés?
Milyen típusú adatokkal dolgozik a digitális történész, és milyen módszertani kihívásokat vetnek fel ezek?
Hogyan használjuk kritikusan a mesterséges intelligenciát a történeti kutatásban?

A fejezet célja bevezetni azokat az alapelveket, amelyek minden digitális bölcsészeti projekt alapját képezik.A döntések arról, hogyan alakítjuk át a forrásokat számítógéppel feldolgozható digitális formátumúvá, hosszú távú következményekkel járnak, éppúgy, ahogy a kutató által használt folyamatok hatással vannak az eredmények megértésére és interpretációjára.¹

2.1.1 Digitális forrásgyűjtemények Magyarországon

Napjainkra hatalmas mennyiségű történeti forrásanyag vált elérhetővé és kereshetővé különböző digitális gyűjteményekben, így például az Arcanum Digitális Tudománytárban, a Hungaricana vagy az Adatbázisok Online felületén.

Fő magyar digitális platformok:

Arcanum Digitális Tudománytár (https://adtplus.arcanum.hu/)

Magyar sajtóarchívum Könyvek, lexikonok 2. Hungaricana (https://hungaricana.hu/)

Levéltári források Folyóiratok, térképek Könyvek 3. Adatbázisok Online (https://adatbazisokonline.hu/)

Levéltári adatbázisok

A digitalizáció kihívása:

A digitalizált szövegek és az ezekhez rendelt metaadatok elemzése nagyban megkönnyíti a forrásokhoz való hozzáférést, de egyben új kihívásokat is támaszt, hiszen lehetőséget ad a big data/big text jellegű megközelítés történettudományi kutatásokra történő kiterjesztésére, amihez azonban a források újfajta megközelítése, feldolgozásukhoz pedig újfajta módszertan szükséges.

2.2 Forrás és adat: alapvető megkülönböztetés

2.2.1 Fogalmi különbségtétel

A hétköznapi nyelvhasználatban az “adat” és a “forrás” gyakran felcserélhető fogalmak. A digitális módszertanban azonban kritikus különbséget kell tennünk közöttük, amely alapvetően meghatározza kutatásunk jellegét és interpretációs kereteit.

Forrás (source): A történeti dokumentum maga - levél, irat, újságcikk, fénykép, amely információt hordoz a múltról.

Adat (data): Strukturált információ, amelyet mi nyerünk ki a forrásból kutatási kérdéseink és elméleti kereteink alapján. Az adat mindig interpretáció eredménye, kategorizálás és értékelés terméke.

A különbség nem pusztán fogalmi játék. Minden adat-előállítási folyamat döntések sorozatát jelenti: mit számítunk relevánsnak, milyen kategóriákat használunk, mit hagyunk figyelmen kívül, és kinek az érdekét szolgálja az adatgyűjtés módja.

2.2.2 Capta, nem data

Johanna Drucker ² azt javasolja, hogy a “data” helyett használjuk a “capta” kifejezést a bölcsészettudományokban. A különbségtétel nem csupán terminológiai precizitás kérdése, hanem epistemológiai állásfoglalás.

A “data” (latinul: “adott”) problémái:

A “data” szó etimológiája azt sugallja, hogy az információ “ott van” a világban, passzívan várva felfedezésre. Ez a felfogás:

Elrejti az aktív interpretációs munkát
Sugallja a semlegességet és objektivitást
Naturalizálja a kutató döntéseit
Láthatatlanná teszi a hatalmi viszonyokat

A “capta” (latinul: “vett, választott”) előnyei:

Ezzel szemben a “capta” kifejezés explicit módon elismeri, hogy:

Az adatot mi konstruáljuk, nem “adjuk” magát
Minden adat aktív válogatás eredménye
A kutatói döntések politikai és etikai implikációkkal bírnak
A kategóriák nem semlegesek, hanem értékeket tükröznek

Drucker ³ szerint az adat soha nem ‘nyers’, hanem mindig már feldolgozott interpretációs kereteken keresztül. A capta koncepció arra emlékeztet bennünket, hogy minden adatgyűjtési aktus egyben interpretációs aktus is.

2.2.3 Példa: Népszámlálás mint konstruált adat

Vizsgáljuk meg egy konkrét eseten keresztül, mit jelent a capta perspektíva.

1880-as népszámlálás Magyarországon:

Első látásra: objektív statisztikai adat - számok, nevek, foglalkozások, háztartások.

Közelebbről nézve: interpretációs döntések rendszere:

Ki számít “lakosnak”? - Bejelentett lakóhellyel rendelkezők: igen - Nomád népek (vándorló romák): nem - Hajléktalanok: nem - Ideiglenesen tartózkodók: nem - Katonák, foglyok: ?

Milyen kategóriákat használtak? - Nem: férfi/nő - Foglalkozás: előre definiált lista (mi van a nem-hivatalos munkákkal? a női háztartási munka?) - Nemzetiség: “anyanyelv” alapján (mi van a kétnyelvűekkel? a vegyes családokkal?) - Családi állapot: nős, hajadon, özvegy (mi van az élettársi kapcsolatokkal?)

Mit számoltak? - Életkor, foglalkozás, vallás, műveltség - Nem számolták: jövedelem, vagyon, egészségi állapot, boldogság, társadalmi kapcsolatok

Ki gyűjtötte és miért? - Állami adminisztráció - Célok: katonai toborzás, adóztatás, nemzetiségi politika - Nincs részvétel az érintett közösségek részéről

A népszámlálás tehát nem “adja magát”, hanem egy adott politikai, közigazgatási és tudományos logika szerint konstruált adathalmaz. Amikor használjuk, reflektálnunk kell ezekre a döntésekre és azok hosszú távú hatásaira.

2.3 Mi a digitális bölcsészet?

2.3.1 Eszköztár vagy új tudományág?

Különféle elnevezések léteznek a számítógép és a számításelmélet bevonásával végzett bölcsész- és társadalomtudományi kutatásokra. A számítógép megjelenésétől fogva együttesen vannak jelen azok az elképzelések, melyek csak eszközként tekintenek a gépek használatára, s melyek ezen túlmutatónak gondolják a gépesítés hatását.⁴

Két alapvető megközelítés bontakozik ki ebből a vitából. Az egyik szerint a számítógép csupán eszköz, amely segíti a kutatást, de nem változtatja meg a tudományág alapjait. A másik értelmezésben viszont a számítógép transzformáló erővel bír: új kérdéseket, módszereket és paradigmákat hoz létre. Mindkét oldal azonban egyetért abban, hogy “a számítógép és az internet adta lehetőségek nagyban segítik a kutatást. A technológia gyors fejlődése, az azt kihasználó digitalizálási projektek a kutatómunka mindennapjait is megváltoztatták.”⁵

A terminológiai változások jól szemléltetik ezt a feszültséget. Míg korábban számítógépes bölcsészetről (computing humanities), bölcsészeti számítástudományról (humanities computing) vagy bölcsészinformatikáról (humanities informatics) beszéltek, mára a digitális bölcsészet (digital humanities) elnevezés vált dominánssá, és újabban pedig a “big data a bölcsészettudományban” vagy a “mesterséges intelligencia a bölcsészettudományban” kifejezések jelennek meg.⁶

Központi kérdés: De megváltoztatta-e alapjaiban a humán tudományokat, egyes területeit a számítógép bevonása? Csak a kérdések megválaszolásának módja változott, vagy a kérdések is?⁷

2.3.2 Az alapító projektek és módszereik

A digitális bölcsészet születése gyakran Roberto Busa nevéhez kapcsolódik, aki 1949-ben az IBM segítségét kérte Aquinói Szent Tamás műveinek számítógépes feldolgozásához, de digitális bölcsészeti publikációk csak a 70-80-as években láttak napvilágot.⁸ Az Index Thomisticus végül egy konkordancia-jegyzék lett, amely 11 millió szóelőfordulást tartalmaz, a szavakat előfordulás és szótári alak szerint rendezve.

A projekt szimbolikus jelentőségét azonban nem elsőbbsége, hanem kitartó életben maradása adja. Az Index Thomisticus megért lyukkártyás, nyomtatott (1974-től), CD-ROM-os (1992) és webes kiadásokat (2005-től) is, az elmúlt hét évtizedben készítői mindig megteremtették a lehetőséget munkájuk továbbvitelére, az újabb számítógépes környezetbe való átültetésre.” Ez a folyamatos megújulási képesség tette igazán jelentőssé a projektet. Busa munkássága annyira meghatározó lett, hogy 1998-ban megalapították az ADHO (Alliance of Digital Humanities Organizations) által háromévente odaítélt Busa-díjat, amelynek első díjazottja maga Busa volt.⁹

Kevésbé ismert, de módszertanilag talán még jelentősebb Jean-Claude Gardin munkássága, akit sokan a számítógépes régészet úttörőjeként tartanak számon. Gardin 1956-tól kezdve foglalkozott számítógépes dokumentálással, katalogizálással és szövegelemzéssel, de ami igazán újszerű volt munkásságában, az a modellezésre helyezett hangsúly. Kutatóközpontjának neve, a Centre d’Analyse Documentaire pour l’Archéologie (Archeológiai Dokumentációelemzési Központ) is ezt a metodológiai fókuszt tükrözte.¹⁰

Gardin módszere szigorú formalizálásra épült. Ez a megközelítés egy úgynevezett metanyelv kidolgozásához vezetett, amely három részből áll: a kifejezések összességéből, ezek szemantikai rendszerezéséből, valamint azon szintaktikai elemekből, melyek az előbbiek kapcsolatait határozzák meg. Gardin kutatási területei igen változatosak voltak - a görög vázák ikonográfiájától az asszír kereskedők kappadókiai hálózatán át a bronzkori eurázsiai fejszék automatikus klasszifikációjáig terjedtek. Fontos, hogy Gardin csoportja “a régi szövegekkel kapcsolatos kutatásaik során azok szemantikai elemzésére, nem annyira azok filológiai vizsgálatára koncentráltak,”¹¹ ami megkülönböztette őket Busa kezdeményezésétől.

2.3.3 A modellezés mint központi paradigma

Willard McCarty gondolatai, amelyeket Maróthy ¹² részletesen bemutat, a digitális bölcsészet egyik legfontosabb elméleti kérdését érintik: mi a számítógép valódi szerepe a humán tudományokban? McCarty szerint “a számítógép alapvetően modellezésre szolgál, nem a tudás zenegépe… ha csak erre használnánk, az az emberi tudás mélységes félreértése lenne.”¹³ A tárolás és visszakeresés ugyan hasznos funkció, de önmagában nem elég. A valódi paradigmaváltás, amely akár új kutatási irányokat is nyithat, a modellálásban rejlik.

Tito Orlandi ezt a gondolatot tovább viszi, amikor megjegyzi, hogy “a számítógép megfelelő használata éppen az lenne, hogy számítási feladatokat végezzünk vele, nem az, hogy számoljunk.”¹⁴ Ez a megkülönböztetés azt jelenti, hogy nem az egyszerű statisztikai műveletekről van szó, hanem komplex rendszerek formális leírásáról és elemzéséről. Orlandi szerint nem számít számítógépes bölcsészetnek egy szövegkorpusz önmagában, értelmező címkék nélkül, vagy egy történeti forrás egyszerű fotómásolata a weben, sőt még az egyszerű statisztikai számítások sem szerzői attribúciók eldöntésére. John Unsworth “sarlatánoknak” nevezi azokat, “akik a felszínes hatáskeltésre, az azonnali eredményekre és az előrecsomagolt konklúziókra építik ‘tudományukat’.”¹⁵

De mit is jelent a modell? Maróthy ¹⁶ definíciója szerint a számítógépes modell “tárgyának olyan reprezentációja, mely explicit és konzisztens módon írja azt le, s mely számítógépes eszközökkel kezelhető.” A modellezés két szakaszra bontható: a felépítésre és a kezelésre, manipulációra. McCarty megkülönböztet “model of” és “model for” típusokat. Az előbbi valamely létező reprezentációja - nyelv, szöveg vagy tárgyak reprezentálása -, amelynek célja a létezők tanulmányozása és új jelenségek felfedezése. Ez “azt mondja meg, amit nem tudunk.”¹⁷ Az utóbbi valamely létrehozandó egyszerűsített megvalósítása, célirányos modellezés, amely “azt nyújtja, ami még nem áll rendelkezésünkre.”¹⁸

Az időtállóság kérdése különösen fontos. McCarty szerint “míg az egyes szoftverek és hardverek élettartama igen rövid, egy következetesen és áttekinthetően létrehozott modell könnyen átvihető egyik hordozóról, kódolásból, alkalmazásból a másikba.”¹⁹ Maróthy azonban gyakorlatias szempontból hozzáteszi: “Persze ez pusztán elméleti megközelítés: a gyakorlatban ennek számos buktatója akad.”²⁰

2.4 A digitális bölcsészeti munkafolyamat

2.4.1 A digitális projekt három komponense

Drucker ²¹ szerint minden digitális bölcsészeti projekt három fő komponensből áll:

ANYAGOK + FELDOLGOZÁS + BEMUTATÁS

1. ANYAGOK (Materials):

Az anyagok lehetnek analóg vagy digitálisan született források. Ezek jelenthetik a kutatás alapját: képek, szövegek, térképek, 3D modellek, hang- és médiafájlok, vagy ezek bármilyen kombinációja.

Kritikus kérdés: Hogyan digitalizáljuk ezeket az anyagokat? Milyen formátumot választunk? Ezek a döntések meghatározzák, hogy később milyen elemzési módszereket tudunk alkalmazni.

2. FELDOLGOZÁS (Processing):

Ez magában foglalja a számítógépes elemzést: adatbányászatot, statisztikai elemzést, vizualizációt, hálózatelemzést és más algoritmusok alkalmazását.

Kritikus kérdés: Mely algoritmusokat használjuk és miért? Milyen előfeltevések épülnek bele ezekbe a folyamatokba? Ahogy Drucker ²² figyelmeztet: “A feldolgozás gyakran a digitális bölcsész munkájának fekete doboza, mivel nagy részét készen kapott eszközökkel végezzük, amelyek működése láthatatlan vagy érthetetlen a felhasználó számára.”

3. BEMUTATÁS (Presentation):

Az eredmények megjelenítése történhet online platformokon vagy offline formában (publikációk).

2.4.2 Az adat-életciklus öt fázisa

Drucker ²³ öt alapvető tevékenységet azonosít, amelyek átívelnek a teljes digitális kutatási folyamaton:

1. Közvetítés/Újraközvetítés

Ez a munka analóg anyagok - mint térképek, kéziratok, régészeti leletek, vagy történelmi események elsődleges dokumentumai - digitális formátumban történő elérhetővé tételét vagy digitálisan született anyagok létrehozását és használatát jelenti.²⁴

Kritikus kérdések: - Mit veszítünk az analóg eredeti digitalizálása során? - Milyen implicit döntések épülnek bele a digitalizálás folyamatába? - Ki dönt a digitalizálás prioritásairól?

2. Adatformálás/Modellezés

Ez az a munka, amelynek során értékeket vonunk ki egy jelenségből vagy tárgyból. Ezek az értékek kifejezhetők számokban vagy szövegekben, és szükségszerűen a komplex anyagok redukcióját jelentik számítási formátumra.²⁵

Kritikus kérdések: - Milyen kategóriákat használunk? Honnan származnak? - Mit számítunk relevánsnak? Mit hagyunk ki? - Kinek az érdekét szolgálja ez az adatmodell?

Példa: Prozopográfiai adatbázis

Amikor eldöntjük, hogy egy személyről mit rögzítünk (név, születési év, származási hely, szerepek száma), mi határozzuk meg, mi számít fontosnak. Ez nem semleges döntés - tükrözi kutatási kérdéseinket, előfeltevéseinket, korlátainkat és értékeinket.

3. Feldolgozás/Elemzés

Ez magában foglalja a számítási feldolgozás során történő automatizált számolást, rendezést vagy elemzést. Minden számítási folyamat modelleket foglal magában, bármilyen automatizált is legyen a működése.

Kritikus kérdések: - Milyen kulturális feltevéseket tartalmaznak az algoritmusok? - Hogyan erősítik meg az algoritmusok a modelljeikbe épített elfogultságokat? - Mely elemeket értékeljük a kulturális feljegyzésekben mások fölé?

4. Bemutatás/Megjelenítés

Az eredmények bemutatása gyakran digitális formát ölt, néha online környezetben, vizualizációk, térképek, diagramok, történetek, cikkek vagy kiállítások formájában.

“Minden kutatási prezentáció egy narratíva szerint strukturált, amely szervezi a megjelenítést. Még a legegyszerűbb interfész-tervezés is döntéseket testesít meg arról, mi a fontos és mi nem, mit kell felfedni és mit elrejteni.”²⁶

Kritikus kérdések: - Milyen narratívát közvetít a prezentáció? - Mit mutat és mit rejt el? - Ki a célközönség és milyen előfeltevésekkel rendelkezik?

5. Fenntarthatóság/Megőrzés

Ezt a kezdeti tervezéstől figyelembe kell venni. A kezdeti tervezési döntések függenek az intézményi környezettől, az elérhető erőforrásoktól és szakértelemtől, valamint a projektspecifikus tényezőktől.

Kritikus kérdések: - Ki őrzi meg az adatokat hosszú távon? - Milyen fenntartási költségekkel jár a projekt? - Kinek az érdeke a projekt megőrzése?

2.4.3 Technológia és értékek

Minden digitális módszer tükrözi a tervezői döntéseket, kulturális előfeltevéseket és hatalmi viszonyokat.²⁷

Ez azt jelenti, hogy:

Az algoritmusok nem objektívek: Minden algoritmus tükrözi azokat az értékeket és feltevéseket, amelyeket beleépítettek.
Az automatizálás nem semleges: A hatékonyság és az automatizálás gyakran elfedi a döntéseket és az elfogultságokat.
A számítás nem helyettesíti az interpretációt

Kritikus kérdések minden fázisban:

Ki dönt a digitalizálás prioritásairól? Mely források digitalizálódnak először és miért?
Milyen kategóriákat használunk? Kit/mit zárunk ki a modellből?
Mely algoritmusokat alkalmazzuk? Milyen kulturális elfogultságokat hordoznak?
Ki a célközönség? Kinek van hozzáférése az eredményekhez?
Ki őrzi meg az adatokat? Kinek az érdeke a projekt hosszú távú megőrzése?

2.5 Három adat-típus a történészi kutatásban

A történész három fő adat-típussal találkozik munkája során. Nem minden projekt tartalmazza mindhárom típust, de a megkülönböztetés megértése kritikus a módszertan helyes alkalmazásához.

2.5.1 Forrásban lévő adat

Olyan információ, amely “adatként” jött létre a forrás keletkezésekor.

Különbséget teszünk strukturált és strukturálatlan adat között:

Strukturált adat: - Táblázatos formában létezik (sorok, oszlopok) - Számszerű vagy kategoriális értékeket tartalmaz - Közvetlenül beilleszthető adatbázisba - Például: népszámlálási táblák, költségvetések, statisztikai kimutatások

Strukturálatlan adat: - Szöveg, kép, hang formájában - Nincs előre definiált struktúrája - “Adat-szerűvé” kell alakítani - Például: levelezés, feljegyzések, sajtóanyagok

2.5.1.1 A kvantitatív történettudomány fejlődése

Narratív korszak (20. század elejeig): - Tisztán leíró történetírás - Kvantifikáció nélkül - Filológiai, szövegkritikai módszertan

Annales-fordulat (1920-30-as évek):

Az Annales folyóirat vezető történészei által kezdeményezett paradigmaváltás, aminek következtében a történetírás szakított a szorosan vett filológiai, szövegkritikai módszertannal, és elkezdte kihasználni a mérésben rejlő elemzési lehetőségeket, elsődlegesen a gazdaság- és társadalomtörténet-írás területén a különböző statisztikai adatsorok elemzésbe való bevonásával.”

Kvantitatív programok (1970-es évek):

Magyarországon is megindult a diskurzus: Felismerték, hogy a számítógép használata nemcsak olyan források feldolgozását teszi lehetővé, amire manuálisan nem nyílna lehetőség, de egyben a forrásokból kinyerhető információk körét is bővíti

2.5.1.2 Három típus

1. Illusztratív használat: - Hagyományos narratíva - Statisztikai adatok illusztrációként - A leggyakoribb gyakorlat

2. Kliometrikus történetírás: - Közgazdasági modellek tesztelése történeti anyagon - Változók közötti viszonyok modellezése - Elméleti keretben történő értelmezés

3. Retrospektív mérlegek: - Nemzetgazdasági statisztikákra épül - De: “lényeges szerepet tulajdonít az adott időben és adott helyén lejátszódott történeti eseményeknek is” - Nem pusztán számok, hanem kontextus is számít

A kvantitatív történettudomány elsősorban a forrásokban rejlő strukturált, számszerű(síthető) adatok – statisztikák, összeírások stb. – elemzésében ragadható meg.

Példák forrásban lévő adatra:

Népszámlálások és népességi statisztikák
Gazdasági statisztikák (árak, bérek, termelési adatok)
Költségvetések, számadások, könyvelési iratok
Választási eredmények
Halálozási/születési nyilvántartások
Iskolai beiratkozási adatok
Meteorológiai mérések
Földmérési adatok

2.5.2 Adatbázisba rendezhető adat

Definíció: Olyan információ, amelyet mi strukturálunk a forrásokból adatbázissá a kutatási kérdéseinknek megfelelően.

Jellemzők:

A forrásban nincs táblázatos vagy strukturált formában
Mi határozzuk meg: milyen mezők, kategóriák, relációk
Relációs gondolkodás: entitások (személyek, helyek, események) és kapcsolataik
Az adatmodell = interpretáció

Tipikus formák:

Prozopográfia: Kollektív életrajz - sok személy strukturált adatainak gyűjtése és elemzése. Célja történelmi csoportok, hálózatok vagy társadalmi rétegek megismerése.

Archontológia: Hivatalviselők, tisztségek, adminisztratív pozíciók adatbázisa. Célja intézményi struktúrák és hatalmi viszonyok feltérképezése.

Hálózatelemzés: Ki kapcsolódik kihez, mikor, milyen típusú kapcsolatokkal. Célja kapcsolati struktúrák és információáramlás megértése.

Példák konkrét alkalmazásokra:

Levelezés → feladó/címzett/dátum/helyszín/téma adatbázis
Parlamenti képviselők → név/párt/mandátum/szavazatok/felszólalások
Színházi előadások → darab/rendező/színészek/helyszín/dátum/kritikák
Perek → felek/bírók/vádak/ítéletek/fellebbezések
Tudományos publikációk → szerző/intézmény/téma/hivatkozások

Módszertani döntések:

Az adatmodell megalkotása interpretációs döntések sorozata. Amikor eldöntjük, mely mezők kerüljenek az adatbázisba, mi határozzuk meg, mi számít fontosnak.²⁸

Az adatmodellezés döntési pontjai:

Milyen entitásokat (objektum-típusokat) veszünk fel?

Csak személyek? Vagy intézmények, események, helyek, művek is? 2. Milyen mezőket/attribútumokat rögzítünk?

Név, születési év, foglalkozás - de miért nem pl. magasság, hajszín, jellemvonások? 3. Milyen relációkat tartunk számon?

Családi? Munkahelyi? Baráti? Ellenségi? Tanár-diák? Levelező-partner? 4. Hogyan kategorizálunk?

Foglalkozások: előre definiált lista vagy szabad szöveg?

Társadalmi státusz: hogyan modellezzük?

Politikai orientáció: hogyan definiáljuk?

Példa - Prozopográfiai adatmodell:

Építünk egy adatbázist az 1950-60-as évek magyar színésznőiről.

Entitások: - SZEMÉLY: színésznők - ELŐADÁS: színházi produkciók - INTÉZMÉNY: színházak - SZEREP: kapcsolati tábla személy-előadás között

Személyek lehetséges mezői:

Mező	Típus	Miért fontos?	Mit hagy ki?
Név	Szöveg	Azonosítás	Névváltoztatások
Művésznév	Szöveg	Szakmai identitás	Nem-hivatalos álnevek
Születési év	Szám	Életkor, generáció	Pontos dátum
Származási hely	Hely	Térbeli mobilitás	Családi gyökerek
Végzettség	Kategória	Képzettség	Informális tanulás
Politikai hovatartozás	Kategória	Karrierlehetőségek	Valós meggyőződés vs kényszer
Szerepek száma	Szám	Aktivitás mérése	Szerepek mérete/jelentősége

De mi maradt KI a modellből?

Családi állapot - miért nem releváns a kutatáshoz?
Magánéleti kapcsolatok - etikai döntés
Nem-hivatalos munkák és kapcsolatok
Cenzúrázott vagy be nem mutatott szerepek
Külföldi vendégszereplések
Filmszerepek vs színházi szerepek

Minden mezőválasztás egyidejűleg megmutat és elrejt valamit. Az adatmodell sosem semleges - mindig tükrözi a kutató döntéseit, értékeit és korlátait.

2.5.3 Szöveg mint adat

** Nagy mennyiségű szöveg számítógépes elemzése - amit Franco Moretti distant reading-nek nevezett, szembeállítva a hagyományos “közeli olvasással” (close reading).

2.5.3.1 A Big Data kihívása

Ahogy Péter Róbert Nyilvánvaló, hogy az új adatbázisokban található szövegek mindegyikét képtelenség egy emberöltő alatt elolvasni és hagyományos eljárásokkal feldolgozni. 2010-ig csak a Google 15 millió könyvet digitalizált, a világon valaha megjelent összes könyv körülbelül 12%-át.²⁹

A hatalmas szövegmennyiség új kihívást jelent:

Skála példák: - Google Books (2010-ig): 15 millió könyv digitalizálva - Ha valaki 2000 után megjelent angol nyelvű könyveket olvasna: 80 évig tartana megszakítás nélkül (200 szó/perc tempóval) - British Library: több millió digitalizált dokumentum

A big data / big text feldolgozásához új módszerek szükségesek.

2.5.3.2 Franco Moretti és a távoli olvasás

Alapelv:

Nem olvassuk el minden egyes szót egyenként, hanem mintázatokat keresünk nagyban, statisztikai módszerekkel és számítógépes algoritmusokkal.

Moretti “részben az Annales iskola hagyományaira építve, a kvantitatív és statisztikai módszerek használatát szorgalmazza egy racionálisabb és átfogóbb irodalomtörténet megalkotása érdekében.³⁰

A klasszikus bölcsészettudomány problémája:

A hagyományos módszertan az ún. close reading-re, a szoros olvasás metodikájára épült: - Néhány szerző vizsgálata - Néhány szöveg elemzése - Emberi feldolgozhatóság korlátai

A távoli olvasás célja:

Nagy mennyiségű szövegek közötti kapcsolatok, párhuzamok, ismétlődő minták, ciklusok feltárása és elemzése, melyeket a limitált szoros olvasás nem képes feltárni.

Módszer:

Bár a modellezés során elveszítjük magát a szöveget, az absztrakciós eljárás új típusú ismereteket, összefüggéseket, folyamatokat és struktúrákat világít meg.

A szövegelemző eszközök matematikai modellek, amelyek statisztikai kapcsolatokat keresnek. Nem ‘értik meg’ a szöveget emberi értelemben.³¹

Kritikus kérdések:

Mit “számol” a gép?

Szavak gyakorisága, együttes előfordulása - de mi van az implicit jelentésekkel, a hallgatások jelentőségével? 2. Kulturális/nyelvi bias:

Az algoritmusok angol nyelvű korpuszokon tanultak - mennyire működnek magyarul? Más nyelveken? Más kulturális kontextusokban? 3. “Fekete doboz” probléma:

Hogyan és miért azonosít az AI egy témát? Milyen feltevések épülnek bele a modellbe? 4. Interpretáció felelőssége:

A gép témákat/mintázatokat talál - de MI nevezzük el őket, MI értelmezzük, és MI vonjuk le a következtetéseket.

A digitális és módszertani forradalom új kutatási eszközöket ad a tudósok kezébe, de ezek eszközök, és nem célok.

2.6 AI használata a történeti kutatásban

2.6.1 Mi az AI és mi nem

A “mesterséges intelligencia” kifejezés félrevezető lehet. Pontosabb leírás:

AI = Statisztikai mintafelismerő rendszer, amely hatalmas szövegmennyiségen tanult, és valószínűségeket számol a következő szó, mondat vagy válasz előrejelzésére.

Ahogy Drucker ³² fogalmaz a digitális eszközökről általában:

“A technológia nem gondolkodik helyettünk. Eszközöket biztosít, de az interpretáció felelőssége a kutatóé marad.”

Az AI nem: - Nem “gondolkodik” - Nem “érti” a szöveget - Nem rendelkezik tudatossággal vagy értékeléssel - Nem képes valódi kreativitásra

Az AI: - Mintázatokat keres - Valószínűségeket számol - Statisztikai kapcsolatokat azonosít - A tréning-adatok alapján “tanul”

Következmény: Az AI outputja mindig valószínűségi becslés, nem tényleges tudás vagy megértés.

2.6.2 Mikor hasznos az AI a történésznek?

Ajánlott használati területek:

Ötletgenerálás: Kutatási kérdések finomítása, kulcsszavak javaslása
Összefoglalás: Hosszú szövegek gyors átolvasása (de mindig ellenőrizendő!)
Fordítás: Idegen nyelvű források első áttekintése
OCR/Transzkripció: Nyomtatott vagy kézírásos dokumentumok gépi olvasása
Kategorizálás: Nagy mennyiségű adat előszűrése, de validálás kötelező
Adattisztítás: Duplikátumok, inkonzisztenciák keresése

Problematikus vagy veszélyes használat:

Bibliográfia generálása: Az AI hallucinál, kitalál nem létező cikkeket és szerzőket
Faktikus történeti adatok: Téved évszámokban, személynevekben, eseményekben
Forráskritika: Nem érti a kontextust, nem ismeri fel a szarkazmust, iróniát
Végső szöveg írása: Az AI nem helyettesítheti a kutató saját gondolatait

2.6.3 AI etikai alapelvek

Transzparencia: Mindig dokumentáljuk, mit használtunk AI-ra és hogyan

Validáció: Soha ne fogadjunk el AI outputot ellenőrzés nélkül

Felelősség: A kutató felel az eredményért, nem az AI

Bias-tudatosság: Az AI tükrözi a tréning-adatok torzításait (angol-centrikus, nyugati, mainstream perspektívák túlsúlya)

Kontextus: Az AI nem érti a történeti kontextust, kulturális árnyalatokat

Hallucinációk: Különösen veszélyes bibliográfiánál és faktikus adatoknál

A digitális módszerek nem helyettesítik a hagyományos történészi munkát - kiegészítik, kiterjesztik és új kérdéseket tesznek lehetővé. De minden digitális döntés interpretációs döntés, és minden algoritmus értékeket hordoz. A kritikus reflektivitás nem opcionális - a felelős digitális történészi munka alapja.

1↩︎
2↩︎
3↩︎
4↩︎
5↩︎
6↩︎
7↩︎
8↩︎
9↩︎
10↩︎
11↩︎
12↩︎
13↩︎
14↩︎
15↩︎
16↩︎
17↩︎
18↩︎
19↩︎
20↩︎
21↩︎
22↩︎
23↩︎
24↩︎
25↩︎
26↩︎
27↩︎
28↩︎
29↩︎
30↩︎
31↩︎
32↩︎