2 Adat a történettudományban
2.1 Bevezetés
A digitális módszerek alkalmazása a történettudományban alapvető kérdéseket vet fel arról, hogyan viszonyulunk forrásainkhoz, milyen interpretációs döntéseket hozunk már az adatgyűjtés kezdeti fázisában, és milyen etikai következményekkel járnak ezek a döntések. Ez a fejezet három fő kérdéskör mentén vezeti be a digitális történészi munkát:
- Mi a különbség az adat és a forrás között, és miért fontos ez a megkülönböztetés?
- Milyen típusú adatokkal dolgozik a digitális történész, és milyen módszertani kihívásokat vetnek fel ezek?
- Hogyan használjuk kritikusan a mesterséges intelligenciát a történeti kutatásban?
A fejezet célja bevezetni azokat az alapelveket, amelyek minden digitális bölcsészeti projekt alapját képezik.A döntések arról, hogyan alakítjuk át a forrásokat számítógéppel feldolgozható digitális formátumúvá, hosszú távú következményekkel járnak, éppúgy, ahogy a kutató által használt folyamatok hatással vannak az eredmények megértésére és interpretációjára.1
2.1.1 Digitális forrásgyűjtemények Magyarországon
Napjainkra hatalmas mennyiségű történeti forrásanyag vált elérhetővé és kereshetővé különböző digitális gyűjteményekben, így például az Arcanum Digitális Tudománytárban, a Hungaricana vagy az Adatbázisok Online felületén.
Fő magyar digitális platformok:
- Arcanum Digitális Tudománytár (https://adtplus.arcanum.hu/)
Magyar sajtóarchívum Könyvek, lexikonok 2. Hungaricana (https://hungaricana.hu/)
Levéltári források Folyóiratok, térképek Könyvek 3. Adatbázisok Online (https://adatbazisokonline.hu/)
Levéltári adatbázisok
A digitalizáció kihívása:
A digitalizált szövegek és az ezekhez rendelt metaadatok elemzése nagyban megkönnyíti a forrásokhoz való hozzáférést, de egyben új kihívásokat is támaszt, hiszen lehetőséget ad a big data/big text jellegű megközelítés történettudományi kutatásokra történő kiterjesztésére, amihez azonban a források újfajta megközelítése, feldolgozásukhoz pedig újfajta módszertan szükséges.
2.2 Forrás és adat: alapvető megkülönböztetés
2.2.1 Fogalmi különbségtétel
A hétköznapi nyelvhasználatban az “adat” és a “forrás” gyakran felcserélhető fogalmak. A digitális módszertanban azonban kritikus különbséget kell tennünk közöttük, amely alapvetően meghatározza kutatásunk jellegét és interpretációs kereteit.
Forrás (source): A történeti dokumentum maga - levél, irat, újságcikk, fénykép, amely információt hordoz a múltról.
Adat (data): Strukturált információ, amelyet mi nyerünk ki a forrásból kutatási kérdéseink és elméleti kereteink alapján. Az adat mindig interpretáció eredménye, kategorizálás és értékelés terméke.
A különbség nem pusztán fogalmi játék. Minden adat-előállítási folyamat döntések sorozatát jelenti: mit számítunk relevánsnak, milyen kategóriákat használunk, mit hagyunk figyelmen kívül, és kinek az érdekét szolgálja az adatgyűjtés módja.
2.2.2 Capta, nem data
Johanna Drucker2 azt javasolja, hogy a “data” helyett használjuk a “capta” kifejezést a bölcsészettudományokban. A különbségtétel nem csupán terminológiai precizitás kérdése, hanem epistemológiai állásfoglalás.
A “data” (latinul: “adott”) problémái:
A “data” szó etimológiája azt sugallja, hogy az információ “ott van” a világban, passzívan várva felfedezésre. Ez a felfogás:
- Elrejti az aktív interpretációs munkát
- Sugallja a semlegességet és objektivitást
- Naturalizálja a kutató döntéseit
- Láthatatlanná teszi a hatalmi viszonyokat
A “capta” (latinul: “vett, választott”) előnyei:
Ezzel szemben a “capta” kifejezés explicit módon elismeri, hogy:
- Az adatot mi konstruáljuk, nem “adjuk” magát
- Minden adat aktív válogatás eredménye
- A kutatói döntések politikai és etikai implikációkkal bírnak
- A kategóriák nem semlegesek, hanem értékeket tükröznek
Drucker3 szerint az adat soha nem ‘nyers’, hanem mindig már feldolgozott interpretációs kereteken keresztül. A capta koncepció arra emlékeztet bennünket, hogy minden adatgyűjtési aktus egyben interpretációs aktus is.
2.2.3 Példa: Népszámlálás mint konstruált adat
Vizsgáljuk meg egy konkrét eseten keresztül, mit jelent a capta perspektíva.
1880-as népszámlálás Magyarországon:
Első látásra: objektív statisztikai adat - számok, nevek, foglalkozások, háztartások.
Közelebbről nézve: interpretációs döntések rendszere:
Ki számít “lakosnak”? - Bejelentett lakóhellyel rendelkezők: igen - Nomád népek (vándorló romák): nem - Hajléktalanok: nem - Ideiglenesen tartózkodók: nem - Katonák, foglyok: ?
Milyen kategóriákat használtak? - Nem: férfi/nő - Foglalkozás: előre definiált lista (mi van a nem-hivatalos munkákkal? a női háztartási munka?) - Nemzetiség: “anyanyelv” alapján (mi van a kétnyelvűekkel? a vegyes családokkal?) - Családi állapot: nős, hajadon, özvegy (mi van az élettársi kapcsolatokkal?)
Mit számoltak? - Életkor, foglalkozás, vallás, műveltség - Nem számolták: jövedelem, vagyon, egészségi állapot, boldogság, társadalmi kapcsolatok
Ki gyűjtötte és miért? - Állami adminisztráció - Célok: katonai toborzás, adóztatás, nemzetiségi politika - Nincs részvétel az érintett közösségek részéről
A népszámlálás tehát nem “adja magát”, hanem egy adott politikai, közigazgatási és tudományos logika szerint konstruált adathalmaz. Amikor használjuk, reflektálnunk kell ezekre a döntésekre és azok hosszú távú hatásaira.
2.3 Mi a digitális bölcsészet?
2.3.1 Eszköztár vagy új tudományág?
Különféle elnevezések léteznek a számítógép és a számításelmélet bevonásával végzett bölcsész- és társadalomtudományi kutatásokra. A számítógép megjelenésétől fogva együttesen vannak jelen azok az elképzelések, melyek csak eszközként tekintenek a gépek használatára, s melyek ezen túlmutatónak gondolják a gépesítés hatását.4
Két alapvető megközelítés bontakozik ki ebből a vitából. Az egyik szerint a számítógép csupán eszköz, amely segíti a kutatást, de nem változtatja meg a tudományág alapjait. A másik értelmezésben viszont a számítógép transzformáló erővel bír: új kérdéseket, módszereket és paradigmákat hoz létre. Mindkét oldal azonban egyetért abban, hogy “a számítógép és az internet adta lehetőségek nagyban segítik a kutatást. A technológia gyors fejlődése, az azt kihasználó digitalizálási projektek a kutatómunka mindennapjait is megváltoztatták.”5
A terminológiai változások jól szemléltetik ezt a feszültséget. Míg korábban számítógépes bölcsészetről (computing humanities), bölcsészeti számítástudományról (humanities computing) vagy bölcsészinformatikáról (humanities informatics) beszéltek, mára a digitális bölcsészet (digital humanities) elnevezés vált dominánssá, és újabban pedig a “big data a bölcsészettudományban” vagy a “mesterséges intelligencia a bölcsészettudományban” kifejezések jelennek meg.6
Központi kérdés: De megváltoztatta-e alapjaiban a humán tudományokat, egyes területeit a számítógép bevonása? Csak a kérdések megválaszolásának módja változott, vagy a kérdések is?7
2.3.2 Az alapító projektek és módszereik
A digitális bölcsészet születése gyakran Roberto Busa nevéhez kapcsolódik, aki 1949-ben az IBM segítségét kérte Aquinói Szent Tamás műveinek számítógépes feldolgozásához, de digitális bölcsészeti publikációk csak a 70-80-as években láttak napvilágot.8 Az Index Thomisticus végül egy konkordancia-jegyzék lett, amely 11 millió szóelőfordulást tartalmaz, a szavakat előfordulás és szótári alak szerint rendezve.
A projekt szimbolikus jelentőségét azonban nem elsőbbsége, hanem kitartó életben maradása adja. Az Index Thomisticus megért lyukkártyás, nyomtatott (1974-től), CD-ROM-os (1992) és webes kiadásokat (2005-től) is, az elmúlt hét évtizedben készítői mindig megteremtették a lehetőséget munkájuk továbbvitelére, az újabb számítógépes környezetbe való átültetésre.” Ez a folyamatos megújulási képesség tette igazán jelentőssé a projektet. Busa munkássága annyira meghatározó lett, hogy 1998-ban megalapították az ADHO (Alliance of Digital Humanities Organizations) által háromévente odaítélt Busa-díjat, amelynek első díjazottja maga Busa volt.9
Kevésbé ismert, de módszertanilag talán még jelentősebb Jean-Claude Gardin munkássága, akit sokan a számítógépes régészet úttörőjeként tartanak számon. Gardin 1956-tól kezdve foglalkozott számítógépes dokumentálással, katalogizálással és szövegelemzéssel, de ami igazán újszerű volt munkásságában, az a modellezésre helyezett hangsúly. Kutatóközpontjának neve, a Centre d’Analyse Documentaire pour l’Archéologie (Archeológiai Dokumentációelemzési Központ) is ezt a metodológiai fókuszt tükrözte.10
Gardin módszere szigorú formalizálásra épült. Ez a megközelítés egy úgynevezett metanyelv kidolgozásához vezetett, amely három részből áll: a kifejezések összességéből, ezek szemantikai rendszerezéséből, valamint azon szintaktikai elemekből, melyek az előbbiek kapcsolatait határozzák meg. Gardin kutatási területei igen változatosak voltak - a görög vázák ikonográfiájától az asszír kereskedők kappadókiai hálózatán át a bronzkori eurázsiai fejszék automatikus klasszifikációjáig terjedtek. Fontos, hogy Gardin csoportja “a régi szövegekkel kapcsolatos kutatásaik során azok szemantikai elemzésére, nem annyira azok filológiai vizsgálatára koncentráltak,”11 ami megkülönböztette őket Busa kezdeményezésétől.
2.3.3 A modellezés mint központi paradigma
Willard McCarty gondolatai, amelyeket Maróthy12 részletesen bemutat, a digitális bölcsészet egyik legfontosabb elméleti kérdését érintik: mi a számítógép valódi szerepe a humán tudományokban? McCarty szerint “a számítógép alapvetően modellezésre szolgál, nem a tudás zenegépe… ha csak erre használnánk, az az emberi tudás mélységes félreértése lenne.”13 A tárolás és visszakeresés ugyan hasznos funkció, de önmagában nem elég. A valódi paradigmaváltás, amely akár új kutatási irányokat is nyithat, a modellálásban rejlik.
Tito Orlandi ezt a gondolatot tovább viszi, amikor megjegyzi, hogy “a számítógép megfelelő használata éppen az lenne, hogy számítási feladatokat végezzünk vele, nem az, hogy számoljunk.”14 Ez a megkülönböztetés azt jelenti, hogy nem az egyszerű statisztikai műveletekről van szó, hanem komplex rendszerek formális leírásáról és elemzéséről. Orlandi szerint nem számít számítógépes bölcsészetnek egy szövegkorpusz önmagában, értelmező címkék nélkül, vagy egy történeti forrás egyszerű fotómásolata a weben, sőt még az egyszerű statisztikai számítások sem szerzői attribúciók eldöntésére. John Unsworth “sarlatánoknak” nevezi azokat, “akik a felszínes hatáskeltésre, az azonnali eredményekre és az előrecsomagolt konklúziókra építik ‘tudományukat’.”15
De mit is jelent a modell? Maróthy16 definíciója szerint a számítógépes modell “tárgyának olyan reprezentációja, mely explicit és konzisztens módon írja azt le, s mely számítógépes eszközökkel kezelhető.” A modellezés két szakaszra bontható: a felépítésre és a kezelésre, manipulációra. McCarty megkülönböztet “model of” és “model for” típusokat. Az előbbi valamely létező reprezentációja - nyelv, szöveg vagy tárgyak reprezentálása -, amelynek célja a létezők tanulmányozása és új jelenségek felfedezése. Ez “azt mondja meg, amit nem tudunk.”17 Az utóbbi valamely létrehozandó egyszerűsített megvalósítása, célirányos modellezés, amely “azt nyújtja, ami még nem áll rendelkezésünkre.”18
Az időtállóság kérdése különösen fontos. McCarty szerint “míg az egyes szoftverek és hardverek élettartama igen rövid, egy következetesen és áttekinthetően létrehozott modell könnyen átvihető egyik hordozóról, kódolásból, alkalmazásból a másikba.”19 Maróthy azonban gyakorlatias szempontból hozzáteszi: “Persze ez pusztán elméleti megközelítés: a gyakorlatban ennek számos buktatója akad.”20
2.4 A digitális bölcsészeti munkafolyamat
2.4.1 A digitális projekt három komponense
Drucker21 szerint minden digitális bölcsészeti projekt három fő komponensből áll:
ANYAGOK + FELDOLGOZÁS + BEMUTATÁS
1. ANYAGOK (Materials):
Az anyagok lehetnek analóg vagy digitálisan született források. Ezek jelenthetik a kutatás alapját: képek, szövegek, térképek, 3D modellek, hang- és médiafájlok, vagy ezek bármilyen kombinációja.
Kritikus kérdés: Hogyan digitalizáljuk ezeket az anyagokat? Milyen formátumot választunk? Ezek a döntések meghatározzák, hogy később milyen elemzési módszereket tudunk alkalmazni.
2. FELDOLGOZÁS (Processing):
Ez magában foglalja a számítógépes elemzést: adatbányászatot, statisztikai elemzést, vizualizációt, hálózatelemzést és más algoritmusok alkalmazását.
Kritikus kérdés: Mely algoritmusokat használjuk és miért? Milyen előfeltevések épülnek bele ezekbe a folyamatokba? Ahogy Drucker22 figyelmeztet: “A feldolgozás gyakran a digitális bölcsész munkájának fekete doboza, mivel nagy részét készen kapott eszközökkel végezzük, amelyek működése láthatatlan vagy érthetetlen a felhasználó számára.”
3. BEMUTATÁS (Presentation):
Az eredmények megjelenítése történhet online platformokon vagy offline formában (publikációk).
2.4.2 Az adat-életciklus öt fázisa
Drucker23 öt alapvető tevékenységet azonosít, amelyek átívelnek a teljes digitális kutatási folyamaton:
1. Közvetítés/Újraközvetítés
Ez a munka analóg anyagok - mint térképek, kéziratok, régészeti leletek, vagy történelmi események elsődleges dokumentumai - digitális formátumban történő elérhetővé tételét vagy digitálisan született anyagok létrehozását és használatát jelenti.24
Kritikus kérdések: - Mit veszítünk az analóg eredeti digitalizálása során? - Milyen implicit döntések épülnek bele a digitalizálás folyamatába? - Ki dönt a digitalizálás prioritásairól?
2. Adatformálás/Modellezés
Ez az a munka, amelynek során értékeket vonunk ki egy jelenségből vagy tárgyból. Ezek az értékek kifejezhetők számokban vagy szövegekben, és szükségszerűen a komplex anyagok redukcióját jelentik számítási formátumra.25
Kritikus kérdések: - Milyen kategóriákat használunk? Honnan származnak? - Mit számítunk relevánsnak? Mit hagyunk ki? - Kinek az érdekét szolgálja ez az adatmodell?
Példa: Prozopográfiai adatbázis
Amikor eldöntjük, hogy egy személyről mit rögzítünk (név, születési év, származási hely, szerepek száma), mi határozzuk meg, mi számít fontosnak. Ez nem semleges döntés - tükrözi kutatási kérdéseinket, előfeltevéseinket, korlátainkat és értékeinket.
3. Feldolgozás/Elemzés
Ez magában foglalja a számítási feldolgozás során történő automatizált számolást, rendezést vagy elemzést. Minden számítási folyamat modelleket foglal magában, bármilyen automatizált is legyen a működése.
Kritikus kérdések: - Milyen kulturális feltevéseket tartalmaznak az algoritmusok? - Hogyan erősítik meg az algoritmusok a modelljeikbe épített elfogultságokat? - Mely elemeket értékeljük a kulturális feljegyzésekben mások fölé?
4. Bemutatás/Megjelenítés
Az eredmények bemutatása gyakran digitális formát ölt, néha online környezetben, vizualizációk, térképek, diagramok, történetek, cikkek vagy kiállítások formájában.
“Minden kutatási prezentáció egy narratíva szerint strukturált, amely szervezi a megjelenítést. Még a legegyszerűbb interfész-tervezés is döntéseket testesít meg arról, mi a fontos és mi nem, mit kell felfedni és mit elrejteni.”26
Kritikus kérdések: - Milyen narratívát közvetít a prezentáció? - Mit mutat és mit rejt el? - Ki a célközönség és milyen előfeltevésekkel rendelkezik?
5. Fenntarthatóság/Megőrzés
Ezt a kezdeti tervezéstől figyelembe kell venni. A kezdeti tervezési döntések függenek az intézményi környezettől, az elérhető erőforrásoktól és szakértelemtől, valamint a projektspecifikus tényezőktől.
Kritikus kérdések: - Ki őrzi meg az adatokat hosszú távon? - Milyen fenntartási költségekkel jár a projekt? - Kinek az érdeke a projekt megőrzése?
2.4.3 Technológia és értékek
Minden digitális módszer tükrözi a tervezői döntéseket, kulturális előfeltevéseket és hatalmi viszonyokat.27
Ez azt jelenti, hogy:
- Az algoritmusok nem objektívek: Minden algoritmus tükrözi azokat az értékeket és feltevéseket, amelyeket beleépítettek.
- Az automatizálás nem semleges: A hatékonyság és az automatizálás gyakran elfedi a döntéseket és az elfogultságokat.
- A számítás nem helyettesíti az interpretációt
Kritikus kérdések minden fázisban:
- Ki dönt a digitalizálás prioritásairól? Mely források digitalizálódnak először és miért?
- Milyen kategóriákat használunk? Kit/mit zárunk ki a modellből?
- Mely algoritmusokat alkalmazzuk? Milyen kulturális elfogultságokat hordoznak?
- Ki a célközönség? Kinek van hozzáférése az eredményekhez?
- Ki őrzi meg az adatokat? Kinek az érdeke a projekt hosszú távú megőrzése?
2.5 Három adat-típus a történészi kutatásban
A történész három fő adat-típussal találkozik munkája során. Nem minden projekt tartalmazza mindhárom típust, de a megkülönböztetés megértése kritikus a módszertan helyes alkalmazásához.
2.5.1 Forrásban lévő adat
Olyan információ, amely “adatként” jött létre a forrás keletkezésekor.
Különbséget teszünk strukturált és strukturálatlan adat között:
Strukturált adat: - Táblázatos formában létezik (sorok, oszlopok) - Számszerű vagy kategoriális értékeket tartalmaz - Közvetlenül beilleszthető adatbázisba - Például: népszámlálási táblák, költségvetések, statisztikai kimutatások
Strukturálatlan adat: - Szöveg, kép, hang formájában - Nincs előre definiált struktúrája - “Adat-szerűvé” kell alakítani - Például: levelezés, feljegyzések, sajtóanyagok
2.5.1.1 A kvantitatív történettudomány fejlődése
Narratív korszak (20. század elejeig): - Tisztán leíró történetírás - Kvantifikáció nélkül - Filológiai, szövegkritikai módszertan
Annales-fordulat (1920-30-as évek):
Az Annales folyóirat vezető történészei által kezdeményezett paradigmaváltás, aminek következtében a történetírás szakított a szorosan vett filológiai, szövegkritikai módszertannal, és elkezdte kihasználni a mérésben rejlő elemzési lehetőségeket, elsődlegesen a gazdaság- és társadalomtörténet-írás területén a különböző statisztikai adatsorok elemzésbe való bevonásával.”
Kvantitatív programok (1970-es évek):
Magyarországon is megindult a diskurzus: Felismerték, hogy a számítógép használata nemcsak olyan források feldolgozását teszi lehetővé, amire manuálisan nem nyílna lehetőség, de egyben a forrásokból kinyerhető információk körét is bővíti
2.5.1.2 Három típus
1. Illusztratív használat: - Hagyományos narratíva - Statisztikai adatok illusztrációként - A leggyakoribb gyakorlat
2. Kliometrikus történetírás: - Közgazdasági modellek tesztelése történeti anyagon - Változók közötti viszonyok modellezése - Elméleti keretben történő értelmezés
3. Retrospektív mérlegek: - Nemzetgazdasági statisztikákra épül - De: “lényeges szerepet tulajdonít az adott időben és adott helyén lejátszódott történeti eseményeknek is” - Nem pusztán számok, hanem kontextus is számít
A kvantitatív történettudomány elsősorban a forrásokban rejlő strukturált, számszerű(síthető) adatok – statisztikák, összeírások stb. – elemzésében ragadható meg.
Példák forrásban lévő adatra:
- Népszámlálások és népességi statisztikák
- Gazdasági statisztikák (árak, bérek, termelési adatok)
- Költségvetések, számadások, könyvelési iratok
- Választási eredmények
- Halálozási/születési nyilvántartások
- Iskolai beiratkozási adatok
- Meteorológiai mérések
- Földmérési adatok
2.5.2 Adatbázisba rendezhető adat
Definíció: Olyan információ, amelyet mi strukturálunk a forrásokból adatbázissá a kutatási kérdéseinknek megfelelően.
Jellemzők:
- A forrásban nincs táblázatos vagy strukturált formában
- Mi határozzuk meg: milyen mezők, kategóriák, relációk
- Relációs gondolkodás: entitások (személyek, helyek, események) és kapcsolataik
- Az adatmodell = interpretáció
Tipikus formák:
Prozopográfia: Kollektív életrajz - sok személy strukturált adatainak gyűjtése és elemzése. Célja történelmi csoportok, hálózatok vagy társadalmi rétegek megismerése.
Archontológia: Hivatalviselők, tisztségek, adminisztratív pozíciók adatbázisa. Célja intézményi struktúrák és hatalmi viszonyok feltérképezése.
Hálózatelemzés: Ki kapcsolódik kihez, mikor, milyen típusú kapcsolatokkal. Célja kapcsolati struktúrák és információáramlás megértése.
Példák konkrét alkalmazásokra:
- Levelezés → feladó/címzett/dátum/helyszín/téma adatbázis
- Parlamenti képviselők → név/párt/mandátum/szavazatok/felszólalások
- Színházi előadások → darab/rendező/színészek/helyszín/dátum/kritikák
- Perek → felek/bírók/vádak/ítéletek/fellebbezések
- Tudományos publikációk → szerző/intézmény/téma/hivatkozások
Módszertani döntések:
Az adatmodell megalkotása interpretációs döntések sorozata. Amikor eldöntjük, mely mezők kerüljenek az adatbázisba, mi határozzuk meg, mi számít fontosnak.28
Az adatmodellezés döntési pontjai:
- Milyen entitásokat (objektum-típusokat) veszünk fel?
Csak személyek? Vagy intézmények, események, helyek, művek is? 2. Milyen mezőket/attribútumokat rögzítünk?
Név, születési év, foglalkozás - de miért nem pl. magasság, hajszín, jellemvonások? 3. Milyen relációkat tartunk számon?
Családi? Munkahelyi? Baráti? Ellenségi? Tanár-diák? Levelező-partner? 4. Hogyan kategorizálunk?
Foglalkozások: előre definiált lista vagy szabad szöveg?
Társadalmi státusz: hogyan modellezzük?
Politikai orientáció: hogyan definiáljuk?
Példa - Prozopográfiai adatmodell:
Építünk egy adatbázist az 1950-60-as évek magyar színésznőiről.
Entitások: - SZEMÉLY: színésznők - ELŐADÁS: színházi produkciók - INTÉZMÉNY: színházak - SZEREP: kapcsolati tábla személy-előadás között
Személyek lehetséges mezői:
| Mező | Típus | Miért fontos? | Mit hagy ki? |
|---|---|---|---|
| Név | Szöveg | Azonosítás | Névváltoztatások |
| Művésznév | Szöveg | Szakmai identitás | Nem-hivatalos álnevek |
| Születési év | Szám | Életkor, generáció | Pontos dátum |
| Származási hely | Hely | Térbeli mobilitás | Családi gyökerek |
| Végzettség | Kategória | Képzettség | Informális tanulás |
| Politikai hovatartozás | Kategória | Karrierlehetőségek | Valós meggyőződés vs kényszer |
| Szerepek száma | Szám | Aktivitás mérése | Szerepek mérete/jelentősége |
De mi maradt KI a modellből?
- Családi állapot - miért nem releváns a kutatáshoz?
- Magánéleti kapcsolatok - etikai döntés
- Nem-hivatalos munkák és kapcsolatok
- Cenzúrázott vagy be nem mutatott szerepek
- Külföldi vendégszereplések
- Filmszerepek vs színházi szerepek
Minden mezőválasztás egyidejűleg megmutat és elrejt valamit. Az adatmodell sosem semleges - mindig tükrözi a kutató döntéseit, értékeit és korlátait.
2.5.3 Szöveg mint adat
** Nagy mennyiségű szöveg számítógépes elemzése - amit Franco Moretti distant reading-nek nevezett, szembeállítva a hagyományos “közeli olvasással” (close reading).
2.5.3.1 A Big Data kihívása
Ahogy Péter Róbert Nyilvánvaló, hogy az új adatbázisokban található szövegek mindegyikét képtelenség egy emberöltő alatt elolvasni és hagyományos eljárásokkal feldolgozni. 2010-ig csak a Google 15 millió könyvet digitalizált, a világon valaha megjelent összes könyv körülbelül 12%-át.29
A hatalmas szövegmennyiség új kihívást jelent:
Skála példák: - Google Books (2010-ig): 15 millió könyv digitalizálva - Ha valaki 2000 után megjelent angol nyelvű könyveket olvasna: 80 évig tartana megszakítás nélkül (200 szó/perc tempóval) - British Library: több millió digitalizált dokumentum
A big data / big text feldolgozásához új módszerek szükségesek.
2.5.3.2 Franco Moretti és a távoli olvasás
Alapelv:
Nem olvassuk el minden egyes szót egyenként, hanem mintázatokat keresünk nagyban, statisztikai módszerekkel és számítógépes algoritmusokkal.
Moretti “részben az Annales iskola hagyományaira építve, a kvantitatív és statisztikai módszerek használatát szorgalmazza egy racionálisabb és átfogóbb irodalomtörténet megalkotása érdekében.30
A klasszikus bölcsészettudomány problémája:
A hagyományos módszertan az ún. close reading-re, a szoros olvasás metodikájára épült: - Néhány szerző vizsgálata - Néhány szöveg elemzése - Emberi feldolgozhatóság korlátai
A távoli olvasás célja:
Nagy mennyiségű szövegek közötti kapcsolatok, párhuzamok, ismétlődő minták, ciklusok feltárása és elemzése, melyeket a limitált szoros olvasás nem képes feltárni.
Módszer:
Bár a modellezés során elveszítjük magát a szöveget, az absztrakciós eljárás új típusú ismereteket, összefüggéseket, folyamatokat és struktúrákat világít meg.
A szövegelemző eszközök matematikai modellek, amelyek statisztikai kapcsolatokat keresnek. Nem ‘értik meg’ a szöveget emberi értelemben.31
Kritikus kérdések:
- Mit “számol” a gép?
Szavak gyakorisága, együttes előfordulása - de mi van az implicit jelentésekkel, a hallgatások jelentőségével? 2. Kulturális/nyelvi bias:
Az algoritmusok angol nyelvű korpuszokon tanultak - mennyire működnek magyarul? Más nyelveken? Más kulturális kontextusokban? 3. “Fekete doboz” probléma:
Hogyan és miért azonosít az AI egy témát? Milyen feltevések épülnek bele a modellbe? 4. Interpretáció felelőssége:
A gép témákat/mintázatokat talál - de MI nevezzük el őket, MI értelmezzük, és MI vonjuk le a következtetéseket.
A digitális és módszertani forradalom új kutatási eszközöket ad a tudósok kezébe, de ezek eszközök, és nem célok.
2.6 AI használata a történeti kutatásban
2.6.1 Mi az AI és mi nem
A “mesterséges intelligencia” kifejezés félrevezető lehet. Pontosabb leírás:
AI = Statisztikai mintafelismerő rendszer, amely hatalmas szövegmennyiségen tanult, és valószínűségeket számol a következő szó, mondat vagy válasz előrejelzésére.
Ahogy Drucker32 fogalmaz a digitális eszközökről általában:
“A technológia nem gondolkodik helyettünk. Eszközöket biztosít, de az interpretáció felelőssége a kutatóé marad.”
Az AI nem: - Nem “gondolkodik” - Nem “érti” a szöveget - Nem rendelkezik tudatossággal vagy értékeléssel - Nem képes valódi kreativitásra
Az AI: - Mintázatokat keres - Valószínűségeket számol - Statisztikai kapcsolatokat azonosít - A tréning-adatok alapján “tanul”
Következmény: Az AI outputja mindig valószínűségi becslés, nem tényleges tudás vagy megértés.
2.6.2 Mikor hasznos az AI a történésznek?
Ajánlott használati területek:
- Ötletgenerálás: Kutatási kérdések finomítása, kulcsszavak javaslása
- Összefoglalás: Hosszú szövegek gyors átolvasása (de mindig ellenőrizendő!)
- Fordítás: Idegen nyelvű források első áttekintése
- OCR/Transzkripció: Nyomtatott vagy kézírásos dokumentumok gépi olvasása
- Kategorizálás: Nagy mennyiségű adat előszűrése, de validálás kötelező
- Adattisztítás: Duplikátumok, inkonzisztenciák keresése
Problematikus vagy veszélyes használat:
- Bibliográfia generálása: Az AI hallucinál, kitalál nem létező cikkeket és szerzőket
- Faktikus történeti adatok: Téved évszámokban, személynevekben, eseményekben
- Forráskritika: Nem érti a kontextust, nem ismeri fel a szarkazmust, iróniát
- Végső szöveg írása: Az AI nem helyettesítheti a kutató saját gondolatait
2.6.3 AI etikai alapelvek
Transzparencia: Mindig dokumentáljuk, mit használtunk AI-ra és hogyan
Validáció: Soha ne fogadjunk el AI outputot ellenőrzés nélkül
Felelősség: A kutató felel az eredményért, nem az AI
Bias-tudatosság: Az AI tükrözi a tréning-adatok torzításait (angol-centrikus, nyugati, mainstream perspektívák túlsúlya)
Kontextus: Az AI nem érti a történeti kontextust, kulturális árnyalatokat
Hallucinációk: Különösen veszélyes bibliográfiánál és faktikus adatoknál
A digitális módszerek nem helyettesítik a hagyományos történészi munkát - kiegészítik, kiterjesztik és új kérdéseket tesznek lehetővé. De minden digitális döntés interpretációs döntés, és minden algoritmus értékeket hordoz. A kritikus reflektivitás nem opcionális - a felelős digitális történészi munka alapja.