4 Excel alapok I – Adatstruktúrák

Az Excelben nem elég tudni gombokat nyomni – először meg kell érteni, hogyan érdemes az adatokat elrendezni. Ez a fejezet arról szól, hogyan gondolkozzunk levéltárosként az adatstruktúráról, mielőtt egy sort is begépelnénk.


4.1 A munkafüzet felépítése

Az Excel fájl neve: munkafüzet (workbook). Egy munkafüzet több munkalapból (worksheet) áll – ezek a füzet fülei.

Munkafüzet (Fondnyilvantartas.xlsx)
│
├── Fondok        ← 1. munkalap
├── Kutatók       ← 2. munkalap
└── Referencia    ← 3. munkalap (segédtáblák)

Jó ökölszabály: Egy munkalap = egy jól körülhatárolt téma. Ne zsúfoljunk mindent egy lapra.

4.1.1 A tábla anatómiája

A munkalapon belül az adatokat táblázatban (tábla) tároljuk:

       A            B                C          D
1   Jelzet      Fond_neve       Kezdő_év    Záró_év      ← FEJLÉC SOR
2   XIX-A-1     Miniszterelnökség  1944       1949        ← 1. rekord
3   XIX-I-1     VKM                1945       1951        ← 2. rekord
4   XXVIII-M-19 MNDSZ             1948       1955        ← 3. rekord
Fogalom Magyarul Mit jelent?
Row Sor Egyetlen rekord (egy fond, egy irat, egy kutató)
Column Oszlop Egyetlen mező (jelzet, év, terjedelem…)
Cell Cella Egy adat: sor × oszlop metszéspontja
Header row Fejléc sor Az 1. sor – az oszlopok neve

4.2 Adattípusok – Mit tud tárolni egy cella?

Az Excel minden cellában megpróbálja felismerni, milyen típusú adatot adtunk meg. Ez automatikus, de nem mindig helyes – ezért fontos átgondolni, mit várunk el.

4.2.1 A négy alapvető típus

Típus Excel neve Levéltári példa Igazítás
Szöveg Text Jelzet, fond neve, raktár helye Bal
Szám Number Terjedelem (ifm), dobozszám Jobb
Dátum Date Keletkezési dátum, feldolgozás dátuma Jobb
Logikai Logical Digitalizálva? (IGAZ/HAMIS) Közép

Fontos! Az Excel a megjelenést és a tényleges típust külön kezeli. Az 1950 kinézhet számnak, de ha szövegként tárolja, nem tudunk rá számolni.

4.2.2 Hogyan ismerjük fel a típust?

Szám: jobbra igazított, nem kezdődik aposztróffal
Szöveg: balra igazított (vagy aposztróffal kényszerített: '01)
Dátum: jobbra igazított, formátumtól függően pl. 1950.01.01
Hibás típus: kis zöld háromszög a cella sarkában – Excel figyelmeztet


4.3 Levéltári fogalmak leképezése mezőkre

A levéltári nyilvántartás célja, hogy a valós iratanyagot pontosan leírjuk. Ehhez először végiggondoljuk: mit akarunk nyilvántartani?

4.3.1 A levéltári hierarchia

Levéltár
│
└── Fondfőcsoport (pl. XIX – Minisztériumok)
    │
    └── Fond (pl. XIX-A-1 Miniszterelnökség)
        │
        └── Sorozat / Állag (pl. iratok, naplók)
            │
            └── Doboz / Kötet
                │
                └── Irat

Egyetlen lapos táblában ezt a hierarchiát nem lehet teljesen visszaadni – de levéltári alapnyilvántartáshoz általában fond szinten dolgozunk.

4.3.2 Fond-nyilvántartás mezői – Tervezési folyamat

Kérdezzük meg: Mit szeretnénk tudni minden fondról?

Kérdés Mező neve Típus Példa
Melyik fond ez? Jelzet Szöveg XIX-A-1
Mi a neve? Fond_neve Szöveg Miniszterelnökség
Mikor keletkezett? Kezdő_év Szám (egész) 1944
Meddig tart? Záró_év Szám (egész) 1949
Mekkora? Terjedelem_ifm Szám (tizedes) 79
Hol van fizikailag? Raktári_épület Szöveg I. épület
Fel van-e dolgozva? Digitalizálva Szöveg (kód) Igen / Nem / Részben
Ki felelős érte? Kezelő_munkatárs Szöveg Kiss Katalin

Tervezési hiba: Ha utólag kell új oszlopot felvenni, az nem tragédia – de az adatok újrabekérése már igen. Érdemes előre átgondolni!


4.4 Mezőtervezési elvek

4.4.1 Egy mező = egy információ (atomicitás)

Rossz:

Terjedelem
5 ifm
3 doboz + 2 kötet

Jó:

Terjedelem_ifm   Doboz_db   Kötet_db
5                –          –
–                3          2

Miért fontos? Mert ha összevegyítjük az egységeket, nem tudunk összesíteni, rendezni, szűrni.

4.4.2 Jelzetek: szövegként, ne számként!

A jelzet (XIX-A-1, XXVI-I-65) szöveg típus, még akkor is, ha számot tartalmaz.

Miért?

  • A 001 vezető nullával szerepel → számmá alakítva 1 lesz
  • A XIX-A-1 kötőjeleket tartalmaz → Excel nem tudja számként kezelni
  • Rendezésnél különbség van: szöveg szerint XXV-10 < XXV-2 (betűrendben), szám szerint fordított

Trükk: Ha jelzetet viszünk be, amelyet az Excel számként értelmezhet (pl. 01), tegyünk elé aposztrófot: '01 – ezt az Excel szövegként tárolja.

4.4.3 Évek: szám vagy szöveg?

Helyzet Ajánlott típus Miért?
Kerek évszám (1950) Egész szám Tudunk rá számolni, szűrni (pl. 1945 előtti fondok)
Bizonytalan (1950?) Szöveg A kérdőjel miatt nem lehet szám
Dátumtartomány (1950–1960) Két külön mező Csak így szűrhetünk időszakra

Helyes: Kezdő_év és Záró_év két külön, egész szám típusú mező.

4.4.4 Mértékegységek külön!

Rossz:

Terjedelem
5 ifm

Jó:

Terjedelem_ifm
5

Az egységet az oszlop nevébe vagy egy külön Egység oszlopba tegyük – sosem a cellába az értékkel együtt!

4.4.5 Kódolt értékek: legyen lista!

Ha egy mező csak néhány értéket vehet fel, definiáljuk előre a kódokat:

Mező Megengedett értékek
Digitalizálva Igen, Nem, Részben
Raktári_épület I. épület, II. épület, III. épület
Állapot , Közepes, Rossz, Restaurált

Ez adatvalidáció alapja lesz – a következő fejezetben beállítjuk Excelben is.


4.5 Hierarchikus adat lapos táblában

A levéltári hierarchia (fond → sorozat → doboz) lapos táblában csak bizonyos szintig ábrázolható. Az alábbi táblázat mutatja, hogyan kezelhetjük ezt Excelben:

4.5.1 Megközelítés 1 – Fond szintű tábla (ajánlott kezdőknek)

Minden sor egy fond:

Jelzet Fond_neve Kezdő_év Záró_év Terjedelem_ifm
XIX-A-1 Miniszterelnökség 1944 1949 79
XIX-I-1 VKM 1945 1951 447

Előny: Egyszerű, könnyen kezelhető
Hátrány: Nem tároljuk a doboz szintű adatokat

4.5.2 Megközelítés 2 – Doboz szintű tábla

Minden sor egy doboz, és a fond adatait megismételjük:

Fond_jelzet Fond_neve Doboz_sz Doboz_tartalom Terjedelem_ifm
XIX-A-1 Miniszterelnökség 1 Minisztertanácsi jk. 1944–1945 0.4
XIX-A-1 Miniszterelnökség 2 Minisztertanácsi jk. 1945–1946 0.4
XIX-I-1 VKM 1 Általános iratok 1945 0.3

Előny: Részletes
Hátrány: A fond neve ismétlődik → redundancia (ld. 1. fejezet)

Jó megoldás: Két munkalap – Fondok (fond szintű adatok) és Dobozok (doboz szintű adatok, ahol a Fond_jelzet összeköti őket). Ez közelít a relációs modellhez.


4.6 Referencia (segéd) táblák

A kódolt értékeket érdemes külön munkalapra gyűjteni. Ennek neve: referencia tábla vagy segédtábla.

4.6.1 Példa: Raktárak

Referencia munkalap:

Épület_kód Épület_neve Cím Kapacitás_ifm
I. épület Főépület Bp., Bécsi u. 1. 2000
II. épület Melléképület Bp., Bécsi u. 3. 1500
III. épület Külső raktár Bp., Raktár u. 5. 3000

Miért hasznos? - A Fondok lapon csak a rövid kódot tároljuk (I. épület) - Ha az épület neve változik, egy helyen javítjuk - Validációhoz ebből a listából húzzuk a dropdown értékeket


4.7 Mezőnév-konvenciók

A fejléc sorban lévő nevek az adatbázis-kezelés alapjai. Kövessük ezeket a szabályokat:

Szabály Rossz
Nincs szóköz Fond neve Fond_neve
Nincs ékezet (adatbázis-kompatibilitáshoz) Kezdő év Kezdő_év vagy Kezdo_ev
Rövid, de értelmes T Terjedelem_ifm
Egységes stílus FondNev, fond_jel Fond_neve, Fond_jelzet
Egyedi az egész munkafüzetben két Dátum → melyik? Keletkezési_dátum, Feldolgozás_dátuma

Miért számít? Ha Accessbe, SQL-be vagy más rendszerbe viszszük az adatokat, a szóközök és ékezetek problémát okozhatnak. Érdemes már Excelben tisztán tartani.


4.8 A jó struktúra ellenőrzése – Önálló feladat

Nézzük meg a következő táblázatot és keressük meg a hibákat!

Hibás tábla:

Fond Adatok Terjedelem Raktár
XIX-A-1 Miniszterelnökség 1944–1949 79 ifm I. épület
XIX-I-1 1945–1951 447 ifm II. épület
XXVIII-M-19 MNDSZ 1948-55 1.6 III
I. épület

Azonosítható hibák: 1. Fond oszlopban a jelzet és a fond neve összevonva → ketté kell választani 2. Adatok oszlopban az évtartomány egy mezőbenKezdő_év és Záró_év kell 3. Terjedelem értékek mögött egység (ifm) is szerepel a cellában → az egység az oszlop nevébe kerül 4. Raktár oszlopban III és III. épületnem konzisztens 5. Üres sor a 4. rekord helyén 6. Dátumformátum inkonzisztens: 1944–1949 vs. 1948-55

Javított tábla:

Jelzet Fond_neve Kezdő_év Záró_év Terjedelem_ifm Raktári_épület
XIX-A-1 Miniszterelnökség 1944 1949 79 I. épület
XIX-I-1 VKM 1945 1951 447 II. épület
XXVIII-M-19 MNDSZ 1948 1955 1.6 III. épület

4.9 Összefoglalás

Az adatstruktúra tervezése megelőzi az Excelbe való begépelést. A legfontosabb elvek:

  • Egy mező = egy információ – atomicitás
  • Adattípus tudatosan – szöveg, szám, dátum nem keverhető
  • Jelzetek szövegként, évek egész számként
  • Mértékegység az oszlop nevébe, nem a cellába
  • Kódolt értékekhez referencia tábla
  • Mezőnevek szóköz és ékezet nélkül, egységes stílusban
  • Hierarchia → több munkalap vagy több tábla

4.10 Ellenőrző kérdések

  1. Mi a különbség a munkafüzet és a munkalap között?
  2. Milyen típusú adatot tároljunk egy jelzetmezőben (szöveg vagy szám)? Miért?
  3. Miért tároljuk a kezdő és záró évet két külön mezőben?
  4. Mit jelent az atomicitás elve? Hozzon levéltári példát a megsértésére!
  5. Miért nem szabad az egységet (pl. „ifm”) a terjedelem cellájába írni?
  6. Mire való a referencia tábla? Hozzon rá példát a levéltári nyilvántartásból!
  7. Hogyan ábrázolható a levéltári hierarchia lapos táblában? Milyen kompromisszumokkal jár?
  8. Milyen szabályokat kövessünk a mezőnevek kialakításakor?
  9. Mik a különbségek a szám és szöveg típusú adatok megjelenítésében Excelben?
  10. Keresse meg és javítsa a következő fejléc hibáit: Fond neve, Kezdő dátum, T(ifm), Raktár szám!

4.11 Következő fejezet

A következő fejezetben az elméleti alapokra Excelt nyitunk: navigáció, fejléc kialakítása, formázás, szűrés, rendezés és adatvalidáció – a gyakorlatban.