3. fejezet - Intézményi repozitóriumok technológiája

Tartalom

Szabványok
Metaadatok
Azonosítás
Láthatóság növelése
Metaadat-struktúra
Interoperabilitás
Validátorok
Regiszterek
Nemzetközi vonatkozású projektek
Aggregátorok, Keresők
Állandó azonosítók
Egyedi azonosítók:
Adattár által biztosított stabil link mint egyedi azonosító
Adatgondozás (Curation)
Intézményi repozitóriumok alapelemei
Adattár alkjalmazások
Hardverigény

A tudás reprezentálásához elengedhetetlen a tudományos eredmények világhálón történő megosztása és a hosszútávú megőrzés biztosítása a digitális anyagok megfelelő módon történő archiválásával. Ennek megteremtéséhez szabványos protokollokra építő digitális adattárak kialakítása szükséges. A tároláshoz és megosztáshoz használt alkalmazás kiválasztásához vagy kifejlesztéséhez szükséges a következő fogalmak ismerete, melyek a következő fejezetekben kerülnek bemutatásra.

Szabványok

Metaadatok

Definíció szerint a metaadat nem más, mint ’adat az adatról’. Metaadatok használata nélkül a digitális anyag nem azonosítható megfelelően és íly módon mondhatni használhatatlan is. A metaadat nem más, mint leíró adatok és tartalmi információk összessége, mely egy adott dokumentumot jellemez, ezzel segítve annak azonosítását, visszakereshetőségét, illetve a hozzáférési szintek meghatározását. Vagyis egy digitális dokumentum minőségét nemcsak a tartalmi és technikai paraméterei jellemzik, hanem meghatározó tényező az is, hogy milyen metaadatokkal lett ellátva.

A metaadatok funkciójukat tekintve a következő csoportokba sorolhatók:

  • Leíró metaadatok

    A leíró metaadatok szolgálnak a digitális dokumentum jellemzésére.

  • Adminisztratív metaadatok

    A dokumentumhoz tartozó technikai információk, melyek archiválási és megőrzési (nevezhetők megörzési metaadatként is), származási és jogosultsági (nevezhetők felhasználási metaadatként is) információkat tartalmaznak. Ilyen pl. a feltöltött fájlok mérete és formátuma, az adattárba kerülés időpontja, stb.

  • Technikai metaadatok

    A digitális tartalom formai megjelenítésére vonatkozó adatok, mint pl. több fájl esetén a fájlok sorrendje.

Ugyanakkor a metaadatok mint adatok önmagukban még nem elegendőek, mert az értelmezésükhöz definiálni kell tudni jelentésüket. Egy szám önmagában ugyanis még nem teszi lehetővé, hogy eldöntsük róla, az egy könyvfejezet oldalainak a száma, vagy az adott folyóirat évfolyamszáma, melyben a cikk megjelent. A megfelelő értelmezéshez meg kell határozni a használt metaadat-elemek halmazát és azok jelentését. Az így kialakított készletet szokás metaadatsémának nevezni. Ezeket a sémákat a közösségek általában a felmerült igények alapján alakítják ki, legtöbb esetben egy-egy dokumentumtípushoz igazítva, vagy szakterületi jellegzetességeket figyelembe véve. A sémák használatával lehetővé válik a metaadatok értelmezhetősége akár automatikus úton is, ezzel biztosítva a digitális anyag újrafelhasználhatóságát, megoszthatóságát és minél szélesebb körben történő terjeszthetőségét.

Metaadatsémák

A metaadatsémák jellegüket tekintve szolgálhatnak általános célokat (pl. DC, MARC, MODS), oktatási anyagok leírását (pl. LOM, SCORM), archiválási és megőrzési célokat (pl. PREMIS, EAD), multimédiás anyagok leírását (pl. MPEG, Exif) vagy akár földrajzi információk meghatározását (ISO 19115). Néhány jelentősebb szabvánnyal ismerkedjünk meg kicsit közelebbről.

  • MARC

    MAchine Readable Cataloging: Jelenleg a könytári együttműködés legfontosabb szabványa. A számítógépes feldolgozás megkönnyítése érdekében a bibliográfiai adatokhoz kódokat rendeltek hozzá. Az első MARC formátumot, melyet USMARC néven ismerünk, a 60-as években fejlesztette ki az amerikai Kongresszusi Könyvtár (Library of Congress). A későbbiekben folyamatosan jelentek meg a szabvány nemzeti változatai, és 1994-ben megszületett a magyar változat, mely a HUNMARC névre hallgat. Sajnos a nemzeti változatok jelentősen eltérnek egymástól, így alkalmazásuk nem biztosít ugyanolyan mértékű interoperabilitást.

    A MARC rekordok felépítése a következő részekből áll:

    Rekordfej: A rekord feldolgozására vonatkozó adatokat tartalmaz, mint pl. a rekord hosszát, és a rekord legelején található.

    Mutató: Az adatmezők elhelyezkedését, hosszát, stb. határozza meg a rekordban.

    Adatmezők: Bibliográfiai és bizonyos adminisztratív adatokat tartalmaznak.

    Úgynevezett változó hosszúságú mezők. Mezőhívójelhez kapcsolódóan tartalmaznak indikátorokat, almezőket és adatokat. Legalább egy, de akár több almezőt is tartalmazhatnak. Egyesek jelentése és ismételhetősége a szabvány által meghatározott, másoké szabadon felhasználható. Az almezőket a szabvány szerinti központozási jelekkel kell elválasztani egymástól.

  • DC, qDC

    A Dublin Core Metadata Initiative által kidolgozott szabványok. Két változata létezik: az egyszerű és a minősített DC.

    Egyszerű Dublin Core (DC): Az 1990-es években kezdték el kidolgozni. A cél a kialakítás során az volt, hogy az adatforrások jellemzőit minél egyszerűbben lehessen megadni, minél kevesebb szabályozási korláttal, hogy minél szélesebb körben használják adatcsere során. Jelenleg is az OAI-PMH protokoll alapértelmezett metadatformátuma. Az egyszerű DC 15 alapelemet tartalmaz.

    9. ábra DC alapelemek

    9. ábra DC alapelemek

    Minősített Dublin Core (q(ualified)DC): Az egyszerű DC finomított változata. A pontosabb adatértelmezést teszi lehetővé azáltal, hogy egyes elemek több külön mezőre vannak osztva minősítők segítségével. Egyes értékek irányított értékeket vehetnek fel meghatározott értékhalmazokból.

    10. ábra qDC alapelemek

    10. ábra qDC alapelemek

  • MODS

    Metadata Object Description Schema: Bár a MARC formátum továbbfejlesztéseként megszületett a MARCXML, ez igazából csak kódolási forma szempontjából változtatott a szabványon, ezzel könnyítve az automatizált kommunikációt. Ugyanakkor mivel még mindig rengeteg számú mezőt, ezekhez kapcsolódva pedig almezőket és indikátorokat használ ez a szabvány is, ami - akárcsak a MARC szabvány esetén - a nem katalogizálóként dolgozók számára nehézkessé és túlbonyolítottá teszi a rekordok leírását. Ám az igény a gazdag hierarchikus leíró metaadatkészletre továbbra is fennállt. Így a MARC 21 egyes elemeire és ennek kiegészítésére építve a Network Development és az amerikai Kongresszusi Könyvtár MARC Szabvány Osztálya megalkotta a MODS szabványt.

    11. ábra MODS alapelemek 11. ábra MODS alapelemek

  • Exif

    A Japan Elctronic Industries Development Association-nak köszönhető a megszületése. A szó klasszikus értelmében nem nevezhető szabványnak, mert sem ipari, sem szabványügyi szervezet nem tartja karban hivatalosan, ugyanakkor szinte minden digitális kamera alkalmazza, így igen széles körben elterjedtnek nevezhető. A metaadat-gyűjtemény a JPEG-fájlba van ágyazva, és olyan információkat tartalmaz, mint: az eszköz (fényképezőgép) gyártója, a modell, felbontás (pixel, dpi), vaku-mód, expozíciós idő, rekesz nagysága, tájolás, dátum, és akár GPS koordináták a felvétel helyét illetően.

Metaadatsémák szerkezete

A metaadatséma elemei között létezhet szülő-gyermek viszony, vagy lehetnek lineárisak, vagyis ilyenkor az elemek egymástól függetlenek.

A lineáris adatszerkezettel rendelkező metaadatsémát nevezzük egyszintűnek. Ilyen például a Dublin Core metaadatséma, ahol nem definiálható semmilyen kapcsolat sem az elemek között, nem fejezhető ki viszony két elem kapcsán.

Abban az esetben, ha a metaadatséma jellege olyan, hogy az elemek egymásba ágyazhatók, ezáltal kapcsolat definiálható közöttük, hierarchikus felépítésről beszélünk.

Adatcsere biztosítása

Az interoperabilitás biztosításához és az adatok újrafelhasználhatóságának megteremtéséhez át kell tudni adni az adatokat más szolgáltatások számára, úgy mint pl. aggregátorok, keresők, más adattárak. Ehhez olyan interfészek implementálása szükséges, melyeken keresztül az adatok lekérdezhetők, illetve melyeken keresztül adatokat tud fogadni. Mivel az adatok nem feltétlenül olyan szabványnak megfelelően vannak tárolva az intézményi adattárban, mint amit a másik fél elvár, ezért az adattár oldalán meg kell oldani az adatok megfelelő formára alakítását. Ehhez konverziós folyamatok definiálása szükséges.

Crosswalk: Az átjárhatóság biztosításához az adattárak úgynevezett crosswalk-okat szoktak készíteni. Ezek valójában megfeleltetést definiáló fájlok, melyek feladata, hogy két különböző metaadatséma közötti megfeleltetésről gondoskodjon. Leírja és definiálja az egyik séma elemeinek, szemantikájának és a szintaxisának másik sémában való szerepét és felhasználási módját. Ennek segítségével a rendszer automatikusan át tudja konvertálni az adattárban szereplő tétel metaadatait egy másik rendszer által megkövetelt formátumba, amennyiben sikerült egyértelmű megfeleltetéseket definiálni a két séma elemei között.

  • OAI-PMH

    Open Archives Initiative – Protocol For Metadata Harvesting: Az adatszolgáltatók a szolgáltatást nyújtók számára biztosítják a metaadatokhoz való hozzáférést ezen módszer segítségével. A szolgáltatást nyújtó fél (Service Provider) le tudja kérdezni az adatszolgáltatónál (Data Provider) fellelhető adatokat és automatikus kérést indíthat az adatok begyűjtésére, aratására (harvest).

    A metaadat-struktúra leggyakrabban a Dublin Core séma alapján épül fel. A tételeket az adatszolgáltató halmazokba rendezheti (set) és a lekérdezések korlátozhatók halmazba való tartozás, illetve időbélyeg értéke alapján. Vagyis a teljes adattár aratása helyett lehetőségünk van csak adott halmazba tartozó, vagy pl. csak az adott dátumnál frissebb tételek lekérdezésére. Előfordulhat, hogy a válasz csak részlegesen érkezik meg, amennyiben a válasz nagysága túl nagy. Ekkor az adatszolgáltató a választ részletekben tudja átadni a szolgáltatást nyújtó számára. Az összes részválasz lekérdezéséhez átadásra kerül egy resumptionToken nevű érték, melynek segítségével kérhető le a válasz következő darabja. Az interfészen keresztül 6 különböző lekérdezéstípus áll rendelkezésre:

    • GetRecord

      Egy adott rekord lekérdezését teszi lehetővé. Kötelező paraméterként szerepeltetni kell a lekérni kívánt rekord egyedi azonosítóját, melyet az &identifier értékeként kell megadni. Felhasználandó még a &metadataPrefix paraméter is a lekérdezés során a metaadat-formátum meghatározására.Kötelező paraméterek: &identifier; &metadataPrefix

    • Identify

      Az adattárra vonatkozó információkat adja vissza.

    • ListIdentifiers

      A ListRecords lekérdezéshez hasonlóan visszatér az adattárban fellelhető rekordokkal, de ellentétben vele, nem adja vissza az összes adatot a rekordról, csak és kizárólag annak fejlécével tér vissza, ami az időbélyeget, a halmazinformációt és a rekord egyedi azonosítóját tartalmazza.

      Kötelező paraméterek: &metadataPrefix

      Opcionális paraméterek: &from; &until; &set

      Csak önmagában használható paraméter: &resumptionToken

    • ListMetadataFormats

      A metaadat-formátumok lekérdezésére szolgál. Ennek segítségével meghatározható, hogy milyen metaadat-formátumot támogat az adatszolgáltató. A kapott értékek a &metadataPrefix paraméter értékeként átadhatók a rekordlekérdezéseknél.

      Opcionális paraméterek: &identifier

    • ListRecords

      A legáltalánosabb lekérdezés, melynek segítségével begyűjthetők a rekordok az adattárból. 2 opcionális paraméterrel kiegészíthető a lekérdezés, mellyel korlátozható a begyűjtött rekordok száma: &set – adott halmazra való korlátozás; &from és/vagy &until- adott időszakra való korlátozás

      Kötelező paraméterek: &metadataPrefix

      Opcionális paraméterek: &from; &until; &set

      Csak önmagában használható paraméter: &resumptionToken

    • ListSets

      Segítségével lekérdezhetők az adattárban nyílvántartott halmazok.

      Csak önmagában használható paraméter: &resumptionToken

  • SWORD

    A SWORD protokollt a JISC támogatásával fejlesztették ki azzal a céllal, hogy kialakítsanak egy olyan egyezményes eljárást, mely lehetővé teszi elektronikus anyagok automatikus betöltését digitális repozitóriumokba. Az interfész kialakításával lehetőség nyílt rá, hogy különböző helyekről lehessen beemelni dokumentumokat az adattárba, akár az irodai programokból történő átemelés segítségével. Mi több, a protokoll segítségével lehetőség van arra is, hogy a betölteni kívánt anyagot egyszerre több adattárban is el tudjuk helyezni. A SWORD szabvány az Atom Publishing Protocol-ra épül, ami egy alkalmazás-szintű protokoll és webes tartalmak megjelentetését segíti, de nem valósítja meg annak összes funkcionalitását. Alkalmazásának feltétele, hogy a felhasználó oldalán elérhető legyen egy kliens, amin keresztül betöltést kezdeményezhet, az adattár oldalán pedig implementálva kell lennie az interfésznek, ami fogadni tudja az adatokat. A létező adattár alkalmazások közül a DSpace, az EPrints, és a Fedora is rendelkezik ilyen interfésszel. Két verziója is létezik: SWORD V1 és SWORD V2.

Azonosítás

Az adattár adminisztratív feladatai közé tartozik a jogosultságok és a hozzáférési szintek kezelése. A jogosultságok kiosztásához és a hozzáférési szintek meghatározásához a felhasználókat regisztrálni kell. A felhasználók nyilvántartásához vagy megköveteli a rendszer a lokális regisztrációt, vagy lehetővé tesz valamilyen központi rendszeren keresztül történő bejelentkezést, illetve engedélyezheti ezen módszerek hibrid használatát. A lokális regisztrációnak több hátránya is van. A felhasználó oldaláról kényelmetlen, hogy újabb felhasználói név és jelszó párost kell megjegyeznie, ami kevésbé felhasználóbaráttá teszi a rendszert. Az üzemeltetés oldaláról pedig az jelenti a nehézséget, hogy az önregisztrációval beléptetett felhasználók adminisztrálása jelentős feladatot ró a fenntartóra. A jogosultságok és hozzáférési szintek kézi menedzselése idő- és erőforrásigényes feladat, valamint ezáltal kevésbé gördülékennyé teszi a felhasználó számára a rendszer használatát. (Pl. várnia kell arra, hogy jogosultságot kapjon a feltöltésre.) Központi azonosító rendszerek használatával a felhasználó a ’megszokott’ intézményi felhasználói nevét és jelszavát használhatja a repozitóriumba való bejelentkezés során is. Továbbá különböző szabályok felállításával automatikusan oszthatók ki jogosultságok a felhasználók számára. (Pl. minden oktatói státuszú felhasználó feltölthet bármelyik gyűjteménybe, vagy adott kurzust felvett hallgatók hozzáférhetnek a kurzushoz tartozó oktatási segédanyagokhoz.) Az automatikus jogosultságkiosztás mellett továbbra is élhet az adminisztrátor a kézi jogosultságadás lehetőségével, így kezelhetővé válnak a kivételek is, mégis kevesebb adminisztrációt igényel üzemeltetés szempontjából.

Központi azonosítás:

  • LDAP

    Lightweight Directory Access Protocol: A felhasználóazonosítás valójában nem a szolgáltatás oldalán történik, hanem az csak fogadja az azonosítási paramétereket, melyeket a szabványnak megfelelően továbbít a felhasználó intézménye által üzemeltetett rendszernek, és rábízza a hitelesítést. Az intézményi rendszer a hitelesítési folyamat lezárásaként visszaküldi a kérést küldő alkalmazás számára az azonosítás eredményét. A válasz tartalmazza, hogy sikeres volt-e a hitelesítés, illetve hogy adott attribútumok milyen értékkel vannak a felhasználóhoz rendelve. (Pl. név, e-mail cím, tanszéki hovatartozás, stb.)

  • SAML / Shibboleth

    Struktúráltságát tekintve három egységből tevődik össze. A részét képezi egy szolgáltatást nyújtó részből (Service Provider), az azonosítást biztosító részből (ID Provider), és egy vagy több úgynevezett ’Honnan érkeztél’ szolgáltatási részből (Where Are You From service(s)). A WAYF szolgáltatás felelős azért, hogy multi –site implementáció esetén az azonosítási kéréseket (ID request) a megfelelő azonosító szerverhez (ID server) továbbítsa. A Shibboleth-megvalósítások az azonosítási paramétereket ugyanúgy az intézményi LDAP Directory-ból nyerik ki.

    Ennek a hitelesítési mechanizmusnak a használatára számos kereskedelmi tartalomszolgáltató is lehetőséget biztosít, köztük az EBSCO, a JSTOR és az Elsevier ScienceDirect is.

  • X.509

    Nyilvános kulcsú tanúsítvány személyek igazolására. Minden felhasználó számára intézményi szinten generálni kell egy tanúsítványt. Majd a felhasználó ezzel a tanúsítvánnyal tudja igazolni magát a különböző intézményi rendszerekbe történő beléptetés során. A jogosultságkezelést a szolgáltatások szintjén kell megvalósítani. A tanúsítványnak mindig rendelkezésre kell állnia az adott gépen az adott szolgáltatáshoz beállítva az azonosításhoz. Így ha másik számítógépről akarja elérni a felhasználó valamelyik rendszerét az intézménynek, akkor figyelnie kell rá, hogy felmásolja a tanúsítványt arra a gépre is. Amennyiben nem a saját gépét használja, gondoskodni kell annak eltávolításáról is a későbbiekben. Maga a tanúsítvány tartalmaz információkat arra vonatkozóan is, hogy melyik intézmény állította ki, illetve hogy mi az érvényességi ideje. Ennek használata megköveteli, hogy a felhasználó rendelkezzen alapismeretekkel arra vonatkozóan, hogyan is kell használni a tanúsítványt. A nehézsége abban rejlik, hogy a hitelesítő rendszer kialakítása a komplexitása miatt bonyolult.

Az azonosított felhasználók számára lehet jogosultságot biztosítani dokumentum betöltésére, adott dokumentumok megtekintésére, esetleg szerkesztésére vagy akár törlésére. Alternatív lehetőségként jogosultságok oszthatók nem csak konkrét, bejelentkezett felhasználóknak, hanem adott gépről érkező kérések számára. Utóbbi esetet nevezzük IP-cím alapú azonosításnak.

Láthatóság növelése

  • RSS

    Az RSS hírcsatornák célja, hogy adott szolgáltatások által közzétenni kívánt friss információkat, a folyamatosan frissülő tartalmat automatikus és szabványos formában közzétegye az érdeklődők számára. Az RSS hírelemek rövid, tömör információt adnak át, melyek legtöbb esetben egy cím, rövid leírás és link a teljes tartalomra.RSS-szolgáltatást olyan rendszereknek érdemes biztosítani, melyek folyamatosan megújuló tartalommal rendelkeznek, és szeretnének erről értesítést küldeni az érdeklődők számára, legyen az egy felhasználó vagy más szolgáltatás. A digitális adattárak tartalma rendszeresen bővül az új és új betöltött tételekkel, így célszerű a repozítóriumalkalmazásoknak RSS-szolgáltatást biztosítani, melynek segítségével folyamatosan tájékozódni lehet a legfrissebb betöltésekről. Az RSS hírfolyam által kapott adatokat be lehet illeszteni pl. weboldalra, ami így dinamikusan frissülő tartalmat eredményez az adott honlapon, illetve az olvasók a böngészőkön vagy a levelező programokon keresztül szintén fel tudnak iratkozni egy-egy hírcsatornára, és az adott rendszeren keresztül rendszeresen értesítést kapnak az újdonságokról az RSS-nek köszönhetően. Jelenleg két, nem egymásra épülő verzió van használatban:

    RSS 1.0 – RDF Site Summary

    RSS 2.x – Really Simple Syndication

  • OpenSearch

    Míg az RSS automatikus adattovábbítást valósít meg, addig az OpenSearch protokoll az adattár külső forrásból történő keresését, és az egyszerű keresési feltételeknek eleget tevő rekordok lekérdezését teszi lehetővé. A válaszok tipikusan ugyanúgy a hírszolgáltatásnak megfelelő formátumban, vagyis RSS 2.0 vagy Atom 1.0, vagyis XML formában kerülnek átküldésre. Az Amazon.com leányvállalata, az A9 fejlesztette ki. A szabvány által meghatározott keresési paraméterek a következők:

    12. ábra OpenSearch keresési paraméterek

    12. ábra OpenSearch keresési paraméterek

  • OpenURL

    A szabványt a Ghenti Egyetemen alkották meg és Herbert Van de Sompel nevéhez kötődik. A rendszerének neve az SFX, mely jelenleg az Ex Libris egyik szolgáltatása. Ennek a cégnek jelentős szerepe volt az OpenURL népszerűsítésében. Az OpenURL szabvány és a linkfeloldó használata lehetővé teszi az adattárban tárolt tételekre való közvetlen linkelést a bibliográfiai adatok alapján. Az OpenURL több részből áll. Az úgynevezett alap URL található legelől, ami az intézményi linkfeloldó szerver címe, valamint ezt követi egy keresőkérdés, ami nem más, mint az elérni kívánt tartalomra vonatkozó leíró, legtöbb esetben bibliográfiai adat.

    Pl: http://www.oxfordjournals.org/content?genre=article&issn=0006-8950&volume=126&issue=2%20&spage=413&sid=Ovid:Medline&pid=content:abstract

    Jelenleg a legtöbb elektronikus tartalomszolgáltató rendelkezik linkfeloldó szolgáltatással. Ilyenek pl. a: OCLC - WordCat Link Manager, Swets – SwetsWise Linker, EBSCO – LinkSource, stb.