Chapter 5. Digitális gyűjtemények létrehozása

Table of Contents

A digitalizálás technikai folyamata
Mi a digitalizálás?
A digitalizálás lehetséges előnyei és lehetséges céljai a könyvtárakban
A digitalizálás technikai folyamata
Szkennelés
Szkennerek típusai
A szkenneléshez szükséges előzetes beállítások
Képek feldolgozása
Szövegfelismertetés
Kétrétegű PDF
Digitalizálás a könyvtárakban – ajánlások, jó gyakorlatok
Digitalizálási projektek megtervezése és irányítása
Online publikálás (metaadatok és keretprogramok)
Mi a metaadat?
Metaadatok típusai
Metaadat sémák
Dublin Core
Metaadatok tervezése és készítése
Interoperabilitás
Metaadatok és a szemantikus web
Dublin Core legfrissebb változata: a DCMI Terms ajánlás
Digitális könyvtárak menedzselésére alkalmazható szoftverek és keretrendszerek

A digitalizálás technikai folyamata

A digitalizálási projektek végső célja a digitális tartalmak online szolgáltatása a felhasználók számára. Ehhez első körben a megfelelő digitális dokumentumokat kell létrehozni, azaz digitalizálni kell a kiválasztott forrásdokumentumokat. Ezeket a digitális dokumentumokat megfelelő metaadatokkal ellátva lehet online publikálni a felhasználók számára. Az online publikálás azt jelenti, hogy a digitális dokumentumok és a hozzájuk kapcsolódó megfelelő minőségű metaadatok betöltésre kerülnek valamilyen – a digitális könyvtárak menedzselésére kifejlesztett – keretprogramba. Az ilyen típusú keretprogramnak köszönhetően strukturált, kereshető, és böngészhető digitális gyűjtemények hozhatók létre a digitális dokumentumokból és a hozzájuk kapcsolódó metaadatokból.

A digitális könyvtárak létrehozásához szükséges legfontosabb elemek tehát:

  • digitális dokumentumok,

  • megfelelő minőségű metaadatok,

  • megfelelő keretprogram a digitális könyvtár kezelésére.

A digitális könyvtárak létrehozásának két fontos fázisa van:

  • a digitális dokumentumok létrehozása

  • a digitális dokumentumok online publikálása

    • metaadatok létrehozása

    • keretprogramba való betöltés

Ez a fejezet a digitális dokumentumok létrehozásáról, a digitalizálás technikai folyamatáról és a digitalizálási projektek vezetéséről szól. Az online publikáláshoz szükséges elemekről, azaz a metaadatokról, és az online publikáláshoz használható keretprogramokról a következő fejezet szól majd.

Mi a digitalizálás?

A digitalizálás során a forrásdokumentumokat – azaz a fizikai objektumokat, mint nyomtatott könyveket, folyóiratokat, térképeket stb. – digitális fájllá alakítjuk. Módszere lehet:

  • szkennelés

  • digitális fotó készítése

A digitalizálás egyik nagyon pontos meghatározása a Könyvtárosok kézikönyvének harmadik kötetében olvasható, amely szerint: „A digitalizálás lényege abban rejlik, hogy a nyomtatott dokumentum tartalmát úgy helyezzük el egy elektronikus tárolóeszközön, hogy formai és tartalmi elemeit is megőrizzük, és egyúttal számítógép segítségével feldolgozhatóvá tegyük. Technikai értelemben digitális tárolásnak minősül az is, ha egy nyomtatott szövegről számítógéppel olvasható (=digitális) képet készítünk, de az is, ha ugyanennek a szövegnek elemeit a számítógéppel felismertetve szövegszerkesztő által kezelhető jelsorozatot állítunk elő.”

Tehát digitalizálásnak tekinthető az is, ha a forrásdokumentumról csak digitális kép készül, ugyanakkor az is, ha a forrásdokumentum szövegét átalakítjuk a számítógép által kezelhető jelrendszerré, azaz megtörténik az un. szövegfelismertetés. Legszerencsésebb, ha a digitalizálás mindkét folyamatot magában foglalja, hiszen akkor a digitális kép készítésével a forrásdokumentum eredeti megjelenése is tárolódik, illetve a szövegfelismertetéssel a forrásdokumentum teljes szövege kereshetővé válik, ami a digitális másolat egyik nagy előnye a nyomtatott forrásdokumentummal szemben.

A digitalizálás lehetséges előnyei és lehetséges céljai a könyvtárakban

Érdemes megvizsgálnunk, hogy miért lehet fontos, és milyen előnyökkel szolgálhat a digitalizálás a könyvtárak számára.

Állományvédelem

A digitális másolat helyettesítheti a forrásdokumentum használatát, így annak állapota hosszabb távon megőrizhető. Sőt, a forrásdokumentum rendkívül rossz állapota olyan elvi döntést is indokolhat, amely szerint kizárólag csak a digitális másolat szolgáltatható az olvasók számára, mert az eredeti dokumentum már csak így őrizhető meg.

Hozzáférés, elérhetőség javítása, megvalósulása

A digitális információforrások online szolgáltatásával tulajdonképpen megszűnnek a hozzáférés eddigi fizikai, térbeli, időbeli és személyi korlátai, hiszen így bárki, bármikor és bárhonnan hozzáférhet a digitális dokumentumokhoz – természetesen csak a törvény szabta keretek között.

Megszűnnek a fizikai korlátok, hiszen nem szükséges a könyvtárba belépnünk a dokumentumok használatához, sőt tulajdonképpen a világ bármely pontjáról elérhetjük ezeket a digitális dokumentumokat.

Megszűnnek az időbeli korlátok is, hiszen nem csak az adott könyvtár nyitvatartási idejében férhetünk hozzá a dokumentumokhoz, hanem a nap 24 órájában, a hét minden napján.

Megszűnnek a személyi korlátok is, hiszen bárki elérheti és használhatja ezeket a dokumentumokat, használatuk nem korlátozódik a szolgáltató könyvtár beiratkozott olvasóira. Ráadásul egy adott digitális dokumentumot több felhasználó is elérhet és használhat párhuzamosan, egy időben, ami a hagyományos könyvtári dokumentumok esetén megvalósíthatatlan lenne.

A korlátok megszűnését jelenti az is, hogy az olvasó a digitális könyvtárak esetében emberi beavatkozás nélkül jut a dokumentumhoz, ami költségtakarékosság szempontjából is fontos lehet. Ráadásul a digitális könyvtárak azonnali hozzáférést biztosítanak a dokumentumokhoz, nem szükséges várakozni az esetleges raktári kiszolgálásra.

Kereshetőség javítása

A keresést nagyban megkönnyíti – gyorsabbá és hatékonyabbá teszi – a dokumentumok teljes szövegének kereshetővé válása a digitalizálásnak (szövegfelismertetésnek) köszönhetően. Így tulajdonképpen az indexelt leíró adatok (metaadatok) visszakeresést segítő funkciója kiegészül egy más típusú keresési funkcióval.

Minőségjavítás

Fotók és hangfelvételek esetén lehet leginkább jellemző, hogy a digitális másolaton olyan javítások elvégzése válik lehetővé, aminek eredményeként a digitális változat jobb, használhatóbb minőségűvé válik, mint az eredeti forrásdokumentum volt.

Profitszerzés

A könyvtárakban elvi döntés születhet arról is, hogy az intézmény profitszerzés céljából korlátozza, és anyagi ellenszolgáltatáshoz köti a létrehozott digitális gyűjteményének elérését és felhasználását. Más esetekben a létrehozott digitális fájlok közül a legnagyobb felbontású verzióval kapcsolatban követik ezt a szabályt.

A Bergeni Egyetemi Könyvtár digitális fotógyűjteménye működik ilyen elven, de saját bevallásuk szerint, ez a gyakorlat nem váltotta még be a hozzá fűzött reményeket.

Milyen dokumentumokat digitalizálhatunk a könyvtárakban?

A digitalizálás forrásdokumentumai lehetnek:

  • szöveges dokumentumok (könyvek, folyóiratok),

  • képi dokumentumok (plakátok, képeslapok, ex librisek, térképek),

  • hanganyagok (zenei hangkazetták, nyelvi hanganyagok),

  • mozgóképi anyagok (videók).

A digitalizálás technikai folyamata

A digitalizálás technikai folyamatának fázisai:

  • szkennelés,

  • archiválási fájlformátum kialakítása, a mesterfájlok elmentése,

  • képek feldolgozása (vágás, forgatás, átnevezés, konvertálás),

  • szövegfelismertetés,

  • megjelenítési, szolgáltatási fájlfok kialakítása.

A digitalizálási folyamat egyes fázisainak sorrendje nem feltétlenül kötött, nem mindig azonos. Sokszor az egyes fázisok fel is cserélhetők, illetve bizonyos programok használatakor egymással párhuzamosan történnek meg.

Szkennelés

A szkennelés a digitalizálási folyamat legelső fázisa, amikor az arra megfelelő eszközzel – a szkennerrel, vagy a digitális fényképezőgéppel – elkészítjük a forrásdokumentum digitális másolatát. Ez általánosságban azt jelenti, hogy a szkenner az érzékelőivel „letapogatja” a forrásdokumentumon található tartalmakat és előállítja annak digitális képét. A szkennerek a nyomtatott szöveget is képként érzékelik, és képként mentik el. A szkenner által előállított képek is képpontokból (pixelekből) épülnek fel. A szkennelés során létrejövő – még minden változtatástól, szerkesztéstől mentes – digitális dokumentum az ún. mesterfájl (master file). A mesterfájl archiválását minden ajánlás fontos lépésnek tartja a megfelelő minőségű digitális gyűjtemény kialakításához, és hosszú távú megőrzéséhez.

Szkennerek típusai

A szkenner számítógéphez csatlakoztatható kiegészítő eszköz, melynek segítségével elvégezhetjük a szkennelés munkafolyamatát, azaz elkészíthetjük a forrásdokumentum digitális képét. Nagyon sokféle szkenner létezik, amelyek technikai jellemzői, ára, felhasználási területei rendkívül sokfélék lehetnek. Szkennerek típusokba sorolhatók bizonyos tulajdonságok alapján.

Kézi szkenner

A kézi szkenner olyan mobil eszköz, amelyet kézben tartva, egyenletes sebességgel a forrás-dokumentum felett végighúzva végezhetjük el a szkennelést. Kicsi, könnyű, és olcsó, de a létrejövő digitális kép minősége nem igazán felel meg a digitális könyvtárak elvárásainak. Magas minőségű digitális másolatok elkészítésére, valamint nagy mennyiségű forrásdokumentum esetén semmiképpen sem megfelelő eszköz.

Síkágyas szkenner

A síkágyas szkenner felépítése, használata és működése hasonlít a fénymásoló gépekhez, sőt ma már sokszor multifunkciós eszközként fénymásolásra és szkennelésre egyaránt alkalmasak ezek az eszközök. A digitalizálás elvégzéséhez a forrásdokumentumot rá kell helyezni a szkenner üveglapjára. Az üveglap alatt helyezkedik el a szkenner érzékelő egysége, amely egyenletes mozgással pásztázza végig és digitalizálja a forrásdokumentum megfelelő részét. Felhasználása kényelmes, sokféle dokumentum digitalizálására alkalmas, így széles körben alkalmazott szkenner típus. Viszonylag gyors szkennelést biztosít, és az ára sem olyan magas, mint a speciális szkennereké. Ráadásul jó minőségű digitális képet készít. Általában maximum A3-as méretű dokumentum digitalizálására képesek, de léteznek már A2-es méretűek is. Könyvtárak túlnyomó részt ezt a típusú szkennert alkalmazzák digitalizálásra, hiszen általában nincs anyagi keretük a drága, speciális szkennerek beszerzéséhez. Ez a szkenner típus viszont jól kiszolgálja az átlagos könyvtár általános digitalizálási igényeit.

Dokumentumszkenner

Nagy mennyiségű, lap formátumú dokumentum digitalizálására kialakított eszköz. Egyik fontos jellemzője a gyorsaság – rövid idő alatt nagymennyiségű dokumentum digitalizálására képes – a létrejövő másolatok minősége viszont nem túl magas. Fontos kiegészítő része a lapadagoló. Ebben kell elhelyezni a lap formátumú forrásdokumentumokat, és a szkenner önmaga tölti be egyenként a digitalizálandó lapokat. Itt nem a beolvasó egység mozog, hanem a szkenner a dokumentumot húzza át a beolvasó egység előtt. Általában maximum 300 DPI felbontásban képesek digitalizálni, éppen azért, mert a nagyobb felbontású szkennelés sokkal lassabb munkafolyamatot tenne csak lehetővé. Elsősorban irodákban és hivatalokban alkalmazott eszköz. Könyvtári alkalmazása nem jellemző, csak speciális esetekben. Ilyen lehet például a könyvtári katalóguscédulák digitalizálása. Ebben az esetben gyors, nem túl magas minőségű szkennelésre van szükség, ráadásul a dokumentumok védelme sem olyan hangsúlyos, mint egyébként a könyvtári dokumentumok estében. Európában is jó néhány könyvtár valósította meg ezzel a módszerrel a régi katalóguscéduláinak online elérhetőségét.

Könyvszkenner

Speciálisan könyvek digitalizálására kialakított szkenner. Tulajdonságait ennek a funkciónak megfelelően alakították ki. Így fontos jellemzője, hogy magas minőségű, nagy felbontású digitális képek készítésére képes. Az érzékelő egysége legtöbbször a dokumentum fölé magasodó állványon helyezkedik el. A megfelelő világítás beépítése is a magas minőség elérését biztosítja. A magas minőségű digitális másolat mellett másik fontos tulajdonsága, hogy komoly hangsúlyt kap a forrásdokumentum magas szintű védelme. Ilyen eszköz például a könyvbölcső használata. Illetve szintén a könyv védelmét szolgálja, hogy bizonyos típusok már szoftveresen „javítják” a digitális képen a könyv gerincénél keletkező sor-elhajlásokat, torzításokat. Így kevésbé kell a könyvet kihajtani, kifeszíteni a digitalizáláshoz. Az ilyen típusú szkennerek árai már meglehetősen magasak.

A könyvszkennerek egy speciális típusa az automatizált lapozásra is képes. Ezek még magasabb árkategóriába tartozó eszközök. Itt már csak a digitalizálás kezdetekor és befejezésekor van szükség emberi beavatkozásra. De természetesen a digitalizálás során is szükséges az emberi jelenlét és felügyelet, habár aktív részvétel már nem szükséges. Az ilyen típusú szkennereknél a könyv védelme még tovább fokozódott, hiszen itt még kisebb mértékben szükséges a könyvet kinyitni. Ráadásul a szkenner nem folyamatos megvilágítással dolgozik, hanem mindig csak a beolvasás pillanatában villantja fel a megfelelő fényforrást. A digitalizálás sebessége a manuális lapozáshoz képes ugrásszerűen megnőtt. A legmagasabb kategóriás eszközök a 2400 oldal/óra beolvasási sebességre is képesek.

Térképszkenner

Kifejezetten térképek, vagy nagy méretű plakátok, poszterek digitalizálására kifejlesztett eszköz. Általában a dokumentum mozgatásával végzik el a szkennelést. Nagy felbontású, rendkívül jó minőségű digitális másolatok készítésére alkalmasak. Ma már meglehetősen jó gyorsasággal végzik el ezt a feladatot. Különleges tulajdonságuk, hogy rendkívül nagy méretű dokumentumok digitalizálása válik segítségükkel lehetővé. Áruk meglehetősen magas, és általában csak az ilyen jellegű speciális dokumentumok nagyobb mennyiségű digitalizálására szakosodott könyvtárak vásárolják meg. Vannak hordozható verzióik is, amelyek könnyűek és könnyen összecsukhatók.

Mikrofilm szkennerek

A szkennerek egy különleges típusa, amelynek használata kifejezetten a könyvtárakban jellemző. Mikrofilmek digitalizálására alkalmas eszközök.

A szkennerek fontosabb technikai jellemzői

A szkennerek fontosabb technikai jellemzői a következők lehetnek:

  • beolvasási sebesség (óránként beolvasott oldalak száma – felbontás nagyságától függően),

  • maximális felbontási képesség (DPI),

  • maximális színárnyalat,

  • maximális dokumentum méret,

  • maximális dokumentum magasság (esetenként),

  • megvilágítás típusa.

Szkennerek által kínált különböző speciális funkciók:

  • állítható magasságú könyvasztal,

  • könyvbölcső (külön állítható oldalakkal),

  • többféle szkennelési mód (egyoldalas, kétoldalas, dupla oldalas),

  • keret, ujj és belső margó maszkolás,

  • torzítások szoftveres kiigazítása,

  • automatikus lapozás.

A szkenneléshez szükséges előzetes beállítások

A szkennelés megkezdése előtt meg kell határoznunk, és be kell állítanunk néhány fontos paramétert annak érdekében, hogy a szkenner a megfelelő minőségű és megfelelő formátumú digitális másolatot készítse el az adott forrásdokumentumról. Ezek a paraméterek általában a következők:

  • képformátum, fájlformátum,

  • képfelbontás,

  • színmélység,

  • szkennelési méret (a forrásdokumentum nagysága határozza meg).

Képfelbontás, felbontás

A digitális képek képpontokból (pixelekből) állnak össze. A képfelbontás értéke azt mutatja meg, hogy egy inch (25,4 mm) hosszúságú egységenként hány képpontot tartalmaz a digitális kép. Mértékegysége a DPI (dot per inch, azaz inch-enkénti képpontok száma). A szkennerek esetén a maximális felbontás azt fejezi ki, hogy a kimeneti kép egy inch nagyságú részén hány elkülönített képpont, pixel megjelenítésére képes a készülék. Természetesen minél több képpontból épül fel a kép, annál részletgazdagabb lesz, annál inkább vissza tudja adni az eredeti dokumentumon meglévő részleteket. Tehát minél nagyobb felbontású egy digitális kép (minél nagyobb a DPI értéke) annál jobb minőségű. A szkennerek egyik fontos technikai jellemzője, hogy maximálisan milyen felbontásban képesek szkennelni (például maximális felbontási képesség: 600 DPI). A DPI érték növekedésével viszont a kép fájlmérete is növekedni fog, azaz nagyobb tárolási kapacitást fog igényelni. Ezen túl a szkennelés sebessége is nagyban függ a felbontás nagyságától. Hogy ennek arányait érzékeljük, például általánosan elmondható, hogy digitalizáláskor egy 600 DPI felbontású kép elkészítése négyszer annyi időbe telik, mint egy azonos paraméterekkel rendelkező, de 300 DPI felbontású kép előállítása. (A beolvasó egység is lassabban mozog, illetve a beolvasás után az adatok feldolgozása is lassabban történik meg.)

Színmélység

A szkennerek a digitalizálás során a digitális képet apró pontokból (pixelekből) állítják össze. Minden képpont színárnyalatának meghatározásra kell kerülnie. Az, hogy egy-egy képpont színe hány bit felhasználásával kerül meghatározásra, az adott kép színmélységét adja meg. Fekete-fehér kép előállítása esetén elegendő az 1bit/pixel színmélység, hiszen egy-egy képpont vagy fekete, vagy fehér. Ehhez képpontonként elegendő egyetlen bit, amelynek értéke (0 vagy 1) vagy a fekete vagy a fehér színt jelöli. 24 bit felhasználásával már 16 millió színárnyalat fejezhető ki. Színmélység tehát azt mutatja meg, hogy hány színárnyalatot tartalmazhat a digitális dokumentum. A digitalizálás annál jobb minőségű, minél több képpontot különböztetünk meg egységnyi felületen (azaz minél nagyobb a kimeneti kép DPI értéke), illetve minél több színárnyalatból választható ki egy-egy pixel színe (azaz minél nagyobb a színmélység). Természetesen a színmélység növelése is hatványozottan növeli a fájl méretét, így a szükséges tárolókapacitás méretét is

Szkenneléskor mindig meg kell találni az adott forrásdokumentumhoz ideális paramétereket, hogy a fájlméretek se legyenek túlságosan nagyok, de a minőség is a céloknak megfelelő legyen. Szöveges dokumentumoknál nagy általánosságban megfelelő lehet a fekete-fehér szkennelés, hiszen ez általában a szövegfelismertetéshez is elegendő. De lehet olyan háttér, vagy esetleg ábrákat, képeket is tartalmazhat a szöveges dokumentum, ami miatt már dönthetünk szürkeárnyalatos, vagy színes szkennelés mellett is. Általában szürkeárnyalatos képek estén sokkal jobb a szövegfelismerési arány, mint fekete-fehér képek esetén. Teljes dokumentumok szkennelése előtt mindenképpen érdemes néhány teszt oldalt elkészítenünk különböző beállításokkal: különböző színmélységgel, felbontással, kontraszttal, fényerősséggel. Így ezek közül kiválaszthatjuk a leginkább megfelelőt.

A kép egy szkennert irányító program kezelőfelületét mutatja, ahol beállíthatjuk a szkennelés megkezdése előtt a megfelelő paramétereket:

Figure 5.1. Szkennert irányító program kezelőfelülete

Szkennert irányító program kezelőfelülete


Archiválási fájlok létrehozása

A szkennelés során tehát létrejön egy megfelelő minőségű, és megfelelő formátumú digitális kép, amely még minden szerkesztéstől, módosítástól mentes. Ez a fájl a mester fájl. Ajánlások szerint ezeknek a megőrzése fontos a digitális könyvtárak hosszú távú menedzselésében, megőrzésében. A mester fájl tehát olyan formátumú, színmélységű, felbontású, ahogyan azt a szkennelés előtt beállítottuk.

A digitális dokumentumok fájlformátumának kiválasztásakor több tényezőt kell figyelembe vennünk. Természetesen döntenünk kell mind az archiválási fájlformátumról, illetve a digitális dokumentum megjelenítési fájlformátumáról is (más néven szolgáltatási fájlformátum).

Archiválási fájlformátumok

Az archiválási fájlformátum kiválasztásánál a legfontosabb vezérelvek az eredeti információk minél tökéletesebb megőrzése, a könnyű további feldolgozhatóság és a hosszú távú megőrzés biztosítása. A képek tárolására kifejlesztett fájlformátumok száma rendkívül nagy, érdemes azonban azok közül választanunk, amelyek a legelterjedtebbek, leginkább szabványosítottak és információveszteség nélkül tömöríthetőek.

Legelterjedtebb archiválási formátumok: TIFF, PNG, BMP, JPG, PDF.

Ezek közül az leginkább ajánlott formátumok:

  • TIFF (Tagged Image File Format)

    Egyik legelterjedtebb fájlformátum, gyakorlatilag minden operációs rendszer támogatja, és minden lapolvasó képes ebben a formátumban menteni. Meglehetősen nagy a tárolókapacitás-igénye, de veszteségmentesen jól tömöríthető. Többféle verziója is létezik a használt tömörítést illetően. 24 bit színmélységig képes az információkat rögzíteni. Jellemző tulajdonsága, hogy rugalmas formátum, hiszen a tárolt képhez strukturált szöveges információ is kapcsolható, amely rugalmasan bővíthető. Ajánlott archiválási formátum.

  • PNG (Portable Network Graphics)

    Veszteségmentesen tömöríthető formátum. Fejlesztésében a W3C is aktívan közreműködött. A számítógépes hálózatokon való adatátvitelre optimalizálták. Újdonsága a fokozatos megjelenítés, ami azt jelenti, hogy lassabb adatátvitel esetén a kép részletessége idővel bontakozik csak ki, de már a letöltés elején láthatóak a kép nagyobb formai elemei. 48 bit színmélységig támogatja a digitalizálást. Ajánlott archiválási formátum.

A szkennelés folyamatának végeredménye tehát egy általunk meghatározott paraméterekkel rendelkező digitális kép, amelyen további alakítások, és eljárások végezhetők.

Képek feldolgozása

Vágás

Szkennelés során nem feltétlenül tudunk pontosan úgy dolgozni, hogy a dokumentum tartalma minden egyes létrejövő digitális képen esztétikusan, és azonos margókkal helyezkedjen el. Ezt utólag javíthatjuk. Erre a képek vágása a megfelelő módszer. Általában a tartalom körüli nem esztétikus, vagy zavaró részeket levágjuk, vagy körbevágjuk úgy a tartalmat, hogy az esztétikus, és jól használható legyen. Erre a munkafázisra különböző szoftverek alkalmazhatóak.

Forgatás

Fontos, hogy a dokumentumok jól használhatóak, és esztétikusak is legyenek. Szöveges do-kumentumok esetén előfordulhat, hogy a digitális képen a sorok nem vízszintesek. Ez nem csak esztétikailag zavaró, hanem a dokumentum használhatóságát, olvashatóságát is komolyan befolyásolhatja. Már a szkennelés munkafolyamatában fontos ügyelni a ferde sorok elkerülésére. Ha ez mégsem sikerült tökéletesen, akkor a kép kismértékű forgatásával javíthatunk a kép minőségén. Gyakran néhány fokos forgatásra van csak szükség.

Fájlok átnevezése

Már szkennelés előtt beállítható, hogy a szkenner milyen elnevezést alkalmazzon az egyes elkészülő képfájlok esetében a digitalizálás során. Megadhatunk például egy előtagot, amely minden fájlnév elején meg fog jelenni. Az előtagot pedig a fájlok automatikus számozása követheti. Érdemes olyan előtagot használni, amely a forrásdokumentumot azonosítja, vagy legalább valamilyen formában utal arra. Ha valamiért az így kialakított fájlnevek mégsem megfelelőek, akkor utólag is megváltoztathatók. Szoftverek segítségével a forrásdokumentumról készített fájlok egyszerre is átnevezhetők az általunk beállított paraméterek szerint.

Konvertálás

A szkenneléssel létrehozott digitális fájlok formátuma utólag is megváltoztatható. Ehhez nem kell egyenként konvertálnunk az egyes fájlokat, hanem egyszerre sok fájllal is elvégezhetjük ezt a műveletet. Szintén elvégezhető tömeges konvertálással a képek felbontásának csökkentése, a képek átméretezése, de akár forgatása is. Ezekhez a műveletekhez ingyenes szoftverek is rendelkezésünkre állnak.

Egyéb lehetséges képminőség javító eljárások

  • kontrasztállítás,

  • fényerő állítása.

Megjelenítési fájlformátum kialakítása

A digitális dokumentum megjelenítési fájlformátumát – azaz szolgáltatási fájlformátumát – is ki kell alakítani. Az online szolgáltatáshoz gyakran szükség van bélyegképek előállítására is. Elképzelhető, hogy többféle méretű, felbontású, minőségű fájlt is szeretnénk szolgáltatni a dokumentumról. Ezeket is el kell készíteni ebben a munkafázisban.

Leggyakoribb megjelenítési formátumok: JPEG, GIF, PNG, PostScript, PDF.

Leginkább ajánlott formátumok:

  • JPEG (Joint Photographic Experts Group)

    Az egyik legelterjedtebb formátum. Rendkívül jól tömöríti a képeket, és a tömörítési eljárás során egyénileg állítható a tömörítés mértéke. Tömörítése viszont információvesztéssel jár. Az internetes weblapok alapvető összetevője.

  • GIF (Graphics Interchange Format)

    Hosszú ideig a leginkább alkalmazott formátum, amely veszteségmentes tömörítést tesz lehetővé. Digitális könyvtárakban leginkább a bélyegképeket tárolják és szolgáltatják GIF formátumban.

  • PDF (Portable Document Format)

    Az Adobe Systems által kialakított, a PostScript továbbfejlesztéséből létrejött, ma már nyílt szabvány és dokumentum leíró nyelv. Egyik erőssége, és népszerűségének egyik oka, hogy a PDF dokumentum szerkezetét a dokumentum létrehozója határozza meg. Alkalmas többek között szöveg, ábra, vagy kép tárolására. A PDF dokumentumban lehetnek különböző alkalmazások is, így például beállíthatóak különböző védettségi szintek, a dokumentumok tartalma kereshető, a dokumentum tartalmazhat különböző beviteli elemeket (nyomógombokat, beviteli dobozokat), űrlapok is készíthetők, az egyes oldalak bélyegképei is megjeleníthetők, alkalmazható ún. könyvjelzők is. Napjainkban rendkívül népszerű és sokat alkalmazott formátum.

A nem szöveges dokumentumok feldolgozása általában itt be is fejeződik. A szöveges doku-mentumokon azonban még érdemes elvégezni a szövegfelismertetést is.

Szövegfelismertetés

A szkennelés során digitális képek jönnek létre. Ez a szöveges dokumentumok szkennelése esetén is igaz. Ahhoz, hogy számítógépes programok által értelmezhető, szerkeszthető, és kereshető szöveges állományt hozzunk létre, az ún. szövegfelismertető programok valamelyikét kell használnunk. Ezek az ún. optikai karakterfelismertető programok, vagy más néven OCR programok (Optical Character Recognition) a szkennelés során létrejövő digitális képeken található szöveges részeket szerkeszthető szöveges állományokká alakítják át. Így az eddig csak képként létező digitális dokumentumokból egyrészt tartalmukban kereshető, másrészt szövegszerkesztő programok által is módosítható változatot kapunk. Mind a kereshetőség, mind a szerkeszthetőség komoly többletértéket jelent a forrásdokumentumokkal szemben.

A szövegfelismertető programok kezelése viszonylag egyszerű. Első lépésként be kell töltenünk a képi fájlokat a programba. Ha egy teljes könyvet digitalizálunk, amelyet oldalanként külön képi fájlokban rögzítettünk, akkor ezeket a fájlokat egyszerre töltjük be. A betöltés után a program elvégzi a karakterek egyenkénti felismerését, majd a kettéosztott monitoron megjeleníti az eredeti képi fájlokat, és a felismert karakterekből összeálló, szerkeszthető szöveges állományt is. Ha javítani szeretnénk a rosszul felismert karaktereket, azt viszonylag könnyen megtehetjük, hiszen a javítandó szöveggel párhuzamosan látjuk az eredeti képeket is. A szoftver általában külön színnel jelöli azokat a karaktereket, amelyek felismerésében nem teljesen biztos. Az utólagos korrekció külső szövegszerkesztő szoftverben is végezhető.

A kép a szövegfelismertetés egyik fázisát mutatja.

Figure 5.2. Szövegfelismertetés munkafolyamatának egyik fázisa

Szövegfelismertetés munkafolyamatának egyik fázisa


A mai OCR programok nagyon jó hatékonysággal dolgoznak. A felismerés pontossága termé-szetesen nagyban függ az eredeti dokumentum minőségétől, az eredeti dokumentumon alkalmazott karakterek típusától, a karakterek és a háttér kontrasztbeli különbségétől. Az OCR programok egyre több nyelv kezelésére képesek, sőt ma már nem ritka, hogy az eredeti dokumentum nyelvét be se kell állítanunk, mert a program ezt automatikusan felismeri. A nyelv beállítása a programokban megtalálható szótárak miatt szükséges, hiszen a karakterek szavak kontextusába való elhelyezése tovább növeli a felismerés valószínűségét. A programok taníthatóak is, azaz egyes különleges karak-ternek megadhatjuk az „értékét”, amelyet később ezek alapján már azonosítani fog a program. A technológia folyamatos fejlesztés alatt áll. Teljesen ideális esetben akár 99,9%-os hatékonysággal is elvégezhető az automatikus szövegfelismertetés. Ez kb. 1–4 hibás karaktert jelent 2.000 karakterenként. Ilyen hatékonyság azért a mindennapi életben nem jellemző, sokféle tényező nehezítheti a karakterek felismerését. A szöveg utólagos korrekciójának lehetőségét mérlegelni kell, ugyanis annak elvégzése nem feltétlenül kifizetődő, hiszen sok időt és komoly emberi erőforrásokat igénylő feladat is lehet. Léteznek áthidaló megoldások is, ilyen például a kétrétegű PDF alkalmazása.

A szövegállomány létrejötte – és az esetleges utókorrekció – elvégzése után el kell mentenünk a létrejövő adatokat. Különböző formátumok közül választhatunk a dokumentum mentésénél, ilyenek leggyakrabban a következők: HTML, RTF, TXT, Microsoft Word, Microsoft Word XML, vagy PDF.

Leggyakrabban alkalmazott szövegfelismertető szoftverek:

  • Abbyy FineReader,

  • Recognita OmniPage,

  • TypeReader,

  • Readiris,

  • GOCR.

Kétrétegű PDF

A szövegfelismertetett dokumentumok egyik általános szolgáltatási fájlformátuma az ún. kétrétegű PDF. Ennél a megoldásnál a felhasználó az eredeti dokumentumról készített képet láthatja. A kép mögött láthatatlanul helyezkedik el a felismertetett szöveges állomány. Így a teljes szövegben végzett kereséskor a felhasználó számára az adott oldal eredeti képe jelenik meg. Ennek a megoldásnak több előnye is van. Egyik, hogy a felhasználó a forrásdokumentum eredeti szerkesztettségét, képét, állapotát is láthatja. Másik előny viszont, hogy így utókorrekció nélkül is szolgáltathatóak a szövegfelismertetett dokumentumok. Hiszen a rosszul felismert karakterek csak a rejtve maradó szöveges állományban találhatóak, a felhasználót nem zavarják. A rosszul felismert és nem javított karaktereknek annyi hatásuk lesz, hogy az adott szó nem kerül bele a keresési találatok közé. Az így „elvesztett” találatok száma viszont annyira elenyésző, hogy nem indokolná a drága, és időigényes utólagos korrekciót.

Ellenőrző kérdések:

  1. Milyen fázisai vannak a digitális könyvtárak létrehozásának?

  2. Sorolja fel a szkennerek legfőbb típusait, és röviden foglalja össze előnyeiket, illetve könyvtári alkalmazási lehetőségeiket!

  3. Mit jelent a szövegfelismertetés, és milyen előnyei vannak alkalmazásának?

Digitalizálás a könyvtárakban – ajánlások, jó gyakorlatok

Digitalizálandó anyagok kiválasztása

A digitalizálandó anyagok, azaz a forrásdokumentumok kiválasztását előre meghatározott elvek alapján hajthatjuk csak végre. A kiválasztás elveit – amennyiben azokat minden érintett elfogadhatónak ítélt meg – írásba kell foglalni, dokumentálni kell. A kiválasztási elvek meg-határozásakor mindenképpen figyelemmel kell lennünk a digitalizálási projekt meghatározott céljára vagy céljaira, hiszen már a cél nagyban meghatározza, hogy mely kiválasztási kritériumok kerülnek előtérbe az adott projekt kapcsán. Nem mindegy ugyanis, hogy a projekt célja archiválás, vagy a nehezen hozzáférhető dokumentumok könnyebb elérésének biztosítása, vagy az adott intézményt reprezentáló állomány láthatóvá tétele. A kiválasztás elveit és kritériumait már a digitalizálási projekt tervének részeként meg kell határoznunk.

Természetesen az elvek megállapításánál fontos szerepet játszik, hogy az adott intézmény rendelkezik-e már un. digitalizálási stratégiai tervvel. A digitalizálási stratégiai terv adott időszakra (3 vagy 5 évre) előre meghatározza, hogy az intézmény milyen elvek alapján, milyen célokkal, milyen digitalizálási projekteket tervez, vagy tekint prioritásnak. Természetesen a digitalizálási stratégiai tervek megvalósításába sokszor „beleszól”, hogy az adott időszakban milyen digitalizálási pályázatok kerülnek meghirdetésre, hiszen a digitalizálási munkáknak komoly anyagi vonzatai is vannak.

A kiválasztási kritériumok összeállításánál fontos a következők figyelembevétele:

  • a digitalizálási projekt alapvető céljai,

  • a digitalizálandó anyag megvizsgálása a szerzői jogi törvény szempontjából,

  • digitalizálandó anyag állapotának, sérülékenységének felmérése, mérlegelése,

  • a digitalizálandó anyag, azaz a forrásdokumentum jelenlegi elérhetősége,

  • online szolgáltatás esetleges nehézségei,

  • annak megvizsgálása, hogy az adott dokumentumnak létezik-e már digitális másolata, azaz más intézmény nem digitalizálta-e már az adott dokumentumot.

A kiválasztás elveinek, kritériumainak dokumentálása után kezdődhet meg a forrásdokumentumok fizikai leválogatása. Ha a válogatás közben kiderül, hogy a meghatározott kritériumokon változtatni érdemes, akkor a változtatásokat minden esetben dokumentálni kell, és gondoskodni kell arról, hogy minden érintett informált legyen a változtatásokról.

Digitalizálás előkészítése

A digitalizálási projekt fontos fázisa a digitalizálás előkészítése. Az előkészítésbe befektetett munka utólag általában sokszorosan megtérül, ezért nem érdemes kihagyni ezt a fázist.

Az előkészítés lépései:

  • megfelelő munkakörnyezet kialakítása,

  • megfelelő technikai felszerelés (hardverek) beszerzése, biztosítása,

  • megfelelő szoftverek beszerzése,

  • a beszerzett hardverek és szoftverek kipróbálása,

  • megfelelő tárhely kialakítása.

Fontos, hogy az előkészítés során a projekt minden egyes fázisát próbáljuk ki, de mindenképpen olyan forrásdokumentumon, amely nem sérülékeny. A szkenneléstől, a képfeldolgozáson keresztül egészen a metaadatok elkészítéséig és a digitális gyűjteménybe vagy könyvtárba való feltöltésig mindent tesztelnünk kell. A fázisok kipróbálásával sok problémát kivédhetünk. Így például elkerülhetjük, hogy az igazán értékes és esetleg sérülékeny forrásdokumentumban kár keletkezzen, vagy, hogy valamilyen felmerülő probléma miatt az értékes forrásdokumentumot többször kelljen digitalizálnunk.

Forrásdokumentumok kezelése a digitalizálás során

Alapelv, hogy a digitalizálás során a forrásdokumentum lehetőség szerint ne sérüljön, vagy ha ez nem lehetséges, akkor a lehető legkisebb negatív hatást kelljen elszenvednie.

Ahhoz, hogy ezt a célt elérjük elengedhetetlen a megfelelő környezet biztosítása, amelynek alapelemei a következők:

  • a digitalizálást egy erre a célra elkülönített helyiségben, vagy helyen végezzük,

  • a helyszín ne legyen túl forgalmas, fontos a nyugodt és biztonságos környezet biztosítása,

  • a digitalizáló műhelyben enni, inni, cigarettázni nem szabad,

  • kerüljük az extrém környezeti hatásokat (nagyon magas vagy alacsony hőmérséklet, nagy hőingadozás, hosszantartó közvetlen napfény, extrém páratartalom stb.).

A forrásdokumentumok kezelésénél fontos elvek még:

  • a digitalizálás a forrásdokumentum minél kevesebb mozgatásával valósuljon meg,

  • szükség esetén kérjük ki szakember véleményét, amelyet megfelelően dokumentáljunk,

  • körültekintően mérjük fel, hogy mely forrásdokumentum, milyen szkennerrel digitalizálható a leginkább,

  • használjunk a digitalizáláshoz olyan segédeszközöket, amelyeket a forrásdokumentumok védelmére alakítottak ki (pl. könyvbölcső),

  • pontosan dokumentáljuk azt is, hogy az egyes forrásdokumentumok a digitalizálási fo-lyamatnak mely fázisában vannak, illetve fizikailag pontosan hol találhatóak,

  • a szkennereket tartsuk tisztán,

  • a szkennelés kipróbálásához ne a pótolhatatlan forrásdokumentumokat használjuk,

  • a személyzet betanításához is a kevésbé sérülékeny forrásdokumentumokat használjuk.

A létrehozott digitális állomány védelme, hosszú távú megőrzése, hozzáférési jogosultságok

A létrehozott digitális állomány megvédése a megsemmisüléstől (migrációs stratégiák)

  • a mesterfájlokat veszteségmentesen tároljuk, ne alakítsuk, tömörítsük veszteséggel,

  • körültekintően válasszuk ki a fájlformátumokat és az adathordozókat is,

  • használjunk szabványos fájlformátumokat és adathordozókat,

  • számoljunk a fájlformátumok és az adathordozók elavulásával,

  • elavulás esetén mentsük át másik adathordozóra digitális anyagunkat,

  • dokumentáljuk a tárolt anyagok állapotát, frissítéseit,

  • a digitális anyagokat több helyre is mentsük el, és a különböző mentéseket lehetőleg földrajzilag elkülönítve tároljuk, így védekezve az esetleges teljes adatvesztés ellen (pl. tűzvész esetén).

A digitális állomány védelme a jogosulatlan hozzáférésektől

  • online publikáláskor biztosítanunk kell, hogy csak a megfelelő hozzáférési jogokkal rendelkezők férhessenek hozzá ténylegesen az anyagokhoz,

  • még a publikálás előtt tisztában kell lennünk az adott anyag szerzői jogi státuszával,

  • használnunk kell az általunk használt digitális könyvtári keretrendszer kínálta lehetőségeket a különböző jogosultsági szintek beállításaihoz,

  • az intézmény belső, zárt hálózatának létrehozása a törvényi előírásoknak megfelelően,

  • dokumentáljuk az hozzáférési jogosultságok beállításainak esetleges problémáit.

Digitalizálási projektek megtervezése és irányítása

A digitalizálási projekt megtervezése (digitális gyűjtemények létrehozásának alapelvei)

A projekt céljának meghatározása. A célok meghatározása alapvető fontosságú a projekt sikerét illetően. Mielőtt a terv konkrét megírását megkezdenénk jó gyakorlat, ha egy brain-storming keretében, a projektet a lehető legtöbb szempontból megvizsgáljuk, és a felmerülő lehetséges problémákra megoldásokat keresünk. Fontos a projekt végső céljára koncentrálnunk: kik, és hogyan használják majd a digitális gyűjteményt, milyen funkcionális elvárásoknak kell majd a gyűjteménynek megfelelnie, stb.

Érvek a digitális gyűjtemény mellett. Foglaljuk írásba, milyen érvek szólnak a digitális gyűjtemény létrehozása mellett: milyen felhasználói célcsoport használja majd, milyen igényekkel, illetve a digitalizált másolatoknak milyen előnyei lehetnek majd az eredeti forrásdokumentumokkal szemben.

Digitalizálási terv megírása. A projekt céljának meghatározása, pénzügyi keretek meghatározása, határidők meghatározása és írásba foglalása.

Munkafolyamat pontos leírása, megtervezése (a párhuzamos és egymásra épülő munkafázisok pontos megtervezése), feladatkörök, felelősségi körök pontos meghatározása.

A szükséges tréningek, továbbképzések megszervezése, időbeli kalkulációja.

Forrásdokumentumok kiválasztásának alapelvei. A digitalizálandó (eredeti) anyagok kivá-lasztásának elveit pontosan meg kell határozni, és írásba is kell foglalni.

A projekt teljes ideje alatt fontos a pontos dokumentáció. A projekt során felmerülő problémák és hibák dokumentációja sem maradhat el, a további projektek során ezek jól használhatóak lesznek. Fontos, hogy tanuljunk saját és kollégáink hibáiból és segítsük egymás munkáját.

A projekt során fontos a kommunikáció. Fontos, hogy a projektben dolgozók pontosan értsék a célokat, illetve a munkafolyamatokkal is tisztában legyenek. Így egyfelől biztosan jobban végzik majd munkájukat, másfelől ők is észlelhetnek bizonyos hibákat, mind a projektben, mind a munkafolyamat felépítésében is.

Digitalizálási projektek irányítása (a munkafolyamatok megtervezése, végrehajtása, ellenőrzése)

A digitalizálási projekt sikere nagymértékben függ attól, hogy megfelelő-e a projekt irányítása. Az irányítás egyik alapvető eleme a megfelelő munkafolyamat megtervezése és végrehajtásának ellenőrzése. A digitalizálási munkafolyamatok megtervezését és írásba foglalását már a projekt tervezési fázisában meg kell tenni. Természetesen a projekt során felmerülő problémák megoldásaként végrehajtott változtatásokat is megfelelően dokumentálni kell, írásba kell foglalni, és minden, a projektben résztvevőt tájékoztatni kell erről.

A munkafolyamat megtervezésekor és végrehajtásakor a következőket kell figyelembe vennünk:

  • a munkafolyamatnak biztosítania kell, hogy a digitalizálandó dokumentumok védelme megfelelő legyen végig a digitalizálási folyamat során,

  • biztosítani kell, hogy a digitalizálandó dokumentumok éppen aktuális lelőhelye végig követhető legyen a digitalizálási fázisok során,

  • biztosítani kell, hogy a létrejövő digitális fájlok is követhetőek legyenek a feldolgozás fázisain,

  • létre kell hoznunk egy adatbázist, amely pontos információkat tartalmaz a digitalizálandó dokumentumokon és a digitális másolatokon elvégzett műveletekről, illetve azok lelőhelyéről (ez lehet egy egyszerű táblázat is, vagy használhatunk hasonló célokra kialakított szoftvereket is),

  • meg kell határoznunk a forrásdokumentumok előkészítésének pontos menetét (leválogatás, megkeresés, esetleges tisztítás stb.),

  • biztosítanunk kell a forrásdokumentumok visszakerülését eredeti tárolási helyükre,

  • eljárási mechanizmusokat kell létrehoznunk a sokszor elvégzendő munkafeladatok el-végzésének módjáról,

  • meg kell határoznunk a létrejövő digitális fájlok elnevezési mechanizmusát,

  • meg kell határoznunk a tárolási és a szolgáltatási fájlok formátumát és paramétereit,

  • projektünk adatbázisában rögzítsünk minden fontos adatot, meghatározott paramétert,

  • rendkívül fontos a digitalizálási projektben résztvevők feladatainak pontos meghatározása és ellenőrizhetősége,

  • az elvégzendő ellenőrzések módját is meg kell határozni (állandó ellenőrzés, szúrópróbaszerű ellenőrzés stb.) Lehetséges ellenőrzések: interoperábilitás ellenőrzése, linkek ellenőrzése, fájlok és metaadatok szinkronjának ellenőrzése, helyesírási hibák, elírások ellenőrzése, következetlenségek megtalálása. Dokumentálnunk kell, hogy ki és hogyan végezhet ellenőrzéseket, illetve azt is, hogy kinek, mely munkafázisnál kötelessége bizonyos ellenőrzések végrehajtása,

  • a legjobb megoldás, ha mindig a következő munkafázist végző ellenőrzi az előző fázisban elvégzett munkát. Ha ez túl időigényes, akkor esetleg szúrópróbaszerű ellenőrzés mellett is dönthetünk, természetesen mérlegelve az így keletkező hibák lehetőségét,

  • törekednünk kell arra, hogy mindenképpen elkerüljük az esetlegesen félbemaradó munkákat.

A könyvtárakban folyó digitalizálási projektek sikerét nagyban elősegíti, ha a fent leírt hasznos ajánlásokat, jó gyakorlatokat figyelembe véve, átgondoltan, és előre megtervezetten valósítjuk meg azokat. Így biztosítva azt, hogy megfelelő minőségű digitális dokumentumok jöjjenek létre, amelyek online publikálása a digitalizálási munkafolyamat második fázisa.

Ellenőrző kérdések:

  1. A digitalizálási projektek irányítása során milyen elemekre szükséges figyelmet fordítani?

  2. A digitalizálandó anyagok kiválasztásakor milyen kritériumokat kell figyelembe venni?