A Facebookon rákeresni arra, hogy Facebook vagy a Google-ön arra, hogy Google – nagyjából hasonlóan szürreális érzés volt begépelni az Arcanum szót az Arcanum Digitális Tudománytár (ADT) keresőjébe, hogy utánajárjak, mit érdemes tudni a budai központú, harmincéves családi cégről, aminek adatbázisát szerkesztőségünk heti szinten használja – sőt olyan is van, hogy kicsit tolakodnunk kell a forbesos fiókért.
Az Arcanum nélkül szinte lehetetlen lett volna otthonról az Arcanum után kutakodni. Nehezebb lett volna kideríteni például, hogy az első említés a cégről 1992-ben történt, nem ugrottam át volna pár perccel később az 1998. szeptember 5-i Magyar Nemzetre, hogy aztán kíváncsiságból ne csak az Arcanumról szóló cikket olvassam el, hanem mellette a New York-i Püski-Corvin Magyar Könyvesház bezárásáról szólót is; sőt nem tűnt volna fel az sem, hogy szinte az összes róluk szóló cikk címében benne van a múlt, történelem és a digitális szavak egyike. Az ADT-n elvesztem az időérzékem: az egyik pillanatban még céltudatosan keresgélek, aztán a lap szélén találok egy hírt, hogy elloptak egy sivatagi rókát az állatkert rágcsálóházából (Népszabadság, 1965). Mire észbe kapok, el is telt negyedóra: átlagosan épp ennyi időt töltenek a felhasználók az ADT-n.
Az ADT nem az egyetlen adatbázis, amit a Biszak család – az alapítóval, Sándorral az élen – szinte a semmiből épített fel. Gyűjtéseikkel felbecsülhetetlenül sok munkát megspórolnak levéltáraknak és könyvtáraknak, hiszen nem kell előhalászni az iratokat, és attól sem kell tartaniuk, hogy elrongyosodnak, vagy kár éri őket a sok használat során. Közel 75 ezer regisztrálójuk és hétezer előfizetőjük között vannak egyetemisták, kutatók, történészek, a számítógéphasználatot könyvből tanuló nyugdíjasok, térképrajongók, családfakutató civilek, sőt honlapjuk tanúsága szerint egyszerű Arcanum-függők is.
A Biszak család hasonlóan sokszínű. Sándor édesapja katonazenész, édesanyja ápolónő volt, ő eredetileg vegyész végzettségű, fiatalabbik fia, Előd matematikus – ma ő felel a fejlesztésekért –, legidősebb lánya, Bogáta hét év óvónői kanyar után került a céghez, övé az ügyfélszolgálat, a rendezvények és együttműködések szervezése, és részt vesz a hiányzó dokumentumok pótlásában is. Sándor öt gyereke közül ők ketten dolgoznak teljes állásban a cégnél, de hosszabb-rövidebb ideig mindannyian megfordultak már ott.
Mindent digitalizáltak, amit csak lehetett
A digitalizálás folyamatával Biszak Sándor 1983-ban találkozott először, a Richter (akkor még Kőbányai Gyógyszerárugyár) könyvtárában, ahol az egyetem után helyezkedett el. Itt a gyógyszeripari szabadalmak rendszerezésével foglalkozott. „Hozzáférésünk volt különböző nagy amerikai adatbázisokhoz. Furcsa volt, hogy magyar adatokat kerestünk, mégis külföldi forráshoz nyúltunk: Amerikában jobban feldolgozták a magyar szabadalmakat” – mondja.
A Richternél egy évig maradt, utána önálló pályára állt. Létrehozott egy gyógyszeripari szabadalmi adatbázist, amit kezdetben flopilemezen, a 90-es évek elejétől CD-n szállítottak ki az előfizetőknek minden hónapban. Később kibővítették a feldolgozást a gyógyszeriparon kívüli megadott szabadalmakra is. Ez a folyamat végigkísérte a cég felcseperedését, nagyjából négy–öt éve fejezték be: mind a 240 ezer magyar szabadalmat digitalizálták, 1896-ig visszamenőleg.
Az Arcanumot 1989-ben alapították, eredetileg a Szabadalmi Hivatallal együtt, utóbbi végül néhány év után kilépett. Közben Sándor a szabadalmak száraz világából megindult a kultúra irányába. Logikusnak tűnt, hogy minden idők legnépszerűbb könyvével, a Bibliával kezdje. Az Arcanum ekkoriban még leginkább egy manufaktúrához hasonlított. A Biblia digitalizálásának első lépcsője ugyanis a szöveg teljes legépelése volt. A folyamatnak csak ez a része tíz ember tízhavi munkáját jelentette. Ezt többször is meg kellett ismételniük, először a Károli Gáspár-féle fordítást digitalizálták, és adták ki flopin és CD-n, később másféle magyar fordításban és idegen nyelveken is megjelenítették. Néhány évvel később nyitottak a költészet felé is: a Verstár nevű gyűjteményben ötven magyar költő összes művét tették digitálisan olvashatóvá, és ezáltal kereshetővé.
A 90-es és a 2000-es években aztán digitalizáltak mindent, amit csak tudtak, lexikonokat (például A Pallas Nagy Lexikonát), enciklopédiákat, irodalmi és történelmi gyűjteményeket, de feldolgozták például a Nyugat folyóirat 33 év alatt megjelent számait is. Ezzel nemcsak megkönnyítették a könyvekben és újságokban való kutatást, de sokkal elérhetőbbé is tették őket. A 2000-es évek elején a százkötetes Jókai-összes értéke például legalább 250 ezer forint lett volna, a digitális verzió viszont – bár külsőre kevésbé volt vonzó – csupán négy–ötezer forintba került.
Negyvenmillió oldal – eddig
Az Arcanumnak ma négyféle, állandóan bővülő adatbázisa érhető el, összesen több mint negyvenmillió oldalt digitalizáltak az elmúlt 31 évben. Legismertebb és legnépszerűbb találmányuk a már említett, 2014 környékén elrajtolt ADT, ahol több száz hazai tudományos és szakfolyóirat, illetve heti- és napilap minden lapszáma elérhető digitális formában.
„Az ADT hihetetlen módon megkönnyíti a dolgunkat. Nemcsak költségek és idő tekintetében, de nagyon nem mindegy az sem, hogy konkrét szavakra is rá lehet keresni” – mondja Katona Csaba történész, a Bölcsészettudományi Kutatóközpont Történettudományi Intézetének tudományos munkatársa. Csaba most Rigó Jancsi cigányprímás és az amerikai milliárdoscsalád sarja, Ward Klára szerelmi történetéről ír könyvet, azt mondja, az Arcanum évekkel előre hozza a munka befejezését. „Arról nem is beszélve, hogy az adatbázisok majdnem teljessé teszik a nem levéltári iratokkal kapcsolatos, a már digitalizált újságokat, könyveket érintő kutatást, sokkal kevesebb »találat« marad ki. Az embernek eszébe jut, mi mindenre lehetett volna képes mondjuk egy Goethe, ha ilyen technológiával dolgozhatott volna.”
Egy másik adatbázis, a Kézikönyvtár a Verstár és a Biblia mellett 300 könyvkiadványt (lexikonokat, írói életműveket, családtörténeti kiadványokat, történelmi monográfiákat) fog össze. Ez a kijárási tilalom alatt sok tízezer embernek jött jól, a digitális oktatás miatt érezhetően többen keresnek rá versekre, a költészet napján, április 11-én pedig minden évben megugranak a számok.
Ha a Kézikönyvtár egy többórás komolyzenei hangverseny, a Hungaricana megfelelője egy könnyed nyári fesztivál lenne. Bár építészeti tervekből és levéltári anyagokból is van itt bőven, Sándorék komoly népzenei hangarchívumot alakítottak ki, a Budapest időgép segítségével pedig térképen bolyonghatunk az elmúlt 180 év Budapestjén. Ide tartozik a Képcsarnok is, ami 18 intézmény (múzeumok, könyvtárak vagy például a Fortepan) közel félmillió képi dokumentumát öleli fel.
„Napi rendszerességgel 20–25 ember dolgozik a fotók feliratozásán, ebben óriási segítség az Arcanum – mondja Tamási Miklós, a Fortepan egyik alapítója. – Különösen olyan hagyatékok esetében, ahol hivatásos, a sajtónak dolgozó fotósok életművét dolgozzuk fel. Előfordul, hogy az ő fotóikat egy az egyben megtaláljuk például a Magyar Konyhában vagy a Nimród vadászújságban. Hat–nyolc évvel ezelőtt az önkénteseink még teljes magazingyűjteményeket lapoztak végig a könyvtárakban.”
A Népszabadság 2003-ban azt írta: „Sándor legjobb ötlete a Biblia volt”. Az alapító úgy érzi, a negyedik adatbáziscsoport, a Mapire nevű történelmi térkép-gyűjtemény a maga módján hasonló szenzáció. Alapját katonai felmérések és országos, városi és tematikus térképek jelentik, szinte házakra lebontva nézegethetünk 17–18. századi térképeket a Habsburg Birodalom területéről. A létrehozásához komoly nemzetközi összefogásra volt szükség. „A Habsburg Birodalom egyedi, egypéldányos, kézzel festett térképeiért tíz évig könyörögtünk az osztrákoknak.”
Nem feltétlenül az állam a jó gazda
A digitalizáció ma már OCR technológiával (optikai karakterfelismeréssel) történik – ez teszi lehetővé, hogy a szkennelt és fotózott anyagok automatikusan kereshetők, szerkeszthetők és kivághatók legyenek. A szkennerek kapacitása napi ötvenezer, havi egymillió oldal, ennek nagyjából felét stabilan hozzák is. A folyamat legnehezebb része ma már nem maga a digitalizáció, hanem az anyagok beszerzése. Egyre több gyűjtő keresi fel őket, de az újságokat, folyóiratokat jellemzően könyvtáraktól szedik össze. Sok olyan lap van – például a Nők Lapja, a HVG, az És vagy a Magyar Narancs –, aminek kiadója érthető módon nem járul hozzá ahhoz, hogy az Arcanum tegye elérhetővé őket.
„Sándornak néhány évvel ezelőtt voltak nagy ellenségei, főleg a közgyűjteményi kollégák fújtak rá, amiért megél ebből, és még fizetést is tud adni másoknak – mondja Tamási. – Azzal kritizálták, hogy a Nemzeti Kulturális Alapra épülő világ az Arcanumot hizlalja, amire a válasz szerintem az, hogy valóban, Sándor viszont létrehozott egy működőképes konstrukciót. Nem feltétlenül az állam a jó gazda! Ugyanennyi pénzt elköltöttünk olyan állami gyűjteményekre, amik elvileg ugyanazt csinálják, közpénzen működtetjük őket, mégsem használja őket senki. Az Arcanumon azt fizetjük meg, hogy kitalálták, és értenek is hozzá.”
Feltölteni a nagypapát
Bár nehéz megmondani, mi számít száz százaléknak, Sándor úgy látja, itthon hamarosan a folyamat végére érnek; 10–15 millió oldal lehet még, ami könnyen elérhető számukra, és az embereket is érdekelheti (rejtvényújságokat, rádióújságokat például az Arcanum nem szkennel). „Kolozsváron lehet még kétmillió oldalnyi olyan anyag, ami nekünk nincs meg, a Parlamentben 600 ezer”– mondja Biszak Sándor.
Emiatt is igyekeznek nyitni más országok felé, elsősorban a magyarlakta területekre koncentrálnak. New Brunswick levéltárával például épp a koronavírus előtt egyeztek meg közel egymillió oldalnyi amerikai emigráns magyar lap hazaszállításáról, de a szállítási árak időközben az egekbe szöktek (1,5 millióról 7,5-re), ezért ez a projekt egyelőre áll. A környező országokban is megjelentek már, de az osztrák könyvtárakba például a Google náluk hamarabb tette be a lábát.
2018-as árbevételük 340 millió forint volt, úgy becsülik, a 2019-es szám hasonló lesz. Az árbevétel egyharmadát a megbízásos feladataik adják (levéltáraknak, könyvtáraknak, múzeumoknak végzett digitalizálások), egyharmadát az ADT intézményi, egynegyedét pedig a magánszemélyi előfizetői.
A járvány az elmélyültebb munkát is lehetővé tette, most Előd vezetésével több új fejlesztésen is dolgoznak. A Képcsarnokban ma már mesterséges intelligenciával társítanak új szavakat a képekhez, de használják a Google BERT modelljét is (az algoritmus lényege, hogy a szavakat nem egyenként, hanem a kontextussal együtt értelmezi, így nagyobb eséllyel tud megfelelni a keresési szándéknak). Szeretnék lehetővé tenni azt is, hogy fotó alapján is keresni lehessen a lapokban.
„Például feltöltöd a nagypapád képét, és rá tudsz keresni, hogy szerepelt-e az újságban.”