Teadlased kasutavad AI abil Vatikani salaarhiivi digiteerimiseks

Vatikani salaarhiiv on koduks umbes 35 000 köitele ja üle 80 km pikkuste raamaturiiulitega täidetud riiulitele, mis on inimkonna üks olulisemaid ajaloolisi kollektsioone. Vanim käsikiri pärineb 8. sajandi lõpust. Probleem on selles, et sellele ei pääse praktiliselt ligi ja see on kättesaadav ainult akadeemikutele, kes saavad kolida katoliku kiriku peakorterisse.

Rühm Itaalia pealinna Roma Tre ülikooli ja La Sapienza ülikooli teadlasi soovib seda muuta. Nad töötavad välja projekti nimega Codice Ratio, mille eesmärk on automaatselt arhiividest kogu sisu transkriptsioon, millele üldsus pääseb.

Sel eesmärgil töötab meeskond tehisintellekti ja optilise märgituvastuse (OCR) kombinatsiooni abil. Nad kasutavad uut tehnikat, et rakendada praeguseid OCR-teadmisi käsitsi kirjutatud tekstide jaoks, purustades sõnad väikesteks tükkideks, mis sõltuvad piirkonnas kasutatavast tindi hulgast. See võimaldab eraldada iga tähe eraldi ja muuta paber digitaalseks dokumendiks.

Teksti ekraanipilt.

Vasakul käsitsi kirjutatud tekst; keskel õige sõna; ja paremal, mida programm on tuvastanud.

Nende tekstiosade ladina tähestiku tähtedena äratundmise eest vastutavad tehisintellekti koolitused viisid läbi Itaalia keskkooliõpilased. Nad vastasid mitmele küsimustikule ja selgitasid välja, millised pildid tähistasid soovitud tähti.

Selle kõige tulemus pandi proovile, kui meeskond tegi katseid, kasutades umbes 18 000 lehekülge arhiivis talletatud kirju. Teadlaste sõnul suutis programm õigesti tuvastada 96% tähtedest, kusjuures kolmandik sõnadest sisaldas vähemalt ühte valet tähte. Kuna see tehnoloogia saab alati teada, et selle vead on tuvastatud, paranevad need numbrid tõenäoliselt vaid tulevastel katsetel.

Veebisaidil In Codice Ray näete kõiki otsingutulemitega avaldatud artikleid.

Teadlased kasutavad AI abil Vatikani salafailide skannimist TecMundo kaudu