Microsoft AI joonistab objekte tekstikirjeldustest

Microsofti teadlaste avaldatud akadeemilise artikli kohaselt suudab Microsoftis välja töötatud uus tehisintellekti tarkvara “tõmmata” sisuliselt kõike tekstikirjeldustest. Näiteks kui kasutaja palub arvutil joonistada „mustade tiibade ja väikese nokaga kollane lind“, oleks tulemuseks see, mida näete pildil.

Neid linde ei pruugi reaalses maailmas olemas olla, nad on vaid üks osa meie arvuti kujutlusvõimest lindude kohta.

“Kui avate Bingi linnuotsingu, näete lindude fotosid. Kuid siin loob fotod arvuti nullist piksli kaupa, ”kommenteeris Microsofti uurimisjuht Xiaodong He Microsofti ametlikule väljaandele. "Neid linde ei pruugi reaalses maailmas olemas olla, nad on vaid üks osa meie arvuti lindude kujutlusvõimest, " lisas ta.

Ta täpsustab veel, et arvuti praegused tulemused pole täiuslikud, kuid need võivad läheneda. Idee on selles, et selline arukas tarkvara võiks lõpuks olla kunstnike või isegi sisekujundajate joonistamise abistaja.

microsoft

Tulevikus võib selline professionaal pildistada kodukeskkonda ja küsida siis arvutit: "Lisage vasakpoolsesse nurka modernistlikus stiilis hall polsterdatud puidust tugitool." Arvuti ei aita mitte ainult keskkonna seadistamist, vaid ka mööbli ja muude elementide loomist.

Protsess

Microsofti selle projekti kallal töötava meeskonna esialgsed uuringud algasid katsetamisega tehisintellektiga CaptionBot, mis võib kirjutada kirjeldavaid pealdisi iga foto jaoks. Seejärel lõid nad teise AI-tarkvara, mis vastab inimeste fotoga seotud küsimustele, SeenAI, mis võib olla eriti kasulik nägemispuudega inimestele.

Lõpuks suutis rühm välja töötada tehnoloogia, mis oleks võimeline genereerima neid jooniseid tekstikirjeldustest. Esimene osa kannab nime Generative Adversarial Network (GAN), mis on loodud piltide genereerimiseks, ja teine ​​osa on tuntud kui “diskrimineerija”, kes hindab fotode kvaliteeti.

Tähelepanu on inimlik mõiste; me kasutame matemaatikat, et muuta tähelepanu arvutuslikuks kontseptsiooniks

Seda süsteemi koolitati koos pealdisega piltide paariga, nii et tarkvara saaks aru, millised sõnad vastavad piltidele. Hiljem oli vaja luua matemaatiline mudel, et keskenduda süsteemi väljatöötatud loomingule. „Tähelepanu on inimlik kontseptsioon; kasutame matemaatikat, et muuta tähelepanu arvutuslikuks kontseptsiooniks, ”ütles Ta.

Teadlane usub, et lõpuks on võimalik luua animafilme skriptidest, mis on kirjutatud sarnaste süsteemide abil, kuid meil pole ennustust, millal võiks sedalaadi mis tahes Microsofti tootele äriliselt rakendada.

Microsoft AI “joonistab” objekte TecMundo kaudu tekstikirjeldustest