View Single Post
Staro 27.04.2025., 17:04   #1
calypso
Premium
Moj komp
 
calypso's Avatar
 
Datum registracije: Oct 2002
Lokacija: Zagreb/Rijeka
Postovi: 1,901
GenAI - Statisticko pogadjalo ili ipak nesto vise?

Naletio sam na jedan jako dobar kratki znanstveni clanak u vezi transformer GenAI-jeva u koje se svi kunu... Problem je sto je princip rada doslovno statisticko pogadjanje i namjestanje rezultata... Transformerima nije cilj napisati istinitu tvrdnju, vec samo zgotoviti recenicu prema nekim zakonitostima i uz maksimalno tocnu konvergenciju kako se ide prema kraju recenice...

Borges and AI - https://arxiv.org/abs/2310.01425

Naime, lingvisticki gledano, slaganje recenice je definirano lingvistickim zakonitostima (ma mozemo komotno reci matematickom formulom)... Mislim, oni koji se sjecaju mojih nepodopostina sa Useneta tamo jos sa kraja 90ih i pocetkom 2000tih su naletili na tzv. Runfa... Runf je bio (prema mojoj ideji) pokusaj nas nekolicine blentavaca da napisemo programcic koji ce generirati recenice... Imao je tocno predefiniran nacin slaganja recenica (link je ispod)... Imenice, glagole, priloge, prijedloge, pridjeve i stajaznam sta je po random odabiru odabirao iz malih fajlica u koje smo pisali sve te gluposti... Cak je skroz lijepo deklinirao i konjugirao, sve po pravilima jezika... Kasnije sam se malo zaigrao pa sam mu preslozio fajlice tako da je umjesto imenica koristio pridjeve, umjesto glagola veznike i slicno tako da su te generirane recenice bile besmislene, ali urnebesno smijesne...

Primjeri runfovih gluposti - probajte naglas procitati:
  • Crncugaa povraca Madjarski televizorog prdija na gliseru satima ? By runf
  • Fanta ljubi u kabrioletu napusen zeljeo mirise za pet minuta ? By runf
  • Murjaka nabija krvav kokosog oblacija u sumi jucer ? By runf
  • Crnogorac gnjeci trijezan ciglaog njusija svakih 15 minuta u mesnici ? By runf
  • "Pijans li penzionero sere ?" upita knjiga bulji medou maltretiru. "Ne znam ja nista !" rece lubenicaa baca "Ja samo indijanacu ubiju bolestanm !" By runf
  • "Crvens li slono kolje ?" upita majmuno zmice tapiro zvace. "Nisam ja nikog bombardiro !" rece Crnogorka bulji "Ja samo Dzoniog ljubija mrsavm !" By runf

Tu me skini - Runf.zip

Idem dalje sa lingvistikom... Dakle, lingvisti su utvrdili da postoji konacan (i relativno malen broj) nacina slaganja recenica... I onda uzmes LLM, nakrcas ga trening podacima (knjige, clanci, govori, itd) i pustis ga da izvodi korelacije svega sa svacime i izvodi tezinske faktore za svaku korelaciju... Kada to nauci, onda imas sve to u njegovoj 'bazi' tezinskih faktora (aka. neuronskoj mrezi)...

Generiranje teksta ne bi onda trebalo biti pretesko... Krene od prve rijeci, onda ima hrpu mogucnosti za sljedecu rijec, no zna se da nakon subjekta ide predikat, tako da je ipak ogranicen po pitanju odabira rijeci... PA onda ide dalje, i vec mu se izbor malo smanjio jer rijec ovisi o nekom tezinskom faktoru iz onoga sto je 'shvatio' iz upita... I onda sa svakom sljedecom rijeci konvergira i smanjuje si mogucnost odabira rijeci, sve dok ne dodje do kraja recenice gdje stavi tocku i nastavi dalje sa novom recenicom ukoliko je potrebno...

Ono sto velika vecina ljudi ne shvaca je - generative AI se ne bavi tocnoscu materijala sa kojim barata... OK, postoje nacini kako da ga se zacementira da ne pise gluposti, no i dalje, odgovore je moguce navoditi u smjeru u kojem zelis, tako da je moguce dobiti konacni odgovor na upit koji je potpuno netocan, ali je toliko dobro potkrijepljen brdom 'smislenog' teksta da jednostavno nemas volje sumnjati u taj odgovor jer, eto, zvuci tocno...

Iz mog nekog iskustva koristenja tih chatbotova, nije pozeljno vjerovati im na rijec... U 80% slucajeva sam skuzio da su mi u silnom generiranom tekstu dali par krivih informacija... Ali onako, ne krivih nego totalno krivih... Recimo sinoc mi je DeepSeek izjavio da Betrion mast koristi imikvimod kao aktivnu tvar, a na lijeku uredno pise mupirocin... Dakle, imikvimod je imunomodulator, dok je mupirocin antibiotik... Onako, razlika je nebo i zemlja, no to toliko sa autoritetom pise da nema razloga da mu ne vjerujes... Dapace, isprva sam i povjerovao, no isao sam za svaki slucaj na HALMED procitati koja je aktivna tvar u Betrion masti, jer znam da je antibiotska, kad ono mupirocin, nesto skroz deseto od onog sto mi je ovo smece izjavilo... Danas sam ga navlacio da prihvati da Messina nije u Italiji i nije nikad bila, u par navrata mi je napisao da je Messina treci najveci grad na Siciliji, no onda mi je pred kraj napisao da je drugi najveci grad na Siciliji... Dokaz da pogadja i da uopce ne barata cinjenicama, nego samo onime sto njegovim lingvistickim zakonitostima odgovara u danom trenutku... Pa sam ga svojedobno pitao da li je silikonsko ulje koje se stavlja u oko kao tamponada nakon operacije ablacije retine lakse ili teze od vode, ovaj uredno tvrdi da je teze od vode, ali navodi gustocu od 0.97 (sto je lakse od vode) i to u istom odgovoru... Onako - wtf?!

Poanta price - GenAI se ne bi trebao koristiti za fact-checking, analitike i slicne zadace, vec za ono za sto je namijenjen - generiranje teksta / slike / videa... Definitivno ce dobro napisati pricu, nekakav opceniti clanak, pa jos ako mu ubacis tocne podatke i zamolis da to sve inkoroporira u neki clanak ili govor ili nesto, to ce dobro odraditi... Dakle, dokle god se od njega ne ocekuje da ti kaze tocan odgovor na pitanje, moze proci... Za sve ostalo treba koristiti nesto sto je za to namijenjeno i eventualno GenAI koristiti kao final-output stage koji ce dobivene podatke iz nekog pametnijeg AI-ja (ML recimo) samo napisati na ljudima razumljiv nacin...

Inace, za one koji nisu nikad culi, postoji ELIZA, chatbot razvijen 1964-1967... https://en.wikipedia.org/wiki/ELIZA, Nekada davno tamo pocetkom 1990ih su ju neki BBSovi imali instliranu pa se moglo caskati sa doticnom...


Poanta prica - GenAI je, kako bih ja to nazvao - statisticko pogadjalo... I nista vise od toga...


I sada, umjesto da krene flame, molio bih da napisete ovdje neke smislene primjene za koje koristite GenAI alate, te koje alate koristite, koliko dugo, itd... Ima ih sad vec podosta, no volio bih iz prve ruke cuti iskustva - koji alati su se pokazali kao odlicni, koji su najveci lazovi, itd...





Inace, naletio sam na neki moj post iz 2002, majkemi, zvuci ko da ga je ChatGPT napisao... Ja se ne sjecam da sam bio u stanju ovakve gluposti trkeljat...

Je ono sa medjukanalnim interferencijama i RT MDU? Mah, nisi ti jos
cuo za Millenium RPK.... Nas najnoviji izum... Stroj za izradu kobasica...
Cak imamo i algoritam za softver... Naime, koristimo paradigmatske procese
pri razlucivanju uzoraka (tzv. sampleova) prilikom izrade kobasica...

Gledaj, vrlo je jednostavno... Uzmemo komade mesa... Pustimo paralipticni
odsmjerivac da ga malo ocisti, i onda pomocu RPK sve to smijesamo, i
uvaljamo u posebno monostrukturalno-transformirana crijeva... Takvim
postupkom omogucavamo potpunu sigurnost od sitnih cestica iz zraka... 'nako,
da ne zagadimo kobasice kao vecina stranih proizvodjaca... Nasi domaci su
jos OK sto se toga tice...

A softver je posebna prica... To je vec pamet... Jebga... To je poslovna
tajna i ne smijem ti nista otkriti...

Kad napravimo uredjaj, svi cete dobiti po paket kobasica...

Inace, uredjaj je upogonjen sa Motorolom 68XXX, zbog toga sto nam ne treba
nista zahtjevno, a svi prekidi koje Motorola moze obraditi su nam taman...
Stvarno... Mogli smo komotno i neki PIC uzeti, ali eto, uzeli smo Motorolu u
slucaju da razvijemo dizajn i da ga unaprijedimo u kasnijim verzijama
uredjaja... Ko zna, mozda se dobro plasira na trzistu...
__________________

GMKTec K8Plus
AMD Ryzen 7 PRO 8845HS, 3.80-5.10GHz 8-core
64GB DDR5-5200 (2x32GB), quad-channel
NVMe1 - 512GB Micron 3400, PCI-E 4.0 x4
NVMe2 - 512GB Samsung PM981, PCI-E 3.0 x4
AMD Radeon 780M integrirana grafika


2x EIZO EV2336WFS3-BK
23" 1920x1080 IPS


Dell Latitude 7390
intel i7 8650U, 1.90-4.20GHz, 4-core
32GB DDR4
512GB Samsung PM981, PCI-E 3.0 x4
intel UHD 620
13.3" FullHD IPS Touchscreen


calypso je offline   Reply With Quote