Na látod pont ez az amit mondasz: kismillió képpel betanítod. A művészet nem ez. Ha egy művésznek (most ne menjünk bele, hogy ki a művész, de valakinek aki TUD rajzolni) mutatsz EGY általa soha nem látott dolgot, mindegy mi az, lehet akár repülő, repülő csészealj, vagy kínai teáscsésze alja, de akár egy soha nem látott élőlény is, akkor lerajzolja, és azt is meg tudja vele csinálni, hogyha azt mondod neki, hogy figyelj, ez a teáscsésze legyen már XIV. Lajos korabeli mintával. Értelmetlen, de simán megoldja, elsőre. Ha azt mondod neki, hogy van ez a pár képem, amin különböző metszetei vannak egy triász egysejtűnek, különböző méretűekről, mindegyik kicsit erodálódott, némelyik törött és ebből kéne egy rajzot csinálni róla, amin a színek nagyjából olyanok legyenek mint egy mai faj színei, de kicsit zöldesebben, és egy kavicsos, homokos tengeraljzat környezettel, akkor megcsinálja. Nem kell neki egymillió hasonló képet mutogatni hozzá. (Nem a 3D kiszerkesztésen van a hangsúly, az menne, a rajzon.)Ez bármit rajzol jól, ha arra kihegyezve tanítod be, gondosan felcímkézett tanítóanyaggal. A StableDiffusion-t 600 millió képpel tanították, amiket nem haditechnikai szakemberek (mint ezek a büszke fórumhuszorok), hanem teljesen laikusok végezték, jobb esteben Mechanical Turkkel clickfarmokon pénzért, rosszabb esetben captchakon, stb.
Vannak külön arcokra kihegyezett modellek is, volt a hetekben egy cikk róla a hírekben. Az alap StableDiffusion valóban eléggé Eigenface-gyártást tol. Viszont ami nagyon jó benne, az az image2image: felismeri a kompozíciót az eredeti képen, és abból indul ki, így pl. arccserélő modellel lehet könnyen egy újabb nekifutással a kapott alap képet lecserélni.
A szöveget meg azért nem generálja jól rá, mert úgy működik, hogy vesz vagy ez véletlen zajt, vagy a kapott képet, és azt kezdi el módosítgatni, hogy a kért leíráshoz egyre jobban hasonlítson. Ha a hálóban emergensen kialakult OCR képesség a szövegfelismerésnél azt a szöveget elég hasonlónak látja, akkor az kész is van. Ez nem egy OCR-re optimalizált háló, és ha az lenne, így "visszafele" hajtva az is elég vad dolgokat is kihozhatna, mert elég zajos képekről is elvárjuk az egész jó szövegfelismerést, de valójában "előre hajtva" azokat többnyire kontextus alapján segítve vannak: egy a következő szót jósló statisztika (mai szóval MI) jóslataival össze szokták vetni a felismert szöveglehetőségeket, és ezzel súlyozzák a pixelekből jósolt karakter valószínűség kombinációkat.
Otthoni géppel lehet ilyet, csak épp elég drága egy megfelelően combos GPU. Ha sokat pörgeted, még mindig olcsóbb, mint a felhő. Kihasználtság kérdése a dolog.
Szerintem ha megnézed mennyibe kerül egy hordozható munkalaptop... hasonló ár, csak mondjuk nem grafikára, hanem akkuidőre lesz kihegyezve.
Hát, szerintem a legdrágább laptopok azok pont a játékos laptopok, azok közt van amelyik 5500 körüli áron szaladgál.