L'IA bien qui l'IA le dernier - Commentaire - Essayez de ne pas trop troller

__MaX__

David Croquette

Admin 4863 msgs

09.11.2023 13:08

Le vertueux a écrit :
C'est plutôt un problème de résolution et de modèles car en vrai ça fonctionne pas mal sur les grandes images quand tu relances le calcul sur la main avec un masque. Ça nécessite plusieurs itérations mais ça peut être automatisé. On peut aussi imaginer qu'il existera des rig automatiques pour les mains qui vont faciliter la justesse comme c'est le cas avec open pose.

Tu ne fais que confirmer ce que je dis : )
Tu dois :
- Faire une passe humaine en masque
- Faire plusieurs générations en espérant tomber sur une seed clean qui représente correctement le sujet

On est toujours au même endroit: le ML ne sait pas à quoi il a affaire et est fondamentalement incapable de donner une définition de ce qu'il représente. Ce qui implique qu'il est incapable d'extrapoler lui même ce qu'il peut faire du sujet qu'il tente de représenter. Ca vaut pour les mains, comme pour le reste.

SD et consort, c'est juste une grosse base de donnée qui tisse des liens avec des similitudes qui lui ont été fournies en amont et il mélange un peu tout ça pour sortir quelque chose "d'unique". C'est finalement un gros dico d'image un peu overhypé.

Comme Chat-GPT n'est qu'un gros Google / moteur de recherche qui est juste en bonus, capable de tisser des liens de similitude et de produire un résultat nouveau de ça. Et ça a régulièrement montré ses limites.

Le vertueux

J'aime les films de karaté

Membre 6563 msgs

09.11.2023 14:13

- Faire une passe humaine en masque

Non pas humainement, tu as des modèles automatiques qui détectent les mains et font une passe avec un masque automatique, il upscale la partie détectée, fait une passe dessus et l'intègre dans ton image. T'as rien besoin de faire. Tu peux le faire sur la tête, la poitrine, les mains, un individu entier. Ils peuvent même détecter si c'est un male ou une femelle.

Et c'est nécessaire uniquement parce que les IA sont entrainées sur des images basse def et que les cartes graphiques ne sont pas assez puissantes. Mais dans beaucoup de cas, quand ton modèle de base est de bonne qualité, ça n'est même pas obligatoire.

- Faire plusieurs générations en espérant tomber sur une seed clean qui représente correctement le sujet

Tu as besoin de lancer plusieurs génération si tu travailles en basse résolution et manuellement, mais c'est pas un problème d'ia, c'est un prob de résolutions et de qualité de la résolution de la banque de données.
C'est à dire qu'à moyen terme ça ne sera plus du tout un soucis.

Ça sera encore plus efficace quand l'IA sera capable de gérer de la 3d polygonale. On pourra même imaginer que cette IA aura des instructions sur la taille moyenne d'un doigt, l'écart type, ses mouvements anatomiques possibles et que l'utilisateur pourra jouer avec ces données dans son prompt pour faire des humains réalistes ou au contraire des monstres difformes.
C'est pas pour tout de suite, les machines ne sont pas assez puissantes, mais ça viendra.

Latium

Membre Factor

Membre 59 msgs

09.11.2023 14:22

Heinzoliger a écrit :
Depuis le début de l'année, je prédis un rpg open world avec des IA intégrées directement dans le jeu.
Une sorte de Skyrim avec tous les pnj dirigés par des IA distinctes.

Les scénaristes font la trame, placent les pnj et leurs assignent un rôle dans une quête, un background, des besoins, une personnalité....

Puis en jeu, le joueur va directement leur parler librement en leur disant ce qu'il veut et c'est l'IA qui répond/réagi en fonction de ce que connait le pnj, de comment lui parle le joueur et de ce qu'il sait de lui...

Je n'ai aucune idée de comment le jeu serait cassé et si ce serait amusant à jouer mais je n'ai aucun doute qu'il y a déjà des studios qui réfléchissent à faire quelque chose comme ça.

La techno est déjà là plus ou moins. En réussissant à entrainer des IA sur des données limitées pour éviter ensuite les biais racistes, sexistes, .... et en donnant aussi la possibilité à l'IA d'attaquer le joueur si elle se sent agressée, ça peut donner quelque chose de rigolo.

C'est déjà fait dans des jeux avec tout un système de script qui prend un temps fou à implémenter à chaque fois. Avec ce système, on pourrait rajouter un personnage crédible très rapidement sans devoir écrire à l'avance une tonne de dialogues pour prévoir tous les cas de figure, sachant que 50% ne seront vu par personne (coucou Baldurs Gate 3)

J'ai le même rêve.

Jaco

Simple Jac

Membre 675 msgs

09.11.2023 14:50

Ça existe déjà depuis longtemps iadungeon et c'est en ligne de commande.
Disons que encore hier je suis tombé sur une news de méga corpo addict au bitcoin rédigé avec l'aide de l'IA et c'est d'une tristesse sans nom.

choo.t

Saint rââle

Redac 3744 msgs

09.11.2023 15:09

Heinzoliger a écrit :
Les scénaristes font la trame, placent les pnj et leurs assignent un rôle dans une quête, un background, des besoins, une personnalité....

Puis en jeu, le joueur va directement leur parler librement en leur disant ce qu'il veut et c'est l'IA qui répond/réagi en fonction de ce que connait le pnj, de comment lui parle le joueur et de ce qu'il sait de lui...

Y'a un mod Mount & Blade II qui amène ça, dans les limites du possible d'un mod.

Reez

Membre Factor

Membre 695 msgs

09.11.2023 15:58

__MaX__ a écrit :

Va falloir m'expliquer quand même à quel moment, la décision de The Finals est basée sur une considération financière. J'ai joué pendant l'open beta, les annonceurs c'est au taquet 40 lignes de dialogues divisé en deux personnage (un homme et une femme). C'est tellement ridicule comme quantité de contenu, qu'on parle de quelques milliers d'euros... c'est de l'économie de bout de chandelles.

Le temps qui a été alloué pour potentiellement générer l'audio via un service OU créer un modèle propre pour le faire a certainement coûté autant voire plus que passer un coup de fil à Side pour enregistrer deux gusses sur une demi journée.

Leur objectif c'est pas d’économiser des sous sur 2 acteurs, mais de faire des présentateurs qui parle de ton match pour de vrai, avec ton pseudo, et pas juste 40 lignes avec des triggers. Ils en sont pas encore la mais il posent les briques.

"Fantastique comeback de Max qui prends sa revenche sur Boobyunderscore33, il lui a bien rendu son headshot de debut de partie...
-Toutafait Jean michel, sachant que c'est pas la premiére fois qu'ils se rencontrent.. Max lui avait deja mis une fessée il y a 2 jours lors d'un precedent match."

PS : Je deteste l'ia pour remplacer les humains en moins cher et moins inspiré, mais j'aime l'ia pour faire ce qui etait pas possible avant. Ici je pense que c'est le second cas.

LeGreg

Membre Factor

Redac 1868 msgs

09.11.2023 19:09

> quid des copyrights, surtout le jour où les politiques s'attarderont dessus?

Je ne sais pas pour la France mais aux États Unis il y a quelques jurisprudences. En gros entièrement généré par IA <- œuvre non protégée par Copyright. L'administration en charge des copyrights reconnaît par contre les copyright des œuvres où l'IA a joué un rôle mais où un travailleur humain a effectué un travail technique sans Intelligence Artificielle (autre que donner des ordres). Bien entendu cette frontière restera assez floue et elle pourra changer.

> qu'en sera-t-il le jour où les services d'IA seront facturés?

Aujourd'hui, la plupart des services "hauts de gamme" rendus par des IA sont facturés. La faute en partie aux taux d'intérêt hauts mais surtout au coût de génération. Si la génération nécessite un GPU puissant (comme le A100 ou H100), ces GPUs sont très chers et les faire fonctionner en continu coûte très cher.
Certains services (local LLAMA, transcription/text2speech open source, stable diffusion) peuvent tourner sur un GPU de Madame Michu. Et certains tournent en temps réel (DLSS, par exemple, parce que le coût par image est super bas).
On peut penser que la tendance continuera, les GPUs resteront cher pour le haut de gamme qui pourra se permettre de facturer, les services continueront à être "distillés" en versions plus efficaces sur des GPUs moins chers et locaux. Et les domaines d'applications de l'un et de l'autre vont continuer à s’agrandir. On découvre de nouveaux domaines d'application toutes les semaines quasiment.

LeGreg

Membre Factor

Redac 1868 msgs

09.11.2023 19:31

"La raison pour laquelle les mains sont claquées dans stable diffusion, c'est parce que l'IA n'a aucune connaissance sur le sujet quel tente de reproduire. Avec les modèles qu'on a aujourd'hui, il est techniquement impossible qu'une IA de génération d'image réalise qu'elle est entrain de mettre un doigt de trop ou de le plier dans un sens qui n'est pas physiquement possible."

En vrai c'est un peu plus compliqué que cela, les systèmes de génération d'image les plus performants apprennent de manière organique et au final pas si loin de ce que fait un humain. Ils voient des images de "chose" en continu pendant leur entraînement au point où ils vont commencer à avoir une "idée abstraite" de certains concepts (ou de styles). l'IA n'a pas de main mais a vu suffisamment de mains pour "imaginer" à quoi ça ressemble de tous les angles. Bien entendu c'est comme un humain, un humain à qui on demande de dessiner une main va faire un sale boulot sauf s'il est surentraîné. Si ton but c'est de générer des mains alors tu peux sur-entraîner ton IA de la même façon ou alors ne l'entraîner que sur un sous-ensemble des styles (ce qui est souvent le cas pour les artistes humains). Mais dans la pratique les gens qui entraînent ces IA veulent un moteur polyvalent qui sait tout faire (du manga à la photographie, du réel à l'abstrait au fantaisiste). Au final c'est un compromis mais comme chaque année la génération s'améliore donc si on continue la tendance, ce ne sera plus vraiment un problème.

L'un des aspects fascinant de l'IA est aussi que les choses apprises pour faire une tâche peut être transférée sur une autre tâche qui ne faisait pas partie du but original de l'entraînement. Donc on pense qu'il est possible de construire des IA qui ont un "cortex visuel" et un "cortex moteur" et qui sont capables de faire le lien entre les deux sur des tâches complètement nouvelles après une courte période d'adaptation ou complètement de but en blanc (ce qu'on appelle le "few shots/one shot/zero shot").

__MaX__

David Croquette

Admin 4863 msgs

09.11.2023 19:34

Reez a écrit :
Leur objectif c'est pas d’économiser des sous sur 2 acteurs, mais de faire des présentateurs qui parle de ton match pour de vrai, avec ton pseudo, et pas juste 40 lignes avec des triggers. Ils en sont pas encore la mais il posent les briques.

"Fantastique comeback de Max qui prends sa revenche sur Boobyunderscore33, il lui a bien rendu son headshot de debut de partie...
-Toutafait Jean michel, sachant que c'est pas la premiére fois qu'ils se rencontrent.. Max lui avait deja mis une fessée il y a 2 jours lors d'un precedent match."

PS : Je deteste l'ia pour remplacer les humains en moins cher et moins inspiré, mais j'aime l'ia pour faire ce qui etait pas possible avant. Ici je pense que c'est le second cas.

Zéro chance que ça arrive. Déjà les voix en l'état sont bakées. Et vite fait comme ça: le jeu est clairement à un état de release, y'a peu de chance que le studio fasse autre chose que produire du contenu à la pelle pour vendre des MTX.

Pour revenir au fait que les voix sont bakées: le temps CPU pour produire une réponse audio ultra clean est absolument délirant via des fermes de serveurs. Etant donné que la majorité du marché a déjà des soucis pour faire tourner les jeux à fond, il y a peu de chance que le temps CPU sur une bécane de consommateur final soit alloué à rendre de la voix absolument inutile au gameplay... ou même simplement que ça soit viable/envisageable au niveau de qualité que moi j'ai potentiellement en tête si j'étais SD chez eux.

D'autre part, le premier truc qui a dégagé chez moi (et pourtant je suis pas du genre à supprimer des sons), c'est justement ces voix, parce que ça n'a aucune valeur ajoutée. Et ça n'en aura pas plus si on rajoute mon pseudo devant.

Accessoirement, étant donné la complexité incommensurable que représente le "pseudo" ( Insultes, trucs racistes, trucs imprononçables, problème de phonétique, longueur, caractères spéciaux... ), ça ressemblerait à rien très très vite. Sachant que comme moi, tu sais que les gens ont vite fait d'abuser d'un système sur les internets. Tenter un truc aussi complexe que de la génération temps réel, pour une feature que la majorité des gens vont mettre à 0 de volume, avec tout le temps et l'investissement que ça représente... c'est plus rentable de payer des acteurs pour faire des annonces génériques qui auront beaucoup plus de charme.

La seule communication du studio à ce sujet c'est ça: "The reason that we went this route is that AI text-to-speech is finally extremely powerful. It gets us far enough in terms of quality, and allows us to be extremely reactive to new ideas … if a game designer comes up with a new idea for a game mode, we can have a voiceover representing that in just a matter of hours, instead of months."

En réalité, avec les grosses boites, faut pas sur-compliquer les choses. Ce que je j'entrevois, c'est un col blanc qui a vu la présentation du jeu et s'est dit un matin "Woh putain ça serait cool des annonceurs sur notre jeu non comme un match de foot non?", et qu'il fallait que ça soit en place dans l'après-midi et clean pour la release de l'open beta.

Et la phrase du studio là, pour moi c'est avouer à demi-mots que les mecs de la devteam ou l'éditeur est totalement incapable de se projeter et que c'est partit en prod comme ça.

Le clonage de voix est un excellent outil de prototypage, et ça devrait s'arrêter là, comme tout ce qui est ML. Ca doit être un outil qui amplifie ta créativité, et assiste les artistes dans leur quotidien pas un outil qui doit les remplacer.

Swoosh

Membre Factor

Membre 230 msgs

09.11.2023 21:58

Anglemort a écrit :
C'est difficile de dire que les IA ne créent pas, elles produisent bien quelque chose de nouveau et d'unique et parfois c'est très difficile de détecter les influences.

Pour ajouter un peu d'eau au moulin de __MaX__ j'ai vraiment du mal avec l'idée d'une réelle créativité chez l'IA justement parce qu'il n'y a pas d'intelligence. Ce n'est pas parce que son corpus d'entraînement est plus gros que celui de n'importe quel artiste (d'où la difficulté de détecter les influences) que ça n'est plus un mashup incohérent.

Là où je vois justement un intérêt à ces modèles c'est de mettre en évidence des liens entre des œuvres ou articles quand ça prendrait à un humain des années. Un outil de recherche, quoi. Mais de toute façon tant que tu ne lui demandes rien, le modèle ne fera rien, contrairement à l'humain qui crée par nécessité ou envie.

Anglemort

Membre Factor

Membre 358 msgs

10.11.2023 00:28

Swoosh a écrit :
Pour ajouter un peu d'eau au moulin de __MaX__ j'ai vraiment du mal avec l'idée d'une réelle créativité chez l'IA justement parce qu'il n'y a pas d'intelligence. Ce n'est pas parce que son corpus d'entraînement est plus gros que celui de n'importe quel artiste (d'où la difficulté de détecter les influences) que ça n'est plus un mashup incohérent.

Bah c'est une créativité limitée quoi.

Ces IA c'est des sortes de super faussaires, mais pour être un bon faussaire il faut être créatif. Si un faussaire se contentait de mixer des petits bouts de différents tableaux de Picasso ensembles tout le monde se rendrait compte de l'embrouille. Pour faire un bon faux il faut avoir identifié le style de l'auteur et faire quelque chose de nouveau en respectant ce style.
Et c'est exactement ce que font les IA, et oui c'est perturbant de se dire qu'elles le font sans vraiment comprendre ce qu'elles font, mais le résultat est là.

Reez

Membre Factor

Membre 695 msgs

10.11.2023 09:06

__MaX__ a écrit : Beaucoup de choses avec passion

Alors, plusieurs choses, en vrac :

- J'essaie pas de défendre l'IA pour remplacer des metiers basé sur une réelle expertise... Je suppose que tu bosse dans l'audio?

- C'est pas parce que the Finals est "prêt" à release, qu'ils vont pas rajouter des choses, autre que des skins. Un truc comme Warframe est sorti en 2013 avec rien dedans. Donc on est pas a l'abri qu'ils poussent ce genre de truc éventuellement, dans ce jeu ou dans un autre d'ailleurs. Faut pas oublier que Embark à la base c'est un studio qui est fondé par des gars de R&D. Si tu vas sur leur Discord dev, tu auras un aperçu de ceux sur quoi ils réfléchissent, et avant de vouloir faire des jeux, leur objectif initial à la base était avant tout de faire des technos et de le vendre aux autres studios. (Et quelque part leurs jeux ont le potentiel de faire vitrine pour ces dites technos.

- Par contre, je suis d'accord, c'est pas le cas aujourd'hui. Et dans les communiqués de presse ils sur-vendent pas leur truc à la Molyneux/C.Roberts.. mais on verra, mon petit doigt tout ça.

- Concernant la puissance de calcul pour obtenir des voix "clean", honnêtement, t'as des apps qui font ça "moyen" sur ton smartphone aujourd'hui. Donc j'imagine que dans 3 ans, sur du hardware spécialisé dans le machine learning, ça sera pas trop compliqué.

- La je spécule a 100%, mais je serais pas étonné de voir un jour apparaître des trucs du genre "pour 10 euros, le pack annonceur Snoop Dog ou je ne sais qui, généré à partir d'un dataset que l'acteur est venu enregistrer dans nos studios". Ce qui est moche la dedans, c'est que seul les acteurs célèbres pourront en profiter.

- J'ai jamais dit que l'IA allait choisir ce qu'elle allait dire toute seule. J'ai juste dit qu'elle permettait d’intégrer du dynamisme et des variables externes dans la génération des lignes. Et si ton pseudo c'est Nazi2000™, ça sera censuré en amont dans le gamer profile de te plateforme de toutes façons.

- Moi aussi ils me soûlent les annonceurs dans the Finals. Mais ils m'auraient soûlé pareil si c’était enregistré avec des vrais acteurs. C'est pas parce qu'on est pas dans la cible, qu'il y a pas un mega-intérêt a générer dynamiquement des barks qui incluent les noms des joueurs. Parle avec qq'un de moins de 20 ans et tu verras comme les avis peuvent varier.

- J’espère vraiment que la législation va vite donner un cadre à tout ça, pour inclure les artistes dans les revenus, et que tout le monde soit "contraint" d'utiliser l'IA pour que faire des trucs incroyables et nouveaux, au lieu de s'en servir juste pour réduire les coûts.

__MaX__

David Croquette

Admin 4863 msgs

10.11.2023 09:56

@Reez Par rapport à tes réponses, je sous-entendais absolument pas que tu disais que ça devait remplacer les gens, c'est un quiproquo si c'est le cas :)

Ouaip je bosse dans l'audio, mais pour le coup, c'est même pas pour défendre mon poste que j'ai cette position. C'est juste mauvais le clonage audio en ML. C'est dire à quel point c'est mauvais: la take de CDPR sur la voix clonée après le décès de l'acteur a été faite sur une base d'un vrai acteur. C'est à dire qu'ils ont enregistré les voix (avec les vraies intentions, interprétation, direction d'acteur) et derrière ils ont exploité cette base pour la convertir avec le timbre de la voix originale.

Sous cette configuration ça me choque pas du tout parce que c'est pour compenser un manque (sans entrer dans le débat Philosophique de "doit-on faire revivre les morts"). Et il y a eut un véritable artiste impliqué + tous les techos pour faire la conversion/clonage.

La génération TTS à l'autre bout du spectre, c'est simplement mauvais. Y'a pas d'émotion, y'a pas de direction d'acteur.

Concernant Embark, y'a quand même Söderlund derrière, un des anciens pontes de EA. Je crois que je pourrai difficilement avoir confiance avec un lead comme ça, même si c'est un des lead du DICE original. (on va pas se voiler la face, depuis BF3, DICE a difficilement sortit des jeux clean... et dieu sait combien j'apprécie BF).
Et si aujourd'hui les gens sont outrés par des lootboxes, j'te dis pas comment ça va jaser quand on te vendra un pack d'annonceurs à 10 balles généré avec du TTS en 30 minutes.
Comparer ça avec Warframe qui est un studio qui a une créativité absolument délirante sur leurs skins et persos... c'est gonflé : D

Dans 3 ans, faudrait que les gens aient du hardware spécialisé en ML embarqué dans leur PC. Les gens ont déjà du mal à se payer un GPU, on va pas non plus pousser mémé dans les orties :p

Paradoxalement: je pense pas que les plus emmerdés seront les "stars". Cf la news. La SAG-AFTRA s'est battue pour empêcher que l'acteur moyen ( la masse de ces travailleurs, pas les 12 élus qui ont leur tête au box-office tous les ans ) se fasse piquer son identité visuelle et sonore presque gratuitement pour l'exploiter à l'envie pendant 150 ans.
D'ailleurs fun fact: Bruce Lee a progressivement quitté l'industrie pour cette raison. Les studios voulaient s'approprier ses techniques et son style dans chaque contrat qu'on lui proposait. Mais tu peux te permettre un truc comme ça quand t'es Bruce Lee. Quand t'es Philippe Random et que ton prochain job il paie tout juste ton loyer, si on te met "on pourra utiliser ta voix à vie après", y'en a qui ne peuvent pas refuser.

J'ai pas non plus sous entendu qu'elle allait dire ce qu'elle voulait. Je me basais sur ton exemple qui était plutôt bon. Mais au delà de Nazi2000, prends tous les cas que tu peux avoir: oO0_KuTukChan_8o8, 333Крокет333 ou même (╯°□°）╯︵ ┻━┻

Maintenant d'un point de vue sound design, tu pourrais faire un truc fun et "beeper" comme à la télévision ricain les trucs cassés. Mais ça va finir vite fait en "-beeeeep- a fait un headshot à -beeeep- pendant que -beeeeep- a profité de l'occasion pour faire un triple frag sur -beeeep-, -beeeep- et -beeeep-"

C'est un casse-tête sans nom, et tu peux prendre un truc simple qui prouve à quel point c'est voué à l'échec: que ça soit sur le forums ou sur les jeux, on arrive toujours pas à proprement censurer (ou autoriser) les jurons/trucs racistes, dans les pseudos. J'veux dire: tu peux pas t'appeler Muffin dans certains jeux parce que "Muff" est un argot de vagin en anglais quoi... on en est à ce niveau (et c'est un exemple parmi des centaines).

Tout à fait d'accord, même avec des vrais acteurs, je pense que j'aurai dégagé le truc. Après la cible, faut le dire vite... je vois pas qui va pas être saoulé au bout de 200 heures de jeu par des annonceurs :/

Faut espérer ouaip. Mais bon, le dernier sommet sur l'IA il s'est terminé en conclusion par "on voudrait que les entreprises soient transparentes et l'utilise à bon escient et fasse pas du mal au gens et à la planète". Vu les boites qui vont pouvoir investir massivement là dedans sont des trucs gigantesques, il y a peu de chance que ce soient pas des mecs qui arrivent à contourner les lois (ou qui se contre-branle des groupements qui tentent de réguler ça).

Darius-K

Membre Factor

Membre 218 msgs

10.11.2023 10:08

Quelqu'un a-t-il une idée de combien "pèse" le chatgpt offline en Go ou To ?

Reez

Membre Factor

Membre 695 msgs

10.11.2023 10:09

Carrément MaX. C'est juste l'enfant utopiste qui sommeille au fond de moi qui espère encore un peu...

Concernant le hardware, à priori si t'as une CG post 2023, t'as du hardware ML embarqué dedans maintenant?
Ils en foutent même dans la prochaine switch a priori?

Et comme on désactive des features video si t'as pas le bon matos depuis des années, ça me choquerai pas tant que ça d'avoir des features audio qui marchent que si t'as du hardware ML capable.

__MaX__

David Croquette

Admin 4863 msgs

10.11.2023 11:46

Darius-K a écrit :
Quelqu'un a-t-il une idée de combien "pèse" le chatgpt offline en Go ou To ?

Les dernières stats que j'avais vu il y a un peu plus d'un an, c'était grosso modo 200 milliards de params dans le modèle et une taille estimée entre 200 et 500go pour le modèle complet.

Reez a écrit :
Carrément MaX. C'est juste l'enfant utopiste qui sommeille au fond de moi qui espère encore un peu...

8 'D

Reez a écrit :
Concernant le hardware, à priori si t'as une CG post 2023, t'as du hardware ML embarqué dedans maintenant?
Ils en foutent même dans la prochaine switch a priori?

Et comme on désactive des features video si t'as pas le bon matos depuis des années, ça me choquerai pas tant que ça d'avoir des features audio qui marchent que si t'as du hardware ML capable.

Il me semble que les tensor core sont assez balaises pour faire ça, mais quand ils sont occupés à resizer une image en 720p pour l'afficher en 4K, je doute qu'ils soient super jouasses que tu les occupe à générer des lignes de dialogue.

Sachant qu'en plus les modèles de clonage ou même la génération stable diffusion, ça te fout la mémoire de ta carte en PLS. En temps réel en plein milieu d'une partie ça me semble plus que compliqué aujourd'hui. J'arrive à saturer complétement 12go de RAM sur la 3080Ti avec une génération 512x512 dans Stable diffusion si tu veux un ordre d'idée.

L'idéal ça serait qu'il y ait des trucs dédiés un peu spécifiques comme PhysX, mais pour l'instant, le temps GPU passé à générer de la voix, il sera pas passé sur ton rendu malheureusement :(

Si tu me demandes: j'aimerai vraiment qu'on se pencher sur Steam Audio et qu'on ait du son à base de raytracing qui se généralise (cette lib est folle sérieux) plutôt que de passer du temps à générer des quips à deux balles :p

BeatKitano

Bite qui tanne haut

Membre 6438 msgs

10.11.2023 13:49

__MaX__ a écrit :
Darius-K a écrit :
Quelqu'un a-t-il une idée de combien "pèse" le chatgpt offline en Go ou To ?

Les dernières stats que j'avais vu il y a un peu plus d'un an, c'était grosso modo 200 milliards de params dans le modèle et une taille estimée entre 200 et 500go pour le modèle complet.

Les modèles plus petits tournent autour de 2-7GO.
Ce qui est drole c'est que peu importe la taille du modèle, il raconte toujours autant de la merde quand tu connais le sujet abordé.

Le vertueux

J'aime les films de karaté

Membre 6563 msgs

10.11.2023 14:10

J'arrive à saturer complétement 12go de RAM sur la 3080Ti avec une génération 512x512 dans Stable diffusion si tu veux un ordre d'idée.

Comment tu fais pour savoir si ça sature ?

__MaX__

David Croquette

Admin 4863 msgs

10.11.2023 15:20

Parce que je regarde mon gestionnaire de tâches et que je vois SD à 11.9 gigots ou que l'appli me crash à la tronche en disant "hey j'ai pas assez avec 12 gigots" ? : 'D

BeatKitano

Bite qui tanne haut

Membre 6438 msgs

10.11.2023 15:24

__MaX__ a écrit :
Parce que je regarde mon gestionnaire de tâches et que je vois SD à 11.9 gigots ou que l'appli me crash à la tronche en disant "hey j'ai pas assez avec 12 gigots" ? : 'D

J'arrivais très vite a saturer les 8GB de mon gpu en rendant des images toutes petites sur SD, donc ça m'étonne pas qu'on arrive a saturer des gpu récents avec plein de VRAM si on pousse un peu plus loin.

Forums

Règles à suivre