Alors que l’intelligence artificielle (IA) atteint le sommet de sa popularité, des chercheurs ont averti que l’industrie pourrait manquer de données d’entraînement – le carburant qui fait fonctionner les puissants systèmes d’IA.
Cela pourrait ralentir la croissance des modèles d’IA, en particulier des grands modèles de langage, et pourrait même modifier la trajectoire de la révolution de l’IA.
Mais pourquoi le manque potentiel de données pose-t-il problème, compte tenu de la quantité de données disponibles sur le web ? Existe-t-il un moyen de remédier à ce risque ?
Pourquoi des données de haute qualité sont-elles importantes pour l’IA ?
Nous avons besoin de beaucoup de données pour former des algorithmes d’IA puissants, précis et de haute qualité. Par exemple, ChatGPT a été entraîné sur 570 gigaoctets de données textuelles, soit environ 300 milliards de mots.
De même, l’algorithme de diffusion stable (qui est à la base de nombreuses applications d’IA génératrices d’images telles que DALL-E, Lensa et Midjourney) a été entraîné sur l’ensemble de données LIAON-5B, qui comprend 5,8 milliards de paires image-texte. Si un algorithme est entraîné sur une quantité insuffisante de données, il produira des résultats inexacts ou de mauvaise qualité.
La qualité des données d’entraînement est également importante. Les données de faible qualité, telles que les messages des médias sociaux ou les photographies floues, sont faciles à obtenir, mais ne sont pas suffisantes pour entraîner des modèles d’IA très performants.
Les textes tirés des plateformes de médias sociaux peuvent être biaisés ou empreints de préjugés, ou encore contenir de la désinformation ou des contenus illégaux qui pourraient être reproduits par le modèle. Par exemple, lorsque Microsoft a essayé d’entraîner son robot d’IA à l’aide du contenu de Twitter, celui-ci a appris à produire des résultats racistes et misogynes.
C’est pourquoi les développeurs d’IA recherchent des contenus de haute qualité, tels que les textes de livres, les articles en ligne, les articles scientifiques, Wikipédia et certains contenus web filtrés. L’assistant Google a été entraîné sur 11 000 romans d’amour provenant du site d’autoédition Smashwords afin de le rendre plus conversationnel.
Avons-nous assez de données ?
L’industrie de l’IA a formé des systèmes d’IA sur des ensembles de données de plus en plus vastes, ce qui explique pourquoi nous disposons aujourd’hui de modèles très performants tels que ChatGPT ou DALL-E 3. Dans le même temps, la recherche montre que les stocks de données en ligne augmentent beaucoup plus lentement que les ensembles de données utilisés pour former l’IA.
Dans un article publié l’année dernière, un groupe de chercheurs a prédit que nous serions à court de données textuelles de haute qualité avant 2026 si les tendances actuelles en matière d’entraînement à l’IA se poursuivent. Ils estiment également que les données linguistiques de faible qualité seront épuisées entre 2030 et 2050, et les données d’images de faible qualité entre 2030 et 2060.
Selon le groupe de comptabilité et de conseil PwC, l’IA pourrait contribuer à l’économie mondiale à hauteur de 15 700 milliards de dollars américains (24 100 milliards de dollars australiens) d’ici à 2030. Mais la pénurie de données utilisables pourrait ralentir son développement.
Faut-il s’inquiéter ?
Bien que les points susmentionnés puissent alarmer certains fans d’IA, la situation n’est peut-être pas aussi grave qu’il n’y paraît. Il existe de nombreuses inconnues sur la manière dont les modèles d’IA se développeront à l’avenir, ainsi que quelques moyens de faire face au risque de pénurie de données.
Les développeurs d’IA peuvent notamment améliorer les algorithmes afin d’utiliser plus efficacement les données dont ils disposent déjà.
Il est probable que dans les années à venir, ils seront en mesure de former des systèmes d’IA très performants en utilisant moins de données, voire moins de puissance de calcul. Cela permettrait également de réduire l’empreinte carbone de l’IA.
Une autre option consiste à utiliser l’IA pour créer des données synthétiques afin d’entraîner les systèmes. En d’autres termes, les développeurs peuvent simplement générer les données dont ils ont besoin, adaptées à leur modèle d’IA particulier.
Plusieurs projets utilisent déjà des contenus synthétiques, souvent issus de services de génération de données tels que Mostly AI. Cette pratique deviendra de plus en plus courante à l’avenir.
Les développeurs recherchent également du contenu en dehors de l’espace en ligne gratuit, tel que celui détenu par les grands éditeurs et les dépôts hors ligne. Pensez aux millions de textes publiés avant l’apparition de l’internet. Mis à disposition sous forme numérique, ils pourraient constituer une nouvelle source de données pour les projets d’IA.
News Corp, l’un des plus grands propriétaires de contenu d’information au monde (dont une grande partie du contenu se trouve derrière un paywall) a récemment déclaré qu’il négociait des accords de contenu avec des développeurs d’IA. Ces accords obligeraient les entreprises d’IA à payer pour obtenir des données d’entraînement, alors que jusqu’à présent, elles les ont essentiellement récupérées gratuitement sur l’internet.
Les créateurs de contenu ont protesté contre l’utilisation non autorisée de leur contenu pour entraîner des modèles d’IA, certains poursuivant en justice des entreprises telles que Microsoft, OpenAI et Stability AI. Le fait d’être rémunérés pour leur travail pourrait contribuer à rétablir le déséquilibre des pouvoirs entre les créateurs et les entreprises d’IA.
Source : Sciencealert – Traduit par Anguille sous roche
Aucun commentaire:
Enregistrer un commentaire
Remarque : Seul un membre de ce blog est autorisé à enregistrer un commentaire.