Ce billet conclut ma série de trois articles sur le machine learning.
- Partie 1 : Le machine learning aujourd'hui et ce que cela implique
- Partie 2 : La reconnaissance faciale accessible à tous avec openface en 5 étapes simples
Dans les précédents articles, nous avons vu qu'avec un minimum de connaissances informatiques, il était assez facilement possible de mettre en place des algorithmes d'apprentissage automatique, permettant, entre autres, de classifier des espèces de plantes à partir de caractéristiques, des images en fonction de leur contenu ou encore des visages.
Mais surtout je concluais le deuxième article en disant que la principale difficulté était de trouver les images d'entraînement.
En effet, on comprend assez aisément que pour avoir des résultats pertinents, il faut avoir la plus grande quantité de données d'entrainement possible. Dans le domaine du machine learning, on dit souvent que les données sont plus importantes que les algorithmes. Ainsi, déjà en 2011, Peter Norvig, directeur de recherche chez Google, déclarait :
We don’t have better algorithms. We just have more data.
Google propose son assistant personnel intelligent gratuitement sur tous les smartphone Android, Apple fait de même avec Siri sur toute sa gamme, et Amazon vend ses Echo Dot à moins de $50. Tout ce que l'on dit à ces assistants est enregistré pour toujours. Ils disposent donc régulièrement de nouvelles centaines de milliers d'heures d'enregistrements, qui leur permettent d'améliorer la qualité des résultats de leur reconnaissance vocale et des réponses apportées.
Google offre d'autres services gratuitement, notamment son système reCAPTCHA qui permet de vérifier que les visiteurs d'un site sont bien humain. Pour cela, la plupart du temps, il s'agit d'une simple case à cocher mais parfois il faut reconnaitre des éléments sur une photographie. Cela permet à Google de valider les prédictions de ses algorithmes et de les nourrir pour accroitre la justesse des résultats.
Je pourrais encore citer d'autres exemples avec lesquels les géants du web alimentent sans cesse leurs bases de données dans le but d'améliorer les prédictions des algorithmes d'apprentissage automatique, mais, je pense que vous avez saisi l'idée.
Et donc, voilà pourquoi les géants du Web et du numérique sont les champions l'intelligence artificielle. Parce qu'ils ont accès aux données nécessaires à l'entrainement des algorithmes. Nous les leur fournissons gratuitement en échange des services qu'ils nous apportent. Ils n'hésitent pas à s'en nourrir constamment.
Si vous voulez créer quelque chose qui se base sur l’intelligence artificielle, il faudra avant tout trouver un moyen d’obtenir, si possible gratuitement, les données pertinentes et en quantité suffisante. Au final, ces données ou même la manière de les collecter pourraient-être un produit à elles seules.
Pour conclure, en entreprise, conservez soigneusement vos données commerciales et techniques, elles pourront peut-être valoir de l'or et servir un jour.