Un magazine de vulgarisation scientifique a eu l’occasion d’étudier en détail le fonctionnement du Project Natal lors du dernier CES. On y apprend quelques informations intéressantes sur l’IA derrière ce système révolutionnaire.
Comme vous le savez il s’agit principalement de caméra, et la clé de ce projet a été de faire en sorte que la caméra soit capable d’interpréter ce qu’elle visualise. Le cerveau, comme l’appellent les ingénieurs de Microsoft, est un énorme ordinateur (voir images ci-dessous) chargé d’apprendre à prévoir les mouvements de nous autres joueurs. Il doit pouvoir retrouver les formes humaines pour ensuite identifier 40 parties différentes du corps humain (tête, genoux, torse, etc). Pour ce faire, les ingénieurs ont utilisé la technique appelée « machine learning », qui consiste à nourrir le cerveau avec des millions d’images de personnes pour qu’il en déduise toutes les possibilités de mouvements dont est capable le corps humain. Cette technique peut être comparée à un parent qui apprend à son enfant qu’une main est une main en lui en montrant une et en la désignant comme telle.
Ainsi, un nombre important de personnes sont filmées dans leurs occupations quotidiennes pour fournir encore et encore des données au cerveau. Cette tâche réclame cependant beaucoup de travail laborieux, car toutes ces images doivent être complétées manuellement pour indiquer au cerveau à chaque instant où se trouve la tête, le torse, les mains, les épaules, ...
Ces terabytes de données sont ensuite analysés, des statistiques et des probabilités sont calculées. Finalement, un gros paquet contenant le cerveau et le résultat de ses calculs est insufflé au sein du Project Natal. Le résultat d’un énorme travail d’apprentissage numérique.