Google a réussi à créer un mode portrait encore plus efficace sur le Pixel 3, toujours avec un seul bloc optique. Sur le blog de Google dédié à l’intelligence artificielle, les ingénieurs ont accepté d’expliquer comment il s’y sont pris.
Le Pixel 2 avait déjà impressionné par sa capacité à réaliser des portraits avec un flou d’arrière plan réussi avec un seul bloc optique. L’IA était déjà utilisée à cette fin, et le code source avait d’ailleurs été proposé en open source. Le mode portait du Pixel 3 a encore été amélioré, en plus de toutes les nouveautés annoncées.
Les équipes de Google ont cette fois-ci utilisé une approche différente, basée sur l’apprentissage automatique, une branche de l’intelligence artificielle.
Comment le flou d’arrière plan est-il généré ?
Pour réaliser un flou d’arrière-plan, les algorithmes des différents constructeurs déterminent ce qui constitue le premier plan et ce qui est à l’arrière plan.
Pour y arriver, la solution utilisée par la quasi-totalité des smartphones s’appuie sur la présence de deux capteurs photo. Comme ils ne sont pas placés exactement au même endroit, il y a un décalage entre les deux images qui permet d’identifier par recoupement ce qui est au premier et au second plan. On parle de l’effet de parallaxe.
Ensuite, les algorithmes se chargent de déterminer les contours exacts du sujet au premier plan. Enfin, ils doivent générer un flou d’arrière-plan qui imite au mieux le rendu typique des optiques à grande ouverture
Or Google a réussi à faire la même chose avec un seul bloc optique, en obtenant de meilleurs résultats que la plupart de ses concurrents. La présence d’un seul bloc optique en façade sur le Pixel 3 a démontré que Google continue à croire en cette approche.
La solution Google : miser sur l’intelligence artificielle
Pour le mode portrait du Pixel 2, l’approche consistait à identifier les caractéristiques du sujet et du fond par algorithme. Ensuite, la délimitation exacte des contours était affinée par l’utilisation de l’autofocus à détection de phase.
Les algorithmes pouvaient déterminer ce qui était au premier plan et ce qui était plus éloigné et ont réussi à produire un excellent résultat.
Nouvelle approche : simuler 5 optiques pour l’apprentissage
Pour aller plus loin avec le Pixel 3, Google a aussi choisi d’utiliser le décalage entre les points de vue, soit la même approche de ses concurrents. Mais Google a utilisé cette approche uniquement de manière temporaire, afin de former leur intelligence artificielle.
Pour réaliser ce décalage, les ingénieurs ont développé une plateforme qui permet de positionner 5 smartphones à différents endroits et les déclencher en même temps. Nommée avec humour le « Franckenphone Rig », cette solution a permis de récupérer des informations plus riches qu’en utilisant deux capteurs rapprochés.
Au lieu d’avoir deux points de vue, cinq point de vue choisis avec soin ont permis de recouper l’information de manière beaucoup plus précise. Une meilleure cartographie de la profondeur a donc été générée pour chaque image.
La portabilité de ce système a aussi permis d’entraîner l’intelligence artificielle sur des images qui ressemblent vraiment à celles que prennent les utilisateurs, aussi bien en extérieur qu’en intérieur.
Le « deep Learning » pour comprendre l’image
Google a appris à son intelligence artificielle à identifier les caractéristiques du premier plan et de l’arrière plan avec ces images.
Pendant cette phase d’apprentissage, l’intelligence artificielle a donc pu s’appuyer sur cinq angles par image, et ainsi multiplier les recoupements. Entraîné sur des milliers d’images, elle est maintenant à même de déterminer les différentes profondeurs des différents éléments de l’image. Et ce avec une seule optique.
On retrouve cette manière de fonctionner avec notre vision. Notre cerveau a appris à cartographier cette profondeur grâce à la présence de nos deux yeux. Mais si nous fermons un œil, nous savons quand même « cartographier la profondeur » de ce que nous avons devant nous. Cela vient de l’apprentissage réalisé par notre cerveau, et que cherche en substance à répliquer Google avec cette approche.
Les avantages de cette solution
Selon Google, l’apprentissage automatique (« deep learning ») a de nombreux avantages sur la méthode stéréoscopique (plusieurs optiques). Un des points faibles de l’approche stéréoscopique est qu’elle dépend de la profondeur de champ utilisée.
A grande ouverture, la différence entre fond et sujet est bien marquée, et facilite le travail des algorithmes. Mais à plus petite ouverture, toute la scène devient nette, et il devient très compliqué de faire cette distinction. Le même problème se retrouve lorsque le sujet est trop près de l’arrière-plan.
Avec l’apprentissage automatique, les algorithmes ont appris en ingérant des milliers d’images. Ils sont donc devenus capables de réaliser cette distinction sans avoir besoin d’une grande ouverture. Cela pourrait permettre d’utiliser cette compétence à simuler la profondeur de champ en dehors de la situation du portrait.
Enfin, l’apprentissage permet aux algorithmes d’apprendre à ne pas se laisser tromper par certains éléments d’une image. Par exemple, lorsque l’arrière-plan est constitué de lignes, les autres systèmes les considèrent comme le premier plan. L’apprentissage a permis aux algorithmes de Google à ne pas faire cette erreur.
Des résultats assez similaires chez les différents acteurs
Google réussit donc l’exploit d’égaler les résultats de ses concurrents en n’utilisant qu’une seule optique.
Mais quelque soit l’approche utilisée, les résultats des modes portrait sont aujourd’hui assez similaires chez les grands acteurs du secteur. Si les approches diffèrent, les résultats impressionnent de plus en plus.
Le rendu du flou d’arrière-plan est de plus en plus naturel, et devient réglable en intensité après coup. Les contours sont de mieux en mieux gérés, ainsi que la transition entre premier plan et arrière plan, essentielle pour un rendu vraiment esthétique et naturel.
Bien sûr, des limites subsistent. Tous les modes portrait sont mis en difficulté par exemple par une chevelure frisée, ou encore un fond très complexe, sans parler de la combinaison des deux.
Mais à la vitesse où évoluent les algorithmes, il ne faudra certainement pas très longtemps avant que ce problème ne soit résolu.
Source : Blog Google IA
0 commentaire
Ajouter le vôtre