#21 - Computer Vision et handicap : Une alliance pour plus d’autonomie

Thomas (00:00.724)
Bonjour à tous et bienvenue dans ce 22ème épisode de Yappa Tla Data. Vous êtes de plus en plus à nous écouter donc pour ça merci beaucoup. Je suis toujours en compagnie de Pierre Vanier, CEO de Flint. Salut Pierre. Je suis Toham Amemoun, Data Scientist et Machine Learning Engineer. Aujourd'hui on a la chance d'avoir avec nous Maël Fabien. C'est sûrement le premier épisode où on va parler d'hardware avec de l'intelligence artificielle donc on est très très content de l'avoir avec nous. Salut Maël.

Pierre Vannier (00:12.595)
Salut Thomas !

Mael (00:28.27)
Salut Thomas, salut Pierre.

Pierre Vannier (00:35.891)
Salut Maël, je crois que vous vous connaissez avec Thomas, vous avez fait quoi ? Une partie d'études ensemble, c'est ça

Thomas (00:49.838)
Mais c'est vrai que j'ai complètement oublié cette partie là et je m'en excuse on a étudié ensemble et je te remercie tu m'as rattrapé.

Pierre Vannier (00:51.845)
Mais c'est pas grave, tu vois, moins je... Mais oui, mais en plus ça permet de m'assurer qu'en fait tu as vraiment fait des études parce qu'après je...

Thomas (01:01.626)
Je commence à avoir des doutes mais en fait j'aimerais éviter de parler de mes études parce qu'en fait ça nous ramène à un petit moment donc effectivement on a étudié avec Maël en 2019 au un master spécialisé en bitdata à l'époque à Telecom ParisTech donc ça me ramène un petit peu loin maintenant malheureusement donc Maël qu'est que tu as fait depuis ? Bah vraiment pas mal de choses en particulier aujourd'hui on va parler de biped.ai si je me trompe pas dans la prononciation tu es aussi fondateur de monécole.ai et tu es impliqué

Pierre Vannier (01:15.397)
Ok, boomer.

Mael (01:27.758)
insectes.

Thomas (01:31.58)
dans ces skies donc je te laisse y aller là Pierre

Pierre Vannier (01:35.475)
un multipreneur en fait, c'est ça ? Un multisono preneur.

Mael (01:39.15)
C'est... Ouais, c'est un peu ça, des petits projets à droite à gauche, certains qui deviennent un peu plus gros ou un peu plus galère, en tout cas quand ça implique du hardware. Mais j'aime bien le côté tout château.

Pierre Vannier (01:50.843)
Donc du coup, tu viens d'où, tu fais quoi, ton parcours, ton background, Maël, vas-y mon oeuvre, tu as dix minutes, vas-y présente-toi. C'est quoi le pitch de Maël ?

Mael (02:03.7)
Peach de Mael, né à Strasbourg et puis bougé en Suisse avec mes parents quand j'avais une dizaine d'années donc pas bien vieux mais voilà et puis après en Suisse je suis parti plus sur des études d'économie au départ dans la faculté HEC Lausanne étudier l'économie et après ça des stats appliqués au secteur de l'assurance et là... Ouais !

Pierre Vannier (02:29.742)
Comme Thomas hein, Thomas aussi a fait de l'économie.

Thomas (02:34.016)
un passé trauma encore.

Mael (02:34.386)
Ouais, un passé commun encore, plein de points communs. Et après, grosse remise en question. Je suis allé m'asseoir dans un bureau chez un assureur pendant six mois à faire un stage et là, ça s'est...

techniquement plutôt bien passé mais c'était pas du tout le truc qui me faisait kiffer. J'avais monté ma première boîte quand j'avais 18 ans et donc du coup je savais que j'avais un vrai truc qui m'attirait vers l'entrepreneurial. Premier projet pas...

Pierre Vannier (03:03.666)
Tu as monté ta première boîte à 18 ans ?

Mael (03:06.378)
Ouais, première inscription du coup au registre du commerce à 18 ans, c'était une plateforme, mais un truc un peu perché, mais on faisait une plateforme de mise en relation pour les gens qui voulaient acheter des vannes aménagées et de l'autre côté les gens qui voulaient louer des vannes. Et en fait, on avait fait un espèce de Kickstarter où tu disais, bah moi, il manque 5000 balles pour acheter un van aménagé et tu, suffit de trouver cinq personnes qui sont prêtes à mettre chacun 1000 balles pour louer ton van en échange et on mettait ces gens là en relation.

Pierre Vannier (03:10.567)
ouais.

Mael (03:36.272)
C'est vraiment le type d'entrepreneuriat aussi un peu simple ou idéaliste pour commencer, tu fais une plateforme et après tu comprends tout l'enfer.

Pierre Vannier (03:45.106)
Mais c'est bien, c'est bien. C'est comme ça que tu deviens entrepreneur en ayant des rêves comme ça et des fois il en a qui se réalisent.

Mael (03:50.99)
Ouais ouais.

Après quand on était au salon du bourgé à faire le salon du camping-car et des trucs comme ça, je séchais les cours pour aller faire ces trucs là.

Pierre Vannier (04:05.4)
Je croyais que tu étais au salon du Bourget pour le salon de l'aviation. me suis dit, c'est peut-être de là que vient l'échec en fait. Il aurait fallu aller à un salon de van, c'était mieux quoi.

Mael (04:10.638)
J'étais dans le mauvais hall en fait. Donc il fait un peu d'assurance pendant juste quelques mois et là j'ai commencé à avoir une grosse remise en question et j'ai trouvé le...

spécialisé à Telecom à Paris et puis je me suis dit bon bah je vais vais vendre ça comme comme concept à mes parents en disant c'est pas un pivot complet je vais étudier un peu plus la programmation

et puis en fait là ça a été le début d'une transition complète. Vraiment kiffer tous les trucs dits à appliquer de manière générale. Et j'ai pris un volet un peu plus traitement de langage naturel, resté en stage dans une startup à Paris. Et puis voilà, après on est parti en voyage avec ma copine et en voyage on s'est un peu posé la question de ce qu'on allait faire. J'ai trouvé un poste de doctorat.

à l'EPFL, à Lausanne, du coup de retour en Suisse. Et je suis rentré dans une thèse où je faisais du traitement de la parole. Donc ça, c'était un volet un peu plus technique sur le début du Covid, mais qui était assez cool.

et l'opportunité de monter Biped AI s'est présentée en rencontrant une personne malvoyante qui utilisait une canne, qui faisait un FaceTime à un proche pour être guidé jusqu'à l'hôpital Ofthalmic. Son proche était confiné, donc pas de possibilité de se déplacer ensemble. Je me suis dit mais c'est ouf, du coup il a une personne qui est en train de guider un utilisateur malvoyant jusqu'à l'entrée de l'hôpital, mais à distance.

Mael (05:55.85)
FaceTime, ça peut avoir toutes les limites qu'on veut. Le champ de vue, il n'est pas grand, ça voit pas la nuit. A la moindre latence, la personne peut être en danger. Donc là, l'idée est venue de se dire, pourquoi est-ce qu'on ne ferait pas un appareil qui peut remplacer ce que fait cette personne sur FaceTime et qui peut guider des personnes malvoyantes jusqu'à des nouvelles destinations.

Thomas (06:15.602)
J'ai énormément de questions vis-à-vis de ça mais toi tu as fait un PhD et tu, je sais pas si on peut se permettre de le dire mais tu l'as arrêté, c'est pour créer Beeple.ai justement tu as fait ce choix ?

Mael (06:25.294)
Ouais, faut juste pas dire à ma grand-mère que j'ai arrêté le PhD pour l'instant.

Thomas (06:28.814)
On lui passera pas l'épisode du podcast promis.

Pierre Vannier (06:30.898)
On a un algorithme très puissant qui empêche toute grand-mère de près ou de loin d'écouter notre podcast. Je sais, c'est discriminatoire mais c'est comme ça. a décidé. C'est juste de 7 à 65 ans. a arrêté. Pas 7 à 77 ans. Donc t'es un drop out comme les américains disent.

Mael (06:49.758)
Ouais, c'est ça. J'ai fait ma thèse pendant deux ans, c'était des thèses sur un format assez classique de quatre ans. Puis en passant l'examen intermédiaire, on a eu...

ça faisait moi déjà un an que je travaillais sur Biped et puis c'est présenté un truc tout bête qui était on avait l'opportunité de partir au CES sauf que j'avais pas de congé spécifique et j'ai dit bah en vrai je suis au CES j'aimerais faire un tour de la Californie pour faire tester notre appareil à pas mal d'associations et autres est-ce que je peux avoir un congé sans solde ? puis ils m'ont dit non et j'ai dit au revoir et puis voilà ça aurait été cool de continuer un peu plus longtemps mais en vrai je me suis

que j'avais peu déjà poncé ce que je pouvais apprendre sur le PhD. Je savais que j'allais être un chercheur particulièrement médiocre et que la fin du doctorat serait possible pour présenter un truc présentable mais voilà, ça s'est joué comme ça.

Thomas (07:50.956)
ça a mérite d'être honnête et on pourrait faire un podcast sur le développement personnel là mais bon t'as beaucoup de fois parlé parler de biped.ia est-ce que tu peux nous en dire plus, je te sais comment ça fonctionne, l'outil derrière ça

Mael (07:52.686)
C'est clair.

Mael (08:05.966)
Donc aujourd'hui ça a commencé comme une ceinture à l'époque avec une caméra et puis on est vite remonté sur le point de vue au niveau des épaules. en fait ça prend la forme d'un espèce de harnais qui est porté sur les épaules avec des caméras qui sont situées sur la gauche de la poitrine. Donc on a trois caméras à profondeur de champ qui ont du coup 170 degrés de champ de vue avec un capteur infrarouge aussi pour avoir de la vision nocturne. Donc on a du flux RGB, de l'infrarouge, de la profondeur de champ.

un ordinateur embarqué sur la droite de l'appareil avec des boutons de contrôle et on a un module de batterie à l'arrière de la nuque. L'idée c'est que en portant ça, gens peuvent soit avoir un retour audio direct soit connecté via des écouteurs et ils ont de l'audio spatialisé qui va les guider en leur donnant des instructions de navigation. là, imagines globalement avec les boutons sur le côté, tu définis ta destination, tu ton système qui va dire

tourner à droite à 14h, continuer tout droit, traverser la rue à gauche. Il a de la détection d'obstacles.

la détection d'obstacles, pour tous les dangers que les cannes blanches ou que les chiens-guides ne pas capables de détecter. Des branches à hauteur de tête, des trous dans le sol, des choses comme ça. Là, la personne va entendre des espèces de petits bip spatialisés. On vient appliquer un effet de transfert de tête où tu entends vraiment le son de la gauche ou de la droite. Et après, a bossé sur un volet vraiment de description visuelle de l'environnement. Et là, c'est du coup la partie dia-générative avec le système qui est capable

soit à la demande de te décrire ce qui se passe, soit d'avoir un modèle un peu de live AI qui est capable de te faire une forme de narration pour t'expliquer ce qui en train de défiler sous tes yeux même si tu ne pas forcément voir ton environnement.

Thomas (09:59.162)
J'aimerais quand qu'on vienne sur un point. Nous le MasterSpec on l'a fait en 2019. Donc on remonte 6 ans en arrière. A cette époque là, au moment où on faisait la formation, rappelle-toi le meilleur modèle c'était les BLSTM. Donc les BL short term memory. Là tu parles d'IA générative. Là tu sens passer vraiment beaucoup des choses depuis ce moment là, ? En terme de modèle. Avant qu'on arrive à l'IA générative.

Mael (10:20.622)
Clairement, clairement, c'est...

Oui, mais même depuis que... Tu vois, l'idée de la boîte était 2020, donc c'était encore assez frais ce qu'on venait d'apprendre en MasterSpec. Et là, à ce moment-là, on a fait tout un plan où on disait, on va déployer des modèles type YOLO pour faire de la détection d'objets, des choses comme ça, et on va le faire tourner en local dans l'appareil. Mais on se dit, ça peut être un peu galère d'avoir le framerate suffisant sur l'appareil, donc on va voir ce que ça peut donner.

Et puis fait un jour on s'est dit mais en fait si on a une... depuis qu'il eu les releases de Tchad, GPT et notamment toute la partie vision, s'est dit mais en fait il nous faut un accès internet et si on simplifie ça c'est... alors il y a la partie qui est partie... enfin c'est vraiment partie sur du... sur des gros gros modèles avec une connectivité mais ça offre des possibilités incroyables mais après la partie en locale aussi on est passé d'un truc où on pouvait faire tourner à...

4 images secondes à maintenant du 30 fps en local sur des modèles qui sont beaucoup plus puissants qu'avant.

Pierre Vannier (11:32.399)
hallucinant. C'est assez hallucinant, moi je suis assez... je suis bluffé, je me permets, suis bluffé à plusieurs égards. Déjà le premier sur le côté entrepreneurial de lâcher son... lâcher sa thèse, démarrer en plein Covid sur une rencontre avec quelqu'un qui est malvoyant et te dire mais juste c'est pas possible et de vouloir craquer le truc quelque part.

de vouloir t'attaquer au problème, de dire attends, on est en 2020, c'est pas possible qu'on en soit encore à cet état-là en fait. Donc ça je trouve c'est topissime et puis aussi finalement halluciné rétrospectivement de me dire j'ai l'impression que ça fait quoi ? 4 ans, 5 ans, 4 ans max ? C'est ça à peu près ? Et qu'au final entre...

moment où tu parlais, vous parliez tous les deux là du Covid de 2019, j'étais en train de me dire mais ça c'est juste il a cinq ans et en fait il y a cinq ans on n'avait pas de GPD, on n'avait pas les larges language models, on n'avait pas les visions language model et en fait là l'espèce de sceau générationnel qui a eu lieu dans ces cinq dernières années, je sais pas vous mais en tout cas moi il me donne beaucoup le...

espèce de vertige, tu vois ce que je veux dire, en terme de puissance de nombre de trucs sortis. Donc du coup, vous avez une partie hardware, est-ce que c'est juste d'appeler ça finalement une plateforme ? Parce que quelque part vous avez une partie hardware.

Mael (12:56.462)
...

Pierre Vannier (13:10.348)
non négligeable d'ailleurs parce qu'au final il a un ordinateur, a de la caméra, il du capteur, il y a des... j'ai presque l'impression, tu vois, que moi qui fais des voyages dans des waïmaux, voitures waïmaux à San Francisco, j'ai l'impression que votre système c'est un waïmaux adapté pour un homme, pour un être humain quelque part, bourré de... vous avez peut-être même un LIDAR ou du radar ou pas forcément.

Mael (13:24.878)
Peu de choses près, ouais, clairement.

Mael (13:31.902)
On est passé vraiment sur de la caméra profondeur de champ, donc on fait de la vision stéréo et sur les caméras qu'on a choisi, t'as un émetteur infrarouge pour avoir la vision nocturne. On a du gyro, a une boussole.

Pierre Vannier (13:35.033)
Ok.

Pierre Vannier (13:40.498)
Ok.

Pierre Vannier (13:47.868)
Ouais, c'est vraiment ultra complet quoi.

Mael (13:48.852)
connectivité wifi, bluetooth, tu un CPU, là la plateforme qu'on utilise, ils appellent ça un NPU, mais tu as entre 6 et 10 teraflops selon les modèles que tu prends pour ces ordis embarqués. Ce n'est pas énorme parce que c'est des plateformes qui ont été développées entre 2022 et 2023, mais là c'est les trucs où si tu essayes de passer en production, par exemple des Jetson Nano qui peuvent avoir...

Pierre Vannier (14:03.25)
Mmh.

Pierre Vannier (14:14.066)
Jetson, c'est la nouvelle petite plateforme d'NVIDIA.

Mael (14:17.48)
Oui, exact. ça, ils ont fait un gros refresh de cette plateforme-là, est intéressant. Tu peux monter à plus de 60 teraflops pour de l'inférence de modèles de deep learning en local. Ce qui permet de faire tourner des VLM aussi en embarquée. Ce qui commence à être assez dingue, parce que tu peux avoir toute la partie traitement de la parole, ceci cela qui se fait en embarquée. Mais ça vient aussi avec des coûts qui sont assez importants. Donc il faut toujours balancer le...

Pierre Vannier (14:40.146)
génial.

Mael (14:47.566)
avec lequel on sort sur les coûts de prod, que typiquement sur le marché de l'accessibilité.

C'est le genre de truc dans le médical où on te dit, n'as jamais assez de marge pour te protéger de ce que le distributeur final va te demander pour acheminer la formation et les derniers kilomètres jusqu'à l'utilisateur. Donc là, on était obligé de faire quelques trade-off. Mais pour la petite histoire drôle, fait, on a un bout de code qui été codé par les équipes de recherche de chez Honda. Et donc, fait, on a négocié un accès à une licence d'un brevet de prix

de trajectoires piétonnes que Honda a développé et leur unité de véhicules autonomes avait ces algos avec des brevets qui étaient en train de moisir quelque part et puis ils sont dit ça serait cool d'appliquer ça sur un vrai produit et puis ils nous avaient contacté et on a fait ce projet là donc les prédictions de trajectoires pour filtrer qu'est qui deviendra un obstacle ou pas c'est un algo de chez Honda

Pierre Vannier (15:26.69)
ouais, ouais.

Thomas (15:49.55)
C'est impressionnant. Et c'est un moment juste la recherche elle t'a influencé dans l'approche entreprenariale de Beeple.ai ou pas du tout ?

Mael (16:01.39)
Je pense que ça t'apporte un peu des fondamentaux sur la manière dont tu veux tester ce que tu déploies sur le marché. Ça limite un peu plus cette capacité à pousser directement quelque chose qui est à moitié fini.

Il y a des bonnes choses comme des mauvaises choses. pense que pour le hardware, fait partie des trucs où c'est quand même pas mal de vraiment se poser la question de c'est quoi la bonne ergonomie, comment est-ce que je valide dans des tests utilisateurs concrets avec des professionnels qui font ces tests-là à ma place parce que tu n'as pas envie d'avoir des utilisateurs qui sont juste gentils avec toi et qui disent « ouais ouais j'adore » et qui derrière n'utiliseront jamais l'appareil. cette approche-là de passer par des professionnels de base vision et autres, ça apporte des pas mal de maturité là-dessus. Après, la...

sur la partie software, mon associé lui faisait de la robotique à l'EPFL et c'est clair que du coup tu as vraiment cette notion d'avoir envie de pousser un truc qui...

typiquement dans le domaine médical, tu as tenu compte de tous les edge cases que tu pouvais imaginer initialement. là en l'occurrence, la toute première version qu'on a planté, si l'obstacle venait d'un angle spécifique, on avait un radiant qui était foiré et qui provoquait une erreur et l'appareil s'éteignait. C'est des trucs, tu ne pas pousser ça à l'échelle et heureusement que les toutes premières versions servent à ça. Mais je pense que le travers de beaucoup de boîtes dans ce secteur-là,

C'est beaucoup de projets de spin-off universitaires parce que c'est dur de trouver des financements dans le secteur de l'accessibilité initialement et donc du coup, tu as beaucoup beaucoup d'universitaires sur ce secteur-là de manière générale.

Thomas (17:45.114)
J'ai pas mal d'autres questions et j'aimerais pas trop transgresser, parler d'autres choses que l'intelligence artificielle mais en terme de business model toutes les évolutions qu'on a pu avoir en cinq ans est-ce que ça a un peu changé votre business model puisque si je comprends bien maintenant vous utilisez internet donc votre, si je me trompe pas, votre hardware il est toujours connecté en 5G, en 4G ou ce genre de choses maintenant c'est ça ? Ou même autre chose ?

Mael (18:10.49)
En partage de connexions, on a fait vraiment le truc le plus simple à ce niveau là. en fait on offre deux niveaux d'intelligence sur l'appareil. On a une partie avec des modèles...

qu'on fait tourner en local et une partie où si on a un relais internet, on peut aller taper dans des modèles qui sont un peu plus intéressants et on n'est pas seulement sur des algos de segmentation et de détection d'objets mais où as vraiment une interaction plus naturelle avec une narration plus naturelle sur ce qui se passe autour. Du coup ça a apporté des frais récurrents qu'on n'avait pas spécialement prévu et là d'un coup c'est posé la question de se dire, nous on avait prévu d'entrer à tel prix sur le marché mais en fait on se rend compte que

Oui, va pouvoir se passer de certains développements offline ultra poussés. en fait on va avoir moins de besoins d'annotation de données. Dans toute la vie de la boîte, a eu moins de moins de 20 000 euros de frais d'annotation de données en tant que tel, sachant que pour mettre un produit de computer vision sur le marché, te disais y quelques années que c'est ça qui va coûter très cher, c'est de collecter et d'annoter de la donnée. Mais par contre ça a apporté des frais récurrents mensuels. Au début ça nous a fait un peu flipper, mais après

le coût d'inférence par image s'est littéralement effondré et la compétition est vraiment partie sur tous les modèles type Flash, genre Gemini Flash ou des modèles mini ou des choses comme ça. Là il y a vraiment des modèles qui commencent à être ultra performants et qui apportent des coûts d'inférence par images qui sont vraiment négligeables, ils sont préagirés des gros gros volumes et même sur les Live AI en de notre côté, une image par seconde c'est un truc qui suffit en

On a dû provisionner un peu plus et augmenter les prix de vente de l'appareil pour anticiper le fait qu'il des gens qui vont les utiliser pendant 5, 6, 7 ans et qu'on doit payer un débonnement mensuel pour ces gens-là.

Pierre Vannier (20:04.902)
Est-ce qu'on peut descendre un peu dans l'architecture technique ? Donc tu as un device, une espèce de veste que porte la personne, utilisatrice du dispositif. Et puis ensuite tu as une partie hardware, machine locale, petit ordi, un Raspberry Pi ou...

Thomas (20:05.089)
Déjà, vas-y.

Pierre Vannier (20:29.194)
autre chose qui tourne, tu des caméras, as tout un tas de capteurs etc. et ensuite tu as effectivement des serveurs dans le cloud avec aussi des possibilités et comme tu disais, tu as un peu un devoir que la plateforme marche à la fois en mode détérioré déconnecté mais connecté aussi parce que finalement tu peux te retrouver dans une zone blanche et quand même que la personne puisse utiliser le dispositif peut-être de manière moins

précise avec peut-être moins d'informations mais à minima garder des informations ultra vitales peut-être choisir en termes de priorités d'informations voilà si tu peux nous décrire un peu l'architecture comment c'est un peu foutu tout ça

Mael (21:11.158)
Oui, absolument. Le premier truc qu'on a fait, c'est qu'on est parti sur un champ de vue des caméras qui est ultra large pour répondre à la problématique de quand tu une personne qui est devant une porte, elle ne pas forcément face à la porte qu'elle est en train de chercher. Donc si tu veux que tu une IA qui soit capable de dire la porte est à droite à 4 mètres, faut que les champs de vue des caméras soient suffisamment larges. Donc on commence par une étape d'acquisition sur les trois caméras, une unification du champ de vue des caméras. Donc là, on a une seule image

un peu en vision panoramique qu'on récupère et l'équivalent aussi en vision 3D. on a un énorme champ de vue en 3D. Ces images là, sont transférées au...

la plateforme de calcul, alors c'est un équivalent de Raspberry Pi, je ne pas donner le modèle exact mais c'est un équivalent de Raspberry Pi mais sous stéroïde, à peu de choses près. On peut faire beaucoup de calculs en CPU et juste utiliser le module NPU pour certains éléments. Sur la pipeline principale, ce qui va se passer c'est qu'on va utiliser le gyroscope pour venir stabiliser le pattern de marche de la personne au fur et mesure parce que sinon tu te retrouves avec... Ouais !

Pierre Vannier (22:18.384)
Oui, tu une sorte d'accéléromètre aussi pour être capable de savoir direction, vélocité, etc. Et un peu comme un podomètre accéléré, vraiment capable de connaître tous les déplacements finalement.

Mael (22:26.51)
Exactement.

Mael (22:32.426)
Oui, exactement. Et du coup, a vraiment une phase de stabilisation. Et ensuite vient la problématique de... Pour nous, ce qu'on veut garantir, c'est que la personne est capable de détecter des obstacles pour les éviter. Ça, c'est la mesure de sécurité. Et d'un point de vue dispositif médical, on est obligé de garantir ça en temps réel.

Pierre Vannier (22:50.175)
justement vous êtes labellisé dispositif médical ce qui veut dire tout un tas de réglementations régulations etc on pourra y revenir parce que c'est important quand même

Mael (22:54.062)
de fait.

Mael (22:59.47)
Exactement. donc, de ces régulations-là dérive le besoin de détecter des obstacles en temps réel. Le temps réel est généralement classifié à partir de 6 images secondes sur des traitements en computer vision. là, nous, arrive à 10 images secondes. Mais sur cette pipeline, c'est-à-dire qu'en...

10 images secondes, il qu'on soit capable, sur ce point de vue unifié en profondeur de champ 3D, de détecter les obstacles. Le truc c'est que si tu dis juste tout ensemble de pixels qui a moins de 5 mètres par exemple est un obstacle, le sol est un obstacle, le plafond est un obstacle, tout devient un obstacle. Donc tu as vraiment une notion d'estimation, c'est l'équivalent du drivable surface pour une Tesla par exemple où ils essayent d'estimer sur quelle zone tu peux rouler et où va la route.

Pierre Vannier (23:42.354)
...

Mael (23:46.144)
On a une première segmentation du sol pour identifier si la personne peut marcher sur cette zone-là pas. Une fois que soustrais ce sol du reste de l'environnement, il reste des obstacles potentiels. Ça peut être des murs, et après ça peut être des instances d'obstacles ou des trous. Et là-dessus, as des algos agglomératifs, du tracking, de la prédiction de trajectoires. Tu réfléchis en termes de temps d'impact.

de l'obstacle,

savoir qu'il a cet obstacle qui se rapproche. Donc on essaye de réfléchir beaucoup en termes de temps d'impact mais on ajoute de la redondance avec un...

à une distance donnée, qui permet d'un point de vue dispositif médical garantir que quel que soit le seuil, est toujours un obstacle qui soit notifié si jamais il a une collision imminente. donc ça c'est toute la pipeline qui tourne en local. Et après on a deux éléments additionnels qui vont tourner. Donc ça en fait l'appareil en tant que tel on l'a appelé NOA pour navigation obstacle et AI.

La partie obstacle, viens de vous la décrire. La partie navigation, on a fait le choix d'utiliser l'antenne GPS du smartphone mais d'offrir une interface main libre à la personne et surtout de venir fusionner ce que voient les caméras avec le...

Mael (25:33.71)
La navigation GPS. Si le GPS dit continuer tout droit puis tourner à droite à 14 heures, au moment où on dit tourner à droite à 14 heures, on peut faire un petit check avec les caméras, regarder si on fait un passe planning à droite à 14 heures, est-ce que le chemin est vraiment libre ou pas. Et s'il n'est pas libre, on peut venir gérer la temporalité de l'information GPS pour la donner au meilleur moment à la personne. C'est un petit check visuel, pas très compliqué, mais ça permet de mieux timer les instructions.

qui sont données. Et après on a la partie d'intelligence artificielle qui tourne. Je vais plus me concentrer sur le cas d'utilisation connectée au cloud parce qu'il est un peu plus intéressant. Là globalement tu as...

On fait un buffer local sur l'appareil, ça part, streamer sur un serveur cloud. Et là, a une pipeline qui va faire tourner un VLM sur des espèces d'outputs structurés. Comme ça, a la notion de présence.

Pierre Vannier (26:35.634)
Attends, attends, parce que là on est en train de perdre tout le monde. VLM, vision de language model. Donc, language model qui est spécialisé, on lui fait passer des images et il infère des données par rapport à ces images. Tu fais passer une photo, il a un chien, un canapé, te dit, a un chien, un canapé, etc. Et donc, coup, inférence, et après tu parles inférence et du coup, output structuré. Donc, vas-y.

Mael (26:58.542)
...

Output structuré, c'est ce qui va nous permettre de pas seulement avoir une description comme quand on envoie une image sur TchadGPT et on a une description de l'image en retour, mais ça va aussi nous permettre de demander la présence ou la catégorie de certains éléments. Donc on peut dire classification, est-ce que la personne est en intérieur, en extérieur ? Qu'est-ce qu'elle est en train de faire ? Est-ce qu'elle en train de marcher, d'acheter quelque chose, de ceci de cela ? Est-ce qu'il a tel tel et tel objet dans l'espace ? Et comme ça, on a une notion un peu latente de quels sont les éléments dans l'environnement et ça nous sert.

un peu de système de classification parfait de référence.

Pierre Vannier (27:34.131)
Du coup j'ai une question juste pour l'output structuré parce que ça m'intéresse et j'aime beaucoup ça. J'imagine que vous avez peut-être défini un...

schéma particulier de type d'objet, de type d'extérieur, de quelque chose qui va finalement traduire le monde extérieur avec ce schéma là pour pouvoir ensuite ressortir après l'inférence des VLM, ressortir un output, donc une sortie structurée qui soit adaptée à ce schéma et finalement adaptée aux données qui vous vous intéressent et intérêtent votre système.

Mael (28:10.09)
Et c'est là que ça devient super intéressant, c'est qu'en fait on a pris l'expertise métier de ceux qui sont spécialisés dans...

la formation et la mobilité pour les personnes aveugles et malvoyantes. C'est un métier qui s'appelle instructeur en locomotion. en fait, instructeur en locomotion, ont une Bible qui s'appelle le Big Red Book, gros livre rouge. Et ça, c'est les fondamentaux de l'instruction et de la locomotion. Et c'est un consortium international de tous ces professionnels de base vision. ils disent globalement comment est qu'on apprend à traverser une route? Quels sont les objets intéressants? Et quels sont les éléments où tu considères que la personne

Pierre Vannier (28:20.21)
super, bah vas-y. Ok.

Pierre Vannier (28:37.33)
génial.

Pierre Vannier (28:45.65)
C'est génial !

Mael (28:46.832)
a vraiment réussi à débloquer un prochain niveau de locomotion individuelle et là tu valides la formation de la personne. nous on est venu en fait digitaliser tout ça, on s'est tapé tous les bouquins et on est venu tous les traduire dans un output structuré d'un VLM.

Pierre Vannier (29:03.89)
Top ! Super !

Thomas (29:06.586)
C'est fascinant, ne même pas trop quoi dire. Déjà bravo pour le travail. J'ai une question, elle peut être un peu technique, j'aime vraiment cette différence d'il a cinq ans aujourd'hui, c'est-à-dire qu'on se rend compte qu'en très peu de temps, il y a eu un changement de dingue et de paradigme. J'irais même dire de paradigme. Il y a cinq ans, j'imagine que vous essayez des modèles de deep learning pour voir si tout correspondait. Je retourne sur l'intelligence artificielle pour voir si tout correspond le mieux à vos besoins. Mais donc, si vous prenez du temps, j'imagine les architectures

sur la mise en place de l'algorithme, la consommation de ressources. Aujourd'hui, tu l'as mentionné, vous utilisez par exemple les VLM, mais j'imagine qu'il a pas que les VLM. Est-ce que vous passez le même temps que vous passiez sur la modélisation il y a cinq ans sur la compréhension et la bonne utilisation des VLM ? Ou vous avez gagné du temps grâce à cette évolution ?

Mael (30:01.486)
Je pense que...

Il a un gain de temps phénoménal à ce niveau-là. Au début, j'étais assez sceptique et je me suis dit qu'on repousse le problème du fine-tuning de ces modèles, du contrôle de la performance. En plus, on aura beaucoup moins d'actions potentielles si c'est juste une API qu'on utilise, etc. La réalité aussi, c'est que dans l'adoption sur le marché de la base vision et donc des personnes malvoyantes, a les lunettes méta qui sont arrivées entre temps.

Be My Eyes qui ont lancé un truc qui s'appelle Be My AI et c'est en partenariat avec OpenAI. l'avaient lancé sur une des conférences d'OpenAI pour annoncer quatre hauts. Ils ont fait les premiers modèles de vision qui sont capables d'où on tient son téléphone, on pose une question et chat GPT répondent. Donc Be My AI a été le premier à pouvoir déployer ça en utilisation commerciale. En fait, les gens sont devenus extrêmement habitués aux sorties, peut-être aux hallucinations aussi de certains de ces modèles. C'est pour ça

la redondance d'avoir à la fois quelque chose qui nous garantit systématiquement que la notion de sécurité elle est couverte par la détection d'obstacles sur une pipeline robotique assez classique en embarquée. C'est maîtrisé il a 30 ans on pouvait déployer quasiment les mêmes algorithmes, un peu moins efficient mais voilà. Et le déploiement des VLM en production aujourd'hui c'est un truc où tu peux prendre le modèle tel qu'il existe et tu peux l'envoyer. Il aura quelques hallucinations mais tant que tu es capable de les adresser

de les repérer ou de les monitorer, tu passes beaucoup moins de temps sur cette partie modélisation.

Thomas (31:40.09)
Et puis il toute la partie labellisation où tu l'as mentionné, c'est vraiment un sujet, je trouve pas mal tabou, on en parle assez peu, métier essentiel qui est là pas mal mis de côté. Est-ce que dans une autre mesure vous êtes obligé de suivre toutes les évolutions qui se passent dans le domaine des VLM, LLM actuellement, ou vous êtes en capacité de vous dire bon, on peut faire une pause, qu'on est actuellement assez bon, ou vous êtes obligé de suivre tout le temps la tendance ?

Mael (32:07.118)
Après, y a une partie, je pense qu'on a le biais aussi intrinsèque où on se dit, on n'a pas envie de déployer quelque chose si on sait que c'est juste une API à changer.

C'est un peu dommage de rester avec un modèle qui est moins performant, moins rapide, plus cher par exemple. en fait tu fais un peu cet engagement de toujours utiliser le dernier modèle. Ça peut avoir des limites clairement parce que d'un coup, on s'est rendu compte que typiquement Gemini est beaucoup moins bon dans les estimations de distance parce qu'ils n'ont probablement rien vu en images de profondeur de champ par rapport aux modèles qui sont développés par OpenAI.

les modèles d'OpenAI en termes d'inférence, ont du mal à vraiment servir quelque chose en quasi temps réel parce qu'ils n'ont pas encore désigné vraiment de modèle qui doit répondre à la catégorie flash de chez Gemini. donc après tu pèses un peu la balance entre ces modèles là mais c'est clair que le moment où on a basculé sur Gemini de notre côté, ça a apporté plein de trucs mais on a perdu toutes ces notions d'estimation de profondeur de champ assez précise que les modèles pouvaient faire et en fait...

T'es face à une personne et sur un essai il peut te dire que tu à 4 mètres, sur l'essai d'après il que tu à 8 mètres alors que la personne est à 2 mètres 50. Mais pour une personne malvoyante, ça a un vrai impact.

On a développé des méthodes pour passer l'information 3D sur les requêtes qu'on envoie à ces modèles-là pour qu'il ait une référence et qu'il puisse estimer la distance avec une vraie référence physique vu qu'on l'a sur notre capteur directement. Maintenant, on s'est un peu plus figé dans cette suite de modèles Gemini.

Pierre Vannier (33:51.891)
Ça te permet de contraindre en input du modèle, VLM, tu lui apportes plus d'informations qui lui disent, non mais attends, la personne elle peut obligatoirement se trouver entre 2 mètres, 50 et 4 mètres mais rien d'autre quoi. Et ça l'oblige à avoir sa sortie et son inférence contraintes dans ces bornes-là finalement quelque part.

Mael (34:06.382)
Ouais, exactement.

Mael (34:16.842)
Exactement, et ça limite beaucoup l'hallucination de ces modèles-là. Mais c'est vrai que maintenant, vu qu'on est venu développer ces méthodes-là spécifiques au suite de Gemini, on a plus tendance à rester fidèles à ces modèles-là. De manière générale, t'envoies toujours un peu de redondance si jamais t'as tel provider qui a des serveurs qui crash, t'as envie d'avoir un autre modèle en redondance qui peut te servir quelque chose. Mais maintenant, c'est plus des upgrades...

D'un coup, t'as Flash 2.0 qui arrive. T'as envie de rapidement pouvoir faire l'update.

Pierre Vannier (34:48.21)
Ouais bien sûr. Ouais bien sûr.

Et du coup, j'ai quand même une question parce que là tu parles quand même d'OpenAI, de Gemini, Quid des modèles open source là dedans. Est-ce que dans vos systèmes, dans votre dispositif, vous avez des modèles open source ? Si oui, à quel endroit ? Si non, pourquoi ? Parce que je pense que c'est intéressant, avez sûrement, ou vous êtes sûrement un peu en permanence à vous poser ou reposer ces questions là, puisqu'il y a des avantages et des inconvénients, il y a peut-être des limitations.

nous parler de ton opinion par rapport à cela.

Mael (35:27.406)
Pour nous, a une approche extrêmement pragmatique là-dessus. C'est un modèle open source. Faudra qu'on...

globalement, si on veut pouvoir vraiment le posséder intégralement, qu'on l'éberge sur notre serveur, on a des frais fixes de serveur à sortir là-dessus, versus des prix par requête. donc en fait, c'est des questions de volume à notre niveau et donc la notion d'arriver à servir quelque chose sur des modèles, même s'ils sont propriétaires de grosses boîtes, au coût d'API.

et un truc qui est hyper intéressant sur des petites boîtes parce que ton time to market, le temps que tu mets à arriver sur le marché est extrêmement faible et fait toute l'infrastructure cloud de notre côté est gérée par mon associé qui est ingénieur robotique et dont c'est pas du tout la qualification de base de déployer des modèles d'intelligence artificielle mais c'est juste que...

Pierre Vannier (36:11.224)
Ouais. Merci.

Pierre Vannier (36:19.922)
par la plateforme.

Pierre Vannier (36:30.192)
et de les maintenir en prod sur les propres serveurs d'inférence.

Mael (36:34.005)
Voilà, c'est ça. Et ça, c'est vrai que ça aurait...

fut un temps nécessité probablement au moins à un machine learning engineer qui ait une capacité de mise en prod de ce type de modèles là ou un data scientist qui est bien vénère sur toute la partie inference cloud et quand ça peut être remplacé par une carte de crédit et des appels à une API ça facilite beaucoup le prototypage. Après on en a mis quelques centaines sur le marché.

quand tu passes vraiment à l'échelle de où tu amènes ce genre de trucs, c'est un peu plus... Ouais, je pense que là on se reposera probablement la question si on refait un épisode et qu'on est en train d'inonder le marché avec des milliers d'appareils quoi.

Thomas (37:21.338)
Et c'est des points intéressants puisque le vrai bonus c'est l'infrastructure quand tu tes requêtes puisque tu ne la gères pas du tout mais ça me permet d'arriver sur le côté peut-être dispositif médical. Comment dire ça ? Est-ce que c'est un problème pour vous si vous partagez des photos avec Google par exemple ? Parce qu'il y a tous ce côté de contrôle, on ne pas trop comment les données encore sont utilisées, il est la base de... Est-ce que c'est un problème pour vous ? Est-ce que ça peut vous bloquer ?

Mael (37:40.558)
Ouais.

Pierre Vannier (37:44.178)
Data privacy, bien sûr.

Mael (37:46.114)
Oui, absolument.

C'est un bon point. C'est pour ça qu'on avait à cœur d'offrir une forme de redondance avec des modèles qui sont embarqués dans l'appareil directement. Même s'ils sont beaucoup plus limités dans la capacité de sortie. Tu as un certain nombre de classes d'objets, un modèle de détection d'objets. Donc tu arrives à faire une espèce de synthèse vocale qui dit qu'il une voiture à 3 mètres, mais ce n'est pas du tout la richesse de langage que des VLM peuvent t'offrir. Il a des pays où c'est des notions très sensibles.

En fait, n'a pas grand chose à voir avec les dispositifs médicaux en tant que tels, parce que ça, il délègue à la notion de RGPD. Bien sûr, on peut prendre tous les verrous qu'on cocher toutes les options pour ne pas que les données soient utilisées en données d'entraînement, etc. Ne pas stocker les données nous-mêmes non plus. Notamment, peut en théorie avoir du GPS, de la profondeur de champ, du flux RGB. On peut aller très loin sur

identifié individuellement chacune des personnes. là, bien sûr, nous, on s'est blindé niveau RGPD là-dessus. Le seul truc que te demande la réglementation dispositif médical, et c'est là où des appareils qui sont purement basés sur de l'IA générative auront du mal à passer en production sur ce genre de dispositif médico. pense, par exemple, que tu à des chatbots pour t'aider à aller mieux d'un point de vue psychologique. Si tu veux le faire rembourser un jour en tant que dispositif médical d'aide, etc., etc., il faut vraiment

contrôler les hallucinations. Nous c'était vraiment la notion de redondance avec un algorithme de détection d'obstacles. Le seul truc qu'on certifie ou qu'on garantit en tant que dispositif médical c'est que la personne ne se prendra pas d'obstacles et qu'elle doit toujours utiliser sa canne et son chien en complément. Donc ce n'est pas non plus un remplacement de ces éléments là. Mais c'est un cadre régulatoire qui a évolué en fait quand on a commencé...

Mael (39:46.862)
à réfléchir à ça était 2020. On n'était pas encore dispositif médical, sauf qu'il y a eu une évolution de la régulation sur les dispositifs médicaux et qu'à partir de 2021, les dispositifs d'aide à la mobilité sont devenus des dispositifs médicaux. Donc on a dû aussi apprendre les joies des quality management systems et de tous ces trucs-là.

Thomas (40:11.77)
Par conséquent, y a aussi ce côté de confiance, je voulais en parler, c'est comment les utilisateurs voient le fait d'utiliser un outil qui comporte de l'intelligence artificielle. Je ne sais pas si le terme est bon, je m'en excuse. Vous parlez de malvoyants ? Est-ce les malvoyants font confiance à la section intelligence artificielle où il a justement des doutes

Mael (40:39.686)
Oui, ça fait partie aussi des trucs que qui me passionne, c'est sur des spécificités sur certains marchés. Je te jure qu'au moment où on a déployé, au début on avait un seul bouton sur l'appareil, on était tout content, on avait fait une intégration avec OpenAI, avec leur modèle de vision. Tu doubles cliquer sur le bouton, ça prend une photo, ça te décrit ce qu'il devant.

Et au moment où je fais tester ça à un des gars qui travaille en accessibilité chez Microsoft, qui a lancé l'application SingAI, qui est une des grosses applis de référence dans l'IA pour les personnes aveugles et une des plus utilisées sur la planète dans la communauté des personnes malvoyantes, il me dit, c'est tout ce que ça fait.

Et c'était ce truc là de dire t'as ouvert la boîte de Pandore, mais maintenant il faut mitrailler et faire plein de trucs à ton appareil. T'as plein de notions de capteur de ceci de cela. En vrai, t'as moyen de dépasser les limites de plein d'hallucinations qui se passent sur des photos ou des choses comme ça. Et donc, fait, dans la communauté, mais c'est plus ceux qui adoptent assez rapidement, assez tôt ce genre de technologies là, ils sont tous à attendre qu'il y ait des lunettes qui te

qui te guide automatiquement quelque part. fait, c'est vraiment des communautés qui ont adopté ces technologies là, mais à une vitesse totalement folle. Et des groupes, par exemple Facebook, AI for the Blind, t'as 10 000 personnes sur ces groupes là.

et ils font plus de 1000 personnes par mois en ce moment. Des groupes de lunettes rébanes, méta pour les personnes malvoyantes qui ont 5, 6, 7000 personnes. Donc ça se vend dans cette communauté comme pas possible parce qu'il y a une promesse de l'IA qui permet vraiment de dépasser les limites du handicap actuel. Et ça c'est un truc ultra enthousiasmant, c'est d'avoir des gens qui te poussent à amener d'autres trucs. En fait, il n'y a plus de notion de défiance. C'est tellement rentré dans les mœurs dans cette

Mael (42:31.504)
qu'il a plus de défiance du tout.

Thomas (42:34.106)
Désolé Pierre, sais pas si tu voulais dire quelque chose, mais c'est un prisme qui est super intéressant, parce que pour moi les lunettes Reban, c'est pas du tout vendu comme un outil d'aide à la personne, c'est plutôt fait pour enregistrer en temps réel des actions, on le voit même sur les réseaux sociaux des gens qui prennent en vidéo en permanence. C'est marrant ce prisme que tu as finalement de cet outil là du quotidien qui peut être utilisé par une personne...

voit bien et le prisme des non-voyants qui attendent cet outil comme, je ne pas dire le messie, mais avec beaucoup de potentiel pour avoir une vie plus agréable.

Mael (43:11.032)
Absolument. ça c'est de la même manière que pour plein de gens, je me rappelle de reportages il a encore peut-être un ou deux ans à la télé sur est-ce que chat GPT a vraiment changé le quotidien de certaines personnes et les journalistes avaient trouvé rien d'autre à mettre en avant qu'un mec qui écrivait des cartes de vœux avec chat GPT et c'était le seul use case qu'ils avaient réussi à montrer. Et en vrai, quand tu dans ces communautés là, n'y a plus un seul qui à l'instant où les modèles de vision sont sortis, les gens ils ont

Tu reçois un courrier, malvoyant, tu prends la photo du courrier, tu as la transcription. l'époque, il fallait des télé-agrandisseurs avec de la synthèse vocale. coûte 15 000 euros. y a quatre distributeurs en France qui te vendaient ça. Ça avait des taux d'erreur sur les systèmes d'OCR qui étaient horribles. Ça met deux minutes à démarrer parce que c'était une vieille machine Ubuntu.

tous les trucs que tu peux imaginer que ça a disrupté. fait, c'est des courses effrénées et à certains moments, tu as des gens qui viennent figer un hardware à un moment en pensant que c'est une plateforme qui va pouvoir être utile. Je pense que dans la sous niche de la mobilité, il a quand même besoin d'un hardware spécifique, mais tu peux même te poser la question d'une fois que c'est VLM.

sont suffisamment bons, peut-être font de la fusion avec l'information GPS, etc. Est-ce que tu as besoin de quelque chose d'autre pour te déplacer ? Je pense que la limite qu'on verra toujours, c'est que...

dans ces grandes boîtes, y a peu de gens qui vont se soucier des notions d'accessibilité parce que ce pas un marché qui va les intéresser en tant que tel et que si tu te dis, tiens, ce segment, peux faire 2, 3, 4, 5 millions de revenus en lançant un nouveau produit, ils vont dire cool, mais je fais ça en 20 minutes sur les ads sur ma plateforme. Donc, en fait, je m'en fiche et je ne jamais développer un truc spécifique pour ce segment. Et je pense que c'est là où il a encore pas mal de startups dans le secteur de la

Mael (45:09.968)
qui peuvent être créées en utilisant ces technos au cœur.

Pierre Vannier (45:16.476)
Après tu réduis avec toutes ces techno, as un facteur de réduction des barrières à l'entrée et réduction des coûts d'entrée qui sont exponentiels, ce qui fait que ce qui était très compliqué et coûteux à développer est peut-être moins intéressant financièrement ou...

moins rentable va devenir aujourd'hui vraiment plus facile à développer, moins compliqué, moins cher et du coup ouvrir la voie à des nouveaux produits. Justement, tu sais que chaque... parce qu'on arrive presque au début de la fin de notre épisode, à chaque épisode on demande à...

à notre invitée précédente de poser une question à l'invité suivant. L'invité et eux précédentes était Cathy Hallett, est la cofondatrice de Light Panda. Et donc elle avait une question que je vais te poser. Face aux investissements massifs en IA, par exemple le plan Stargate aux États-Unis, les 100 milliards en France, les 200 milliards du plan Europe, etc.

En fait la question c'est comment on mesure un peu le ROI et finalement comment on pourrait arriver à déterminer si ça en vaut vraiment la peine tout cet argent qu'on met, qui se déverse sur l'IA. Grosse question. C'est une grosse question.

Mael (46:45.806)
Grosse question. Je ne vous cache pas qu'au moment où le plan Stargate a été annoncé avec les 500 milliards, on se dit surtout qu'il y l'air d'avoir une exclusivité sur l'exploitation par OpenAI d'une bonne partie de cet investissement. On se dit qu'est-ce qu'ils vont arriver à faire avec 500 milliards ? Je pense que la réalité, c'est que le rythme de développement de l'IA est...

tellement effrénés qu'on a même du mal à envisager ce qu'on pourra débloquer. que même si il a un an je me disais ça y est on arrive sur le haut de la courbe et on va arriver à des retours qui commencent à diminuer au fur et mesure, d'un coup il a Loveable qui fait 17 millions de revenus annuels récurrents en 90 jours en lançant le futur de la programmation. On a des équivalents design.

Pierre Vannier (47:25.842)
sur ma plateau.

Pierre Vannier (47:40.914)
Cursor qui est à 100 millions en un an ou... ouais.

Mael (47:42.766)
qu'il ressort 100 millions d'ARR en un an. Totalement fou ces stats-là. je pense que la réalité, c'est que le ROI sera sûrement sur le nombre de boîtes qui vont partir en vitesse éclair. Et je pense que, heureusement, qu'on a un plan européen qui vient peu matcher ça. Je pense que la stratégie chinoise, final, à part défoncer le stock Nvidia,

Pierre Vannier (47:57.939)
...

Pierre Vannier (48:05.33)
Oui.

Mael (48:12.72)
de sous-estimer aussi totalement combien ça a coûté de développer des modèles type Deep Sea ou autres, c'est supposition. Mais c'est un peu le pied de nez aux États-Unis, je pense que l'argent appellera l'argent là-dessus et que le nombre de boîtes qui vont être capables de se dire, avec une équipe de 20 personnes, on fait 100 millions par an, ça va attirer forcément un argent totalement dingue dans ces boîtes-là et ces boîtes-là vont donner des retours totalement fous aux investissements.

Pierre Vannier (48:23.644)
américains bien sûr.

Mael (48:42.64)
et je pense que le ROI sera clairement là. que les... Oui, le pendant des modèles open source ou des modèles qui sont pas chers à développer, ça peut permettre à des boîtes de décoller, mais il a que avec des fonds totalement démesurés qu'à mon avis on arrivera à... Enfin, c'est se dire qu'aujourd'hui on peut faire 100 millions d'ARR en un an.

Pierre Vannier (49:01.635)
gigantesque

Mael (49:09.038)
C'est littéralement 100 fois plus que le critère de succès d'il y a 10 ans. Il 10 ans, c'était faire un million d'ARR en un an. C'était exceptionnel. C'était quelques boîtes qui arrivaient à faire ça. Et aujourd'hui, il quelques boîtes qui arrivaient à faire 100 millions d'ARR en un an.

Pierre Vannier (49:23.172)
Cette semaine, j'ai vu aussi META annoncer un plan de 200 milliards pour des data centers. Pour des data centers, 200 milliards. je ne pas quel pays ils vont décider de couvrir d'un data center. La Colombie, on rase tout et on met un énorme data center. du coup, merci. Est-ce que toi tu as en retour une question qui te gratouille, qui te chatouille, qui te tient éveillée la nuit pour un de nos futurs invités ?

Mael (49:28.366)
Ouais.

Pierre Vannier (49:53.076)
avec la data.

Mael (49:55.502)
Une des questions qui me tarotent pas mal c'est quel est le prochain métier qui a des chances de tomber et je pense qu'il a cette notion de ne plus exister ouais parce que à part développeur mais cette notion moi je pense qu'on est quand même assez con parce qu'on avait un momentum génial pour se dire on pouvait tout automatiser et à la fin faire en sorte que les IA génèrent du code

Pierre Vannier (50:03.8)
de tomber, de ne plus exister, d'être rasé. À part développeur, on est d'accord.

Pierre Vannier (50:21.042)
Là on fait le contraire.

Mael (50:21.516)
Mais on commence par ça et on est en train de créer les plus belles boîtes de la planète avec ça et de se cannibaliser alors qu'on aurait pu encore tirer la période. Je pense que tous les trucs de traduction, a plein de métiers comme ça de scribes médicaux et autres qui sont en train de disparaître. Je pense qu'il y a de moins en moins de gens qui sont en train d'aller vers ces secteurs-là même de base. Et moi je suis curieux d'entendre pas mal de perspectives si des gens ont des expertises particulières dans certains métiers.

quel est le prochain métier sur la liste parce que je pense que c'est des trucs où il y a beaucoup de jeunes qui vont se poser les questions de dans quel secteur je vais pour être un peu à l'abri de tout ça quoi.

Pierre Vannier (51:02.226)
Ouais, c'est pas évident. Thomas, tu veux faire... Je te laisse faire la conclusion.

Thomas (51:09.242)
Merci beaucoup Maël, merci beaucoup Pierre, c'était un super épisode, je pense qu'on avait encore vraiment pas mal de questions. Pour moi, tu ouvert une boîte de Pandora, il y a vraiment plein de sujets, je suis vraiment content qu'on ait pu parler du hardware et des VLM. Et puis surtout, on se rend compte que la mise en production, n'est pas que la mise en production du code, il a aussi des objets à mettre en place, donc on n'a pas parlé de tout ce point-là. Merci beaucoup, merci Pierre, merci Maël, et on se retrouve très vite pour un prochain épisode. Salut !

Pierre Vannier (51:37.979)
Merci à vous deux, c'était top. Ciao. Bon bah super

Mael (51:39.438)
Merci.

Créateurs et invités

Pierre Vannier
Hôte
Pierre Vannier
Fondateur et PDG Flint, Dev Backend / IA, agitateur Tech ✨
Thomas Meimoun
Hôte
Thomas Meimoun
Machine Learning Engineer / Data Scientist
Maël Fabien
Invité
Maël Fabien
CEO & Co-founder @Biped.ai
#21 - Computer Vision et handicap : Une alliance pour plus d’autonomie
Diffusé par