Ray Solomonoff

Ray Solomonoff
une illustration sous licence libre serait bienvenue
Biographie
Naissance
Décès
(à 83 ans)
CambridgeVoir et modifier les données sur Wikidata
Nationalité
Formation
Glenville High School (en)Voir et modifier les données sur Wikidata
Activités
Famille
  • Phillip Julius Solomonoff (Père),
  • Sarah Mashman (mère)
Conjoint
Grace Solomonoff (d) (à partir de )Voir et modifier les données sur Wikidata

Ray J. Solomonoff, né le à Cleveland, Ohio (États-Unis) et mort le d'une rupture d'anévrisme, est un informaticien et chercheur américain.

Il est connu pour être à l'origine du concept de probabilité algorithmique et des premières approches d'apprentissage automatique probabiliste en intelligence artificielle.

Biographie[modifier | modifier le code]

Vie et travaux jusqu'en 1964[modifier | modifier le code]

Ray Solomonoff est né le à Cleveland, Ohio, fils d'immigrants juifs russes, Phillip Julius et Sarah Mashman Solomonoff. Il a fréquenté l'école secondaire de Glenville, où il a obtenu son diplôme en 1944. En 1944, il a rejoint la marine américaine en tant qu'instructeur en électronique. De 1947 à 1951, il a étudié à l’Université de Chicago, avec des professeurs tels que Rudolf Carnap et Enrico Fermi, et a obtenu un master (MSc) de physique en 1951.

Dès son plus jeune âge, il était motivé par le plaisir de la découverte en mathématiques et par le désir d'explorer des questions que personne n'avait abordées auparavant. À l'âge de 16 ans, en 1942, il commence à rechercher une méthode générale pour résoudre des problèmes mathématiques. Il a écrit trois articles, dont deux avec Anatol Rapoport, en 1950-1952, qui sont considérés comme la plus ancienne analyse statistique de réseaux[1].

En 1952, il rencontra Marvin Minsky, John McCarthy et d'autres personnes intéressées par l'intelligence artificielle. En 1956, Minsky, McCarthy et d'autres organisèrent la conférence de Dartmouth, où Ray Solomonoff était l'un des 10 principaux invités -- lui-même, McCarthy et Minsky furent les seuls à rester pendant toute la conférence. On considère souvent cette conférence comme étant la naissance de l'Intelligence artificielle en tant que science autonome[2],[3]. Les ordinateurs de l'époque pouvaient résoudre des problèmes mathématiques très spécifiques, mais pas grand-chose d'autre. Pour sa part, Solomonoff se demandait comment rendre les machines plus intelligentes et comment utiliser les probabilités à cette fin. Il considérait l’apprentissage automatique comme une méthode probabiliste, mettant l’accent sur l’importance des séquences d’entraînement et sur l’utilisation partielle de solutions précédentes pour résoudre des problèmes de construction de solutions d’essai pour de nouveaux problèmes. Il a publié une version de ses conclusions en 1957 qui furent les premières proposant une approche probabiliste de l'apprentissage automatique[4].

À la fin des années 1950, il a inventé les langages probabilistes et leurs grammaires associées[5]. Un langage probabiliste attribue une valeur de probabilité à chaque chaîne possible. La généralisation de ce concept l'amène à découvrir en 1960 la probabilité algorithmique et la théorie générale de l'inférence inductive.

Avant les années 1960, la méthode dominante de calcul des probabilités était fréquentiste (nombre de résultats favorables par rapport au nombre total d'essais). Dans sa publication de 1960, et plus complètement dans ses publications de 1964, Solomonoff a sérieusement revu cette définition de la probabilité. Il a appelé cette nouvelle forme de probabilité « probabilité algorithmique » et a montré comment l'utiliser pour la prédiction dans sa théorie de l'inférence inductive. Dans le cadre de ce travail, il a établi le fondement philosophique de l'utilisation de la règle de causalité de Bayes pour la prédiction.

Le théorème de base de ce que l'on a appelé plus tard la Complexité de Kolmogorov faisait partie de sa Théorie Générale. En 1960, il écrit: « Considérons une très longue séquence de symboles... Nous considérerons une telle séquence de symboles comme "simple" et ayant une probabilité a priori élevée, s’il existe une très brève description de cette séquence - en utilisant, bien sûr, une sorte de méthode de description stipulée. Plus précisément, si nous utilisons uniquement les symboles 0 et 1 pour exprimer notre description, nous attribuerons la probabilité 2 - N à cette séquence de symboles si sa description binaire la plus courte possible contient N chiffres »[6]. Cette probabilité est liée à une machine de Turing universelle particulière. Solomonoff a démontré en 1964 que le choix de la machine, à un facteur constant près, ne modifiait pas beaucoup les rapports de probabilité. Ces probabilités sont indépendantes de la machine.

En 1965, le mathématicien russe Kolmogorov découvrit indépendamment et publia des idées similaires. Lorsqu'il prit connaissance du travail de Solomonoff, il reconnut l'antériorité de ses travaux et, pendant plusieurs années, le travail de Solomonoff a été mieux connu en Union soviétique que dans le monde occidental. Le consensus général dans la communauté scientifique était toutefois d'associer ce type de complexité à Kolmogorov, qui était plus préoccupé par le caractère aléatoire d'une séquence. La probabilité algorithmique et l'induction universelle ont été associées à Solomonoff, qui se concentrait sur la prédiction, c'est-à-dire l'extrapolation d'une séquence.

Plus tard dans la même publication de 1960, Solomonoff décrit son extension de la théorie du code le plus court. C'est la Probabilité algorithmique: « Il semblerait que s’il existe plusieurs méthodes différentes pour décrire une séquence, chacune d’elles devrait recevoir un "certain" poids dans la détermination de la probabilité de cette séquence »[7]. Il montre ensuite comment cette idée peut être utilisée pour générer la distribution universelle de probabilité a priori et comment elle permet l'utilisation de la règle de Bayes dans l'inférence inductive. L'inférence inductive, en additionnant les prédictions de tous les modèles décrivant une séquence particulière, en utilisant des poids appropriés basés sur les longueurs de ces modèles, obtient la distribution de probabilité pour l'extension de cette séquence. Cette méthode de prévision est depuis connue sous le nom d'induction de Solomonoff. Il développa sa théorie en publiant un certain nombre de rapports qui avaient précédé les publications en 1964. Les articles de 1964 décrivaient plus en détail la probabilité algorithmique et l'induction de Solomonoff, en présentant cinq modèles différents, y compris le modèle qui sera plus tard appelé appelé Distribution Universelle.

Travaux de 1964 à 1984[modifier | modifier le code]

D'autres scientifiques qui avaient assisté à la conférence d'été de Dartmouth en 1956 (tels que Newell et Simon) développaient la branche de l'intelligence artificielle qui utilisait des machines régies par des règles de type « si-alors », basées sur des faits. Solomonoff développait la branche de l'intelligence artificielle axée sur les probabilités et les prédictions. Sa vision spécifique de l'intelligence artificielle décrit les machines régies par une distribution de « probabilité algorithmique ». La machine génère des hypothèses ainsi que leurs probabilités associées pour résoudre des problèmes et, à mesure que de nouveaux problèmes et théories se développent, met à jour la distribution de probabilité sur les hypothèses. En 1968, il trouve une preuve de l'efficacité de la « probabilité algorithmique »[8], mais principalement en raison d'un manque d'intérêt général à cette époque, ne la publia que 10 ans plus tard. Dans son rapport, il a publié la preuve du théorème de convergence.

Travaux durant les dernières années[modifier | modifier le code]

Distinction reçues[modifier | modifier le code]

Voir aussi[modifier | modifier le code]

Articles connexes[modifier | modifier le code]

Références[modifier | modifier le code]

  1. "An Exact Method for the Computation of the Connectivity of Random Nets", Bulletin of Mathematical Biophysics, Vol 14, p. 153, 1952.
  2. Solomonoff, R.J.The Time Scale of Artificial Intelligence; Reflections on Social Effects, Human Systems Management, Vol 5 1985, Pp 149-153
  3. Moor, J., The Dartmouth College Artificial Intelligence Conference: The Next Fifty years, AI Magazine, Vol 27, No., 4, Pp. 87-9, 2006
  4. An Inductive Inference Machine", IRE Convention Record, Section on Information Theory, Part 2, pp. 56–62.PDF
  5. "A Progress Report on Machines to Learn to Translate Languages and Retrieve Information", Advances in Documentation and Library Science, Vol III, pt. 2, pp. 941–953. (Proceedings of a conference in Sept. 1959.)
  6. "A Preliminary Report on a General Theory of Inductive Inference", 1960 p. 1
  7. "A Preliminary Report on a General Theory of Inductive Inference", 1960, p. 17
  8. "Complexity-based Induction Systems, Comparisons and convergence Theorems" IEEE Trans. on Information Theory Vol. IT-24, No. 4, pp.422–432, July,1978. (pdf version)
  9. (en) http://www.kolmogorov.clrc.rhul.ac.uk/pastwinners.html

Liens externes[modifier | modifier le code]