Sémantique

La sémantique est l'étude de la signification linguistique à travers les langues. Branche centrale de la linguistique, la sémantique étudie notamment comment les expressions linguistiques sont construites à partir des différents constituants qui les composent, tels que les morphèmes, les mots et les phrases, et comment les significations de ces constituants s'articulent mutuellement. La sémantique peut se concentrer sur une langue spécifique, comme l'anglais ou le français, mais dans son sens le plus large, elle étudie les structures de sens pertinentes pour toutes les langues. En tant que discipline descriptive, elle vise à déterminer comment fonctionne le sens sans prescrire quelles significations doivent être associées à des expressions particulières. Certaines de ses questions clés sont "Comment les significations des mots se combinent-elles pour créer les significations des phrases ?", "Comment les significations sont-elles liées aux esprits des utilisateurs de la langue et aux choses auxquelles les mots se réfèrent ?", et "Quelle est la relation entre ce qu'une phrase signifie et les contextes dans lesquels elle est utilisée ?". Les principales disciplines impliquées dans la sémantique sont la linguistique, la sémiotique et la philosophie. En plus de sa signification en tant que champ d'étude général, le terme sémantique peut également se référer aux théories particulières de ce domaine, comme la sémantique formelle ou la sémantique lexicale, ainsi qu'à la signification d'expressions particulières, comme la sémantique du mot fée.

En tant que champ d'étude, la sémantique concerne deux aspects liés à la signification, l'un interne et l'autre externe. La partie interne s'intéresse à la connexion entre les mots ou les phrases et les phénomènes mentaux qu'ils évoquent, comme les idées et les représentations conceptuelles. La partie externe examine notamment comment les mots se réfèrent aux objets dans le monde et dans quelles conditions les phrases peuvent être vraies.

La sémantique contraste avec d'autres sous-champs de la linguistique axés sur des aspects distincts de la langue. La phonologie étudie les différents types de sons utilisés dans les langues et comment les sons sont connectés pour former des mots, tandis que la syntaxe examine les règles de formation permettant d'arranger les mots pour créer des phrases. La sémantique se distingue également de la pragmatique, qui s'intéresse à la manière dont les phrases sont utilisées dans la communication, et aux différentes inférences que les locuteurs dérivent du sens linguistique en contexte. Par contraste, la sémantique peut être définie comme l'étude du sens linguistique indépendant du contexte.

Étymologie

[modifier | modifier le code]

Le mot sémantique est dérivé du grec σημαντικός / sêmantikós, « qui signifie, qui indique, qui fait connaître[1] », lui-même formé à partir de σημαίνω / sêmaínô, « faire savoir, faire comprendre, expliquer[2] ». Il a été repris à la fin du XIXe siècle par le linguiste français Michel Bréal, auteur du premier traité de sémantique, Essai de sémantique paru en 1897[3],[4].

Différence entre l'analyse sémantique et l'analyse syntaxique

[modifier | modifier le code]

L'analyse syntaxique aussi bien que l'analyse sémantique en linguistique ont pour finalité de caractériser l'énoncé dans son ensemble, principalement par la détermination des structures de l'énoncé[5]. Dans les deux cas, la détermination des structures repose sur une caractérisation de ses éléments de base, les mots, et leurs propres constituants, mais de façon différente selon ces deux approches.

L'analyse syntaxique s'occupe des syntagmes, par rapport à une phrase. Il n'est pas possible de réaliser une analyse syntaxique du mot « petites » par exemple s'il n'est pas inclus dans une phrase, en relation avec d'autres mots compléments ou chefs de groupe.

L'analyse syntaxique peut ainsi être identifiée comme une analyse des structures fonctionnelles pouvant être obtenues au moyen de l'exercice des règles de la grammaire.

L'analyse sémantique de son côté s'intéresse à ces structures en observant les mécanismes propres à la construction du sens. Un sème est la plus petite unité de sens.

La sémantique peut s'intéresser à un mot pour le mot.

Exemple :

On analysera ainsi le mot « petites » :

PETIT (Adj. ⇒ qui n'est pas grand) + E (marque de féminin) + S (marque de pluriel) [PETIT – la base ou le radical du mot (signe lexical), E + S - sont des signes grammaticaux].

Pour le mot « petites », il y a donc trois sèmes.

À partir de ce même mot, d'autres analyses sont possibles sans forcément mettre en lumière un énoncé entier (cf. introduction).

La distinction entre analyse syntaxique et analyse sémantique qui est établie ici correspond à l'approche la plus répandue en linguistique contemporaine, celle qui hérite du structuralisme introduit par Ferdinand de Saussure[6]. On rencontrera les termes d'analyse structurale ou analyse componentielle employés comme équivalents pour signifier au plus directement l'approche utilisée pour effectuer l'analyse sémantique selon cette théorie. La structure est perçue comme directement sous-jacente à la phrase, cette dernière étant une structure ainsi qu'il est mis en évidence par la syntaxe ou la grammaire, et le mot étant considéré comme associé à ses traits sémantiques. D'autres approches, comme principalement la grammaire de dépendance de Lucien Tesnière, antérieure au structuralisme, réservent la qualification de structure au niveau syntaxique. Pour Tesnière, le niveau syntaxique est appelé plan structural tandis que le plan sémantique est considéré comme relevant de la psychologie, et également de la logique[7].

Applications à l'exploration de données

[modifier | modifier le code]

Les méthodes d'exploration de données permettent de dégager du sens d'un ensemble de données d'allure a priori disparates (voir aussi intelligence artificielle) et donc créent de la sémantique. La sémantique dégagée prend généralement trois formes (traduction par des signifiants formels) issues de l'intelligence artificielle :

  • le tableau ;
  • le graphe : réseau sémantique, réseau maillé d'objets, de concepts, etc  ;
  • l'arbre : cas particulier de graphe nécessitant une théorie et une exploitation spécifiques.

Ce sont des signifiants, au sens où ils représentent les connaissances. De telles structures sont ensuite annotées dans les données de départ, chaque donnée portant alors la marque de son appartenance à une branche de l'arbre, une case du tableau, etc. L'analyse reprend alors à un niveau de compréhension plus complexe.

La découverte des connaissances dans les bases de données

[modifier | modifier le code]

Toutefois, la machine ne manipulant que des signifiants, il est impératif que la démarche de forage de données fasse intervenir un expert humain du domaine. Celui-ci va restituer la sémantique extraite et lui donner du sens, de la valeur. Trois critères sont exhibés à cette fin :

  • Est-ce connu ?
  • Est-ce explicable ?
  • Est-ce utile ?

L'idéal est d'avoir un triplet NON/OUI/OUI[pourquoi ?].

Un tel projet est appelé « découverte des connaissances dans les bases de données », en anglais KDD, Knowledge Discovery in Databases.

Finalement, la sémantique extraite tient le rôle d'une cartographie de l'information, elle permet de situer les informations les unes par rapport aux autres. Ce rôle « cartographique » permet de stocker l'information, de la ranger et plus tard de la retrouver. Tout modèle, jeu de catégories, topique freudienne est alors de facto une cartographie de l'information, c'est-à-dire un contexte formalisé.

Ce sont en fait des données sur les données, des métadonnées. Des architectures informatiques spécifiques permettent de gérer ces métadonnées, on parle de client ou de serveur de métadonnées. Un système connu est le Dublin Core Metadata Initiative (DCMI).

Le Web sémantique est un projet du même type que DCMI, visant à créer, gérer et exploiter des métadonnées systématiques pour chaque page web. Ainsi, le contenu de chaque page web étant explicité vers des signifiants, la machine serait capable de raisonner sur la pertinence du contenu et non plus sur des statistiques lexicales. Cela peut avoir des conséquences remarquables sur les technologies de recherche d'informations, ainsi que l'allure et le fonctionnement des moteurs de recherche.

Cas particulier de la fouille textuelle

[modifier | modifier le code]

La fouille textuelle consiste à transformer un objet « texte » en un objet « tableau », « arbre » ou « graphe » à l'aide de traitements sémantiques ou syntaxiques puis à appliquer des techniques de fouille textuelle sur cet objet formalisé. Les résultats attendus sont généralement :

  • Le résumé automatique ;
  • L'indexation automatique ;
  • La génération d'index de livre (vedettes et sous-vedettes) ;
  • L'extraction et la cartographie de concepts ;
  • La classification automatique ;
  • Le rapprochement entre textes.

L'approche sémantique a une littérature plus féconde que l'approche syntaxique : même si cette dernière a des résultats supérieurs, les ressources de calcul demandées font souvent pencher la balance en faveur de l'analyse sémantique.

L'analyse sémantique transforme un ensemble de textes en une matrice lexicale :

  • En ligne, chaque texte ;
  • En colonne, chaque mot-clé apparaissant au moins une fois dans l'un des textes ;
  • Dans les cases, un ratio numérique mesurant à la fois la fréquence d'apparition d'un mot-clé dans un texte et la fréquence d'apparition du mot-clé dans le corpus.

Cas particulier des ontologies

[modifier | modifier le code]

Le terme « ontologie » a une signification philosophique, mais en gestion des connaissances, il représente la forme probablement la plus évoluée de représentation sémantique des connaissances.
Il s'agit d'une sorte de « superthésaurus » destiné à indexer toutes les productions documentaires, stockées, entrantes ou sortantes dans un groupe social donné, typiquement une entreprise. Ainsi, un courrier électronique, un ouvrage de référence, un document de travail partageant les mêmes thèmes seront automatiquement mis en lien, donc mis en contexte, dégageant ainsi des connaissances sémantiques.
La structuration d'une ontologie est pratiquement un métier en soi, à l'instar de la conception et de la maintenance des thésaurus de bibliothèques. La construction est toujours collective et par agglomération de domaines de compétence.

L'articulation de base d'une ontologie est la suivante :

  • C'est un arbre sémantique ;
  • Chaque mot-clé est affublé de lexicons : synonymes, homonymes, hyperonymes, homophonies traduction dans d'autres langues, etc. Ce micro-réseau autour d'un mot-clé est appelé concept ou classe ;
  • Chaque concept est à considérer comme une catégorie de thésaurus, donc avec des catégories plus larges ou plus étroites. Ce lien d'appartenance est interprété comme un lien logique ;
  • Chaque concept peut avoir des instances, soit des éléments appartenant à cette catégorie.

Exemple : OISEAU > AIGLE {aigle royal}. La machine peut alors inférer que l'aigle royal est un oiseau.

  • Les liens entre concepts peuvent être beaucoup plus complexes que la simple subordination, sortant ainsi du cadre du thésaurus. Si les concepts sont assimilables à des groupes nominaux, les liens sont assimilables à des groupes verbaux : on regroupe ces liens en catégories de liens. La structure du réseau est parfois appelée topic map.

En pratique, on pourrait ainsi traduire automatiquement un manuel d'histoire en ontologie, en considérant cinq types de concepts (date, lieu, événement, personne physique, personne morale) et une trentaine de catégories de liens verbaux.

  • En plus des lexicons, les instances peuvent pointer vers des ressources ou URI. Généralement, ce sont les documents que l'on cherche à indexer.

Pour la machine, raisonner sur les connaissances ainsi représentées revient à « se promener » dans le réseau de concepts, à la manière d'un réseau routier. Il existe des algorithmes spécifiques, par exemple les chercheurs de chemins (Pathfinder), qui cherchent le plus court chemin d'un concept à l'autre en respectant un critère d'économie : « plus petit nombre de concepts », « plus grand nombre de langues », « plus grand nombre de synonymes », etc. Les résultats peuvent être spectaculaires, surtout si l'on garde présent à l'esprit que le point de départ et le point d'arrivée ne sont pas les concepts, mais bien les URI indexés (documents de l'entreprise).

Bibliographie

[modifier | modifier le code]

Document utilisé pour la rédaction de l’article : document utilisé comme source pour la rédaction de cet article.

Articles connexes

[modifier | modifier le code]

Sur les autres projets Wikimedia :

Liens externes

[modifier | modifier le code]

Notes et références

[modifier | modifier le code]
  1. Anatole Bailly ; 2020 : Hugo Chávez, Gérard Gréco, André Charbonnet, Mark De Wilde, Bernard Maréchal & contributeurs, « Le Bailly », (consulté le ).
  2. Anatole Bailly ; 2020 : Hugo Chávez, Gérard Gréco, André Charbonnet, Mark De Wilde, Bernard Maréchal & contributeurs, « Le Bailly », (consulté le ).
  3. Grossmann 2008, p. 222.
  4. Bréal 1897.
  5. Clive Perdue et José Deulofeu, « La structuration de l'énoncé : étude longitudinale », Langages, vol. 21, no 84,‎ , p. 43–63 (DOI 10.3406/lgge.1986.1519, lire en ligne, consulté le )
  6. http://www.unil.ch/webdav/site/ling/shared/IntroductionLing/Serra/Intr.a_la_ling.Cours_n_8.pdf.
  7. M. Arrivé, Les Éléments de syntaxe structurale de Lucien Tesnière, Langue française, 1969, p. 36-40.