Définitions

 

Dissemblance

Dissemblance est un nom féminin qui indique le manque de similitude entre deux entités, et indique – par extension -- une mesure des différences qui existent entre deux entités ou de l'hétérogénéité au sein d'une entité... Exemples [Littéraire]: La dissemblance de nos caractères fait que nous avons du mal à nous entendre. Cette ville est renommée pour la dissemblance de ses immeubles.

 

Mathématiquement, la dissemblance se définit comme une mesure de la distance entre 2 entités. On trouvera une application de cette définition dans Applications

 

Distance

En mathématiques, une distance est une application qui formalise l'idée intuitive de distance, c'est-à-dire la longueur de la partie de l'espace qui sépare deux points. On appelle distance sur un ensemble E une application d(a,b) définie sur le produit E2=E×E et à valeurs dans l'ensemble R+ des réels positifs, vérifiant les propriétés suivantes :

 

 

C'est par l'analyse des principales propriétés de la distance usuelle que Fréchet introduit la notion d'espace métrique, développée ensuite par Hausdorff. Elle introduit un langage géométrique dans de nombreuses questions d'analyse et de théorie des nombres.

 

Un ensemble E muni d'une distance d s'appelle un espace métrique.

 

Propriétés :

Si E est un sous-ensemble de F et si d : F×F → R+ est une distance sur F, alors la restriction de d à E×E est une distance sur E.

 

Si d1 et d2 sont respectivement des distances sur E1 et E2 et si F est le produit E1×E2, alors l'application d : F×F → R+ définie par d((a1,a2),(b1,b2))=d1(a1,b1) + d2(a2,b2) est une distance sur F.

 

Si d1 et d2 sont des distances sur E alors d1 + d2 aussi (d'après les deux points précédents, en identifiant E à la diagonale de E×E).

 

Dans un espace vectoriel normé , on peut toujours définir de manière canonique une distance d à partir de la norme. En effet, il suffit de poser :

 

En particulier, dans Rn, on peut définir de plusieurs manières la distance entre deux points, bien qu'elle soit généralement donnée par la distance euclidienne (ou 2-distance).

 

La distance euclidienne permet de généraliser l'application du théorème de Pythagore à un espace de dimension n. C'est la distance la plus « intuitive » (espace de la géométrie classique). La distance euclidienne vaut 0 pour deux lignes ou deux colonnes identiques, mais elle ne possède pas de borne supérieure. La distance euclidienne augmente à mesure que s'accroît le nombre de variables, et sa valeur dépend également de l'échelle de chacune des variables de sorte qu'en changeant simplement leur échelle, on peut obtenir des résultats très différents. Ce problème peut être évité en standardisant les variables.

 

Dans un espace unidimensionnel – ligne x'x – la distance d(A,B) entre 2 points A et B s'écrit :

d(A,B) = AB = |XB - XA|

 

Dans un espace bi-dimensionnel – un plan x'x, y'y –la distance d(A,B) entre 2 points A et B s'écrit :

 

La distance euclidienne multidimensionnelle d(p,q) entre deux points p et q s'écrit comme suit :

Le tableau ci-après en fournit un exemple d'application et montre que distance = dissemblance.

 

Tableau 1 : Répartition du nombre d'oiseaux de chaque espèce observés dans 4 sites (échantillons S1, S2, S3, S4)

 

Espèces

S1

S2

S3

S4

Cardinals

1

0

0

3

Roadrunners

1

0

0

0

Bluebirds

3

2

0

0

Phoebes

1

0

5

2

Titmices

0

9

6

0

Red-tails

1

0

0

0

Chickadees

20

1

1

0

Waxwings

66

0

0

0

 

Ce tableau peut être lu comme la description d'un espace à 4 dimensions (les colonnes), que l'on peut nommer « espace échantillons ». Chaque espèce d'oiseau est présente avec une fréquence donnée dans chaque échantillon. Cette fréquence peut être représenté par un point sur ​​un graphique dans lequel les axes sont des échantillons, après avoir divisé chaque nombre observé par le total de chaque colonne (resp. 93, 12, 12, 7), pour palier l'artefact lié aux différences de dimension des échantillons (standardisation des données).

 

Tableau 1bis : Données du tableau 1 standardisées

 

Espèces

S1

S2

S3

S4

Cardinals

0,01

0,00

0,00

0,60

Roadrunners

0,01

0,00

0,00

0,00

Bluebirds

0,03

0,17

0,00

0,00

Phoebes

0,01

0,00

0,42

0,40

Titmices

0,00

0,75

0,50

0,00

Red-tails

0,01

0,00

0,00

0,00

Chickadees

0,22

0,08

0,08

0,00

Waxwings

0,71

0,00

0,00

0,00

 

1,00

1,00

1,00

1

 

La distance euclidienne standardisée entre 2 points- échantillons indique le degré de dissemblance (différence) entre 2 échantillons, toutes espèces confondues. Ainsi la distance euclidienne entre les échantillons S1 et S2 est :

D12 = {[(0.01-0.00)2 +(0.01-0.00)2+(0.03-0.17)2+(0.01-0.00)2 +(0.00-0.75)2+(0.01-0.00)2+(0.22-0.08)2+(0.71-0.00)]2}0.5
D12 = [0.0001+0.0001+0.0196+0.0001+0.5625+0.0001+0.0196+0.5041]0.5
D12 = 1.1062000.5
ED12 = 1.0518

Le tableau 1 (fréquences) peut donc se résumer par la matrice de distances (dissimilarités) suivante :

 

Échantillon

1

2

3

4

1

0.0000

1.0518

0.9711

1.0265

2

1.0518

0.0000

0.5175

1.0573

3

0.9711

0.5175

0.0000

0.7854

4

1.0265

1.0573

0.7854

0.0000

 

Cette matrice symétrique indique que la distance entre un échantillon et lui-même est zéro, et que toutes espèces confondues, les échantillons les plus dissemblables sont – par ordre croissant de distance : S2 - S3 (0.5175), puis S3 - S4 (0.78), puis S2 - S3 (0.9711), puis S1 – S2, S1 - S4, S2 - S4 (1.0265, 1.0518, 1.0573) – très différents.

 

Distance du khi² : Pour pallier les inconvénients liés à l'utilisation de la distance euclidienne, il est possible d'utiliser la distance du khi² qui fait intervenir à la fois les sommes des colonnes et des lignes du tableau de données. Le calcul de la distance du khi² revient à calculer la distance euclidienne sur des données transformées selon : xij -> xij / (xi *x.j) avec xi. la somme sur les colonnes pour la ligne i et x.j la somme sur les lignes pour la colonne j. La distance du khi² satisfait au principe d'équivalence distributionnelle c'est-à-dire que la distance ne change pas entre les lignes ou entre les colonnes en remplaçant deux colonnes ou deux lignes de même profil par leur somme.

 

Le tableau 1 (fréquences) se résume alors ainsi en termes de distances du Khi2:

 

 

S1

S2

S3

S4

S1

0,0000

 

 

 

S2

0,2693

0,0000

 

 

S3

0,2911

0,2219

0,0000

 

S4

0,3880

0,4105

0,3615

0,0000

 

Le classement des distances est très voisin du précédent.

Contact

© 2014 Tous droits réservés.

Créer un site internet gratuitWebnode