Comment pouvez-vous expliquer la Décomposition en Valeurs Singulières aux non-spécialistes des mathématiques Stack échange

Une grande partie de l'algèbre linéaire est sur les opérateurs linéaires. qui est, d'une transformation linéaire de l'espace lui-même. Un résultat typique est que, en choisissant une base appropriée pour l'espace, l'opérateur peut être exprimé sous une forme simple de la matrice, par exemple, en diagonale. Toutefois, cela ne vaut pas à tous les opérateurs.







Cette réponse tente de donner une intuition simple, algébrique. On suppose $ A $ est un m $ \ n fois la matrice réelle $. Soit $ A = U \ Sigma V ^ T $ soit le SVD de $ A $. Supposons que le rang de $ A $ est égal à $ r. $ Ensuite, les premières valeurs singulières $ r $ sera non nul, alors que les valeurs singulières restantes seront nuls.

Une valeur singulière $ \ sigma_k $ indique que la contribution de la transformation correspondante $ u_k v_k ^ T $ est grande et une petite valeur singulière indique que la contribution correspondant à l'action de $ A $ est petite. Comme application de cette intuition, il y a des cas où par exemple $ A $ est une matrice complète carrée de rang, par conséquent, il n'a pas de zéro valeurs singulières, mais un seuil est choisi et tous les termes de la somme $ A = \ sum_ ^ r \ sigma_i u_i v_i ^ T $ correspondant à des valeurs singulières moins que cela seuil sont rejetées. De cette façon, $ A $ est approchée par une matrice plus simple $ \ tilde $, dont le comportement est, pour des raisons pratiques, essentiellement les mêmes que celle de la matrice d'origine.

Il pourrait également aider à visualiser l'action de $ A $ sur un vecteur $ x $ au moyen de la formule ci-dessus: Ax = $ \ sum_ ^ r (\ sigma_i \ langle v_i, x \ rangle) u_i $. Notez que l'image de $ x $ est une combinaison linéaire des vecteurs $ $ u_i et les coefficients dépendent à la fois l'amplitude des valeurs singulières correspondantes ainsi que les directions des vecteurs v_i $ $ par rapport à $ x $. Par exemple, si $ x $ est orthogonal à tous les $ v_i $ pour $ i $ tels que $ \ sigma_i \ neq 0 $, puis Ax $ = 0 $. D'autre part, si x = $ v_k $ pour un k $ $ tel que $ \ sigma_k \ neq 0 $, puis $ Av_k = \ sigma_k u_k $.







Si vous voulez expliquer ce que le SVD signifie intuitivement. alors je pense que la meilleure façon d'expliquer est de penser des vecteurs singuliers $ u, v $ comme base orthogonalisation le domaine et codomaine de la transformation linéaire, respectivement, de sorte qu'il se aligne avec la façon dont la matrice $ A $ « permette d'obtenir » son rang. La plus grande valeur singulière, $ \ $ sigma_1, correspond à la meilleure façon de rapprocher le comportement de $ A $ par une matrice de rang 1, et ce problème est précisément donné par $ Av_1 = \ sigma_1 U_1 $. De même, si vous voulez approcher $ A $ par une matrice de rang 2, le comportement sous-jacent est donnée par $$ A (c_1 v_1 + c_2 v_2) = c_1 \ sigma_1 U_1 + c_2 \ sigma_2 U_2. $$ En général, en utilisant les k $ plus grandes valeurs singulières $ et correspondant vecteurs singuliers vous donne un moyen de mieux expliquer le comportement de $ a $ en utilisant seulement un rang $ opérateur k $. En outre, la taille des valeurs singulières vous indique comment $ A $ « élargit » longueurs le long de directions différentes.

La meilleure façon d'expliquer SVD à un non-initiés est qu'il est un moyen de combiner des informations de plusieurs (probablement) vecteurs corrélés, et formant des vecteurs de base qui sont garantis pour être orthogonaux dans l'espace de dimension supérieure et expliquer la majeure partie de la variance dans les données .

Consultez ma réponse stackoverflow qui tente d'expliquer ce que signifie la réduction dimensionnalité à un non-initiés.

L'explication de mon profane est de considérer la mise en correspondance inverse en 2 dimensions:

Considérons les 2 vecteurs indépendants situés dans un plan. à la fois à partir de l'origine. Faire tourner les vecteurs selon un angle arbitraire (a), de sorte que les vecteurs se trouvent au-dessus et au-dessous de l'axe x, et surtout de sorte que le vecteur avec la plus grande valeur de x a une valeur absolue y inférieur à l'autre. Les 2 points se situeront à la limite d'une ellipse centrée sur l'origine.

L'échelle de l'ellipse (et 2 vecteurs) à un cercle unité et inspecter l'angle entre les deux vecteurs (unité).

Faire varier l'angle a de la rotation et répéter la mise à l'échelle jusqu'à ce que les vecteurs unitaires mises à l'échelle sont orthogonaux.

Enfin tourner les vecteurs unitaires par angle b jusqu'à ce que la correspondent à i et j.

a, b et les paramètres de mise à l'échelle définissent la SVD (en fait l'inverse).







Articles Liés