SEO - Méthodes d’Optimisation pour les moteurs de recherche
Cours SEO 03 avril 2020
Introduction
Petit historique
1945: Vannerbush -> MEMEX
1957: Mec d’IBM ->
60-70: Gerard Salton (Cornell) -> IR, Modèle vectoriel
Il a créé un algo utilisé aux années 2000
Très utilisé car continuité
1989: Tim Berners-Lee invente le web (www)
Le bouquin Alexandria à lire
Quentin Jardon
1991:
Le www est rendu public
1990: Les moteurs de recherche commencent à apparaitre
Archie (Alan Emtage - McGill)
1994: Lycos
Premier gros moteur de recherche
1994: Moteur de recherche Yahoo (Stanford)
1995: Moteur de recherche Altavista (par Louis Monier)
1998: Moteur de recherche Google (Brin et Larry Page)
Bouquin sur Google “In the plex”
Brin a mis en place les enchères au second prix pour les pubs
les enchères Vickrey
1998 - 2010: Moteur de recherche MSN Search / Bing
2013: Moteur de recherche Qwant
Hector Garcia-Molina et Leslie Lemporte et Vandamme (qui a bossé sur la synthèse d’image)
Les “nouveaux”:
Yann Lecun (directeur scientifique de Facebook)
Geoffrey Hinton
Yoshua Bengio
Andrew Ng
Les pères du machine learning
Le vrai “nouveau”:
Algo qui défonce tout depuis 1970 -> Word2Vec
Fasttext -> algo de chez Facebook
Faiss (je sais pas ce que c’est)
Définitions
Moteur de recherche: site dont la vocation est de renvoyer des résultats pertinents pour une requête donnée
Web: un grand graphe
Un besoin informationnel est un sujet sur lequel un utilisateur veut se renseigner:
C’est parfois mal défini, ambigu
si la requête est Paris, quel besoin avons nous ? La ville de Paris ? Les paris ? Paris Hilton ?
Il est différent potentiellement pour chaque personne
Une requête, c’est ce que l’utilisateur écrit pour communiquer son besoin informationnel
ce qui compte ce n’est pas ce que l’on a écrit mais ce que l’on aurait dû écrire si on savait bien écrire
un document est pertinent pour une requête s’il répond au besoin info sous-jacent
Une SERP (search engine result page)
les dix premières pages de pages web mise en avant
Des chiffres
85% des gens s’arrêtent à la première page de résultats de Google
75% des requêtes ne sont pas reformulées
Schema global du moteur
page 24 du pdf
Learning to rank
Ranknet
fait une pondération arbitraire et créé des classements
algo qui calibre le moteur de recherche pour avoir une pondération des pages qui satisfait les utilisateurs (reçoit un feedback des utilisateurs en fonction de ce qu’ils ont cliqué/visité pour ajuster)
il est là pour arbitrer tous les signaux
Indexation par le crawl
Recuperation de la page par le bot (résolution DNS):
Copie du DNS si on peut (on crawl beaucoup plus vite que si on doit aller le chercher à l’extérieur -> ~50 fois plus vite)
Kyle Rush a completement refait l’infrastructure du site de Barack Obama
RUM: Real User Monitoring
Cloudflare
Akamai
Impact sur le SEO
Faciliter la vie du crawler
Un bon crawler doit etre:
rapide -> moins cher en cout serveur
qualitatif
Rapidité
si un site se charge 2x plus vite, on coute moins cher à Google
mieux pour l’utilisateur
améliore son référencement
En 2017, Neil Patel et Ahref ont fait des mesures sur ~144 000 sites pour essayer de comprendre le référencement:
TTFB: Time To First Byte -> 0.85 sec
quand je commence à demander une ressource web à un serveur distant, c’est au bout de cb de temps je recois son premier acknowledgment
Start render -> 2.23 sec
le moment à partir duquel qqchose apparait sur la page web
Visually complete -> 10.44 sec
au bout de cb de temps, tout ce qui doit etre affiché est affiché sur la page (tout ce qui est chargé après, c’est du script qui n’implique de modifs visuelles)
Doc complete -> 2.12 sec
tout le javascript a fini de chargé
Fully loaded -> 4.13 sec
j’ai attendu qques secondes pour m’assurer qu’il n’y a pas de script qui pop/se réactive d’un coup
Améliorer la vitesse de chargement
pour la conversion avant tout (viser 1.5 sec)
pour le start render (viser 1 sec)
TTFB -> viser 250ms (Google conseille de faire < 300ms)
FIXME
A lire
Timing dans video
SEO - Méthodes d’Optimisation pour les moteurs de recherche
Introduction
Petit historique
Définitions
Des chiffres
Schema global du moteur
page 24 du pdf
Learning to rank
Indexation par le crawl
Misc
Impact sur le SEO
Faciliter la vie du crawler
Un bon crawler doit etre:
Rapidité
En 2017, Neil Patel et Ahref ont fait des mesures sur ~144 000 sites pour essayer de comprendre le référencement:
Améliorer la vitesse de chargement
Analyser la vitesse de chargement
Optimiser le temps de parcours
Optimiser le front end
Optimiser le back end
Analyser les logs
Suivre GoogleBot en temps reel
Qualité
Pas d’interet a crawler des pages inutiles
Qualité minimale au moment du crawl
La qualité minimale au moment du crawl est caractérisée par la quantité de contenu qui permet d’indexer la page.
Eviter l’indexation
Duplicate content
DUST: Duplicate Url, Same Text
Near Duplicate et Full Duplicate
Le Full Duplicate n’existe pas (ou presque).
30% du web sont en Near Duplicate
Detecter le Near Duplicate
1*
Fonction de hachage: simhash par Moses Charikar (fast murmur transform)
L’idée
Si taux de duplication > 0.8 alors Alerte Duplication.
Dépend du type de site:
Shingles
Exemple de 3 shingles
Luke, je suis ton pere!
les shingles:
Le document est représenté par un ensemble de 3-shingles.
2*
Les signaux utilisateurs pour optimiser le ranking
Learning to rank
Calcul la pondération des signaux
En 2008, Amit Singhal -> 200 signaux
De nombreux signaux:
Voir pdf page 80
cosinus Y: pertinence de la page par rapport à la requete
Pertinence implicite
Mesure de qualité:
Pour le SEO
Le SEO a deux leviers pour augmenter la qualité perçue par le moteur:
Les pageranks et les surfeurs aléatoires
Pagerank, la vision classique
Visualiser la PageRank
Les Panama papers
modele du surfeur raisonnable, prend en compte la proba qu’un lien est cliqué par rapport à un autre
masquage thématique
C’est possible de prendre en compte la sémantique des liens.
Le pagerank vers un pagerank sémantique
Approches:
Le surfeur intelligent
indice de continuité sémantique
Misc:
Résultats expérimentaux:
Le surfeur intelligent est trop coûteux donc difficilement implémentable.
Curlie
SERPs: Search Engine Results Page
Cocon semantique
-> entourage de pages
c’est du netlinking
**Un document est pertinent pour une requête s’il répond au besoin informationnel sous-jacent.
reprendre le cours
Expansion de Rochio
Traitement des requêtes
La requête est le goulot d’etranglement pour ameliorer l’experience de recherche.
Problemes divers:
Le moteur va faire du raffinement et de l’expansion de requête.
Raffinement de requete: Modifier des mots de la requete par d’autres
Expansion de requete: Ajout de mots a la requete
5 à 10% des utilisateurs qui partiraient du navigateur si on leur disait qu’on modifie leurs requetes
Approches les plus efficaces
Humming bird
Relevance feedback
Gros probleme ~~~ (27 min de video)
Impact SEO: requete q -> corpus sur la thematique de q -> compter les documents de q -> co-occurence de q -> ~~~
Vecteurs de contexte
-> embarquent de la sémantique
Vulgarisation de reseaux de neurones: https://twitter.com/gabrielpeyre/status/1255808297460027393?s=20
Le Knowledge Graph
-> base de connaissances mise en place en 2012
Google l’utilise pour de la désambiguisation
Les fermes de liens
Prédiction et penguin - 2h20 ()
Notes de cours revisitées