:hammer: FIXME
:books: A lire
:movie_camera: Timing dans video

SEO - Méthodes d’Optimisation pour les moteurs de recherche


Cours SEO 03 avril 2020

Introduction

Petit historique

Définitions

Des chiffres

Schema global du moteur

page 24 du pdf

Learning to rank

Indexation par le crawl

  1. Recuperation de la page par le bot (résolution DNS):
  1. Analyse syntaxique du contenu de la page
  2. Contenu déjà vu ?
  3. Filtre à URIs
  4. Elimination des URIs en duplication
  5. Frontières des URIs déjà vues

Misc

Impact sur le SEO

Faciliter la vie du crawler

Un bon crawler doit etre:

Rapidité

En 2017, Neil Patel et Ahref ont fait des mesures sur ~144 000 sites pour essayer de comprendre le référencement:

Améliorer la vitesse de chargement

Analyser la vitesse de chargement

Optimiser le temps de parcours

Optimiser le front end

Optimiser le back end

Cours du 16 avril 2020

Analyser les logs

Suivre GoogleBot en temps reel







%0



pw

Page web



bp

Brique PHP



pw->bp





mp

Measurement Protocol



bp->mp





ga

Google Analytics



mp->ga





c

Consultation



c->ga





Qualité

Pas d’interet a crawler des pages inutiles

Qualité minimale au moment du crawl

La qualité minimale au moment du crawl est caractérisée par la quantité de contenu qui permet d’indexer la page.

Eviter l’indexation

Type Directive crawl indexation
robots.txt disallow non parfois
robots.txt noindex non non
meta robots (x-robots-tag) noindex, follow oui non
meta rel (ou en header) canonical oui page cible (souvent)

Duplicate content

DUST: Duplicate Url, Same Text

Near Duplicate et Full Duplicate

Le Full Duplicate n’existe pas (ou presque).

30% du web sont en Near Duplicate

Detecter le Near Duplicate

1*

Fonction de hachage: simhash par Moses Charikar (fast murmur transform)

L’idée







%0



da

Doc A



sa

Ensemble des Shingles de A = S(A)



da->sa





db

Doc B



sb

Ensemble des Shingles de B = S(B)



db->sb





j

Jaccard



sa->j





sb->j





t

~ Taux de duplication



j->t





Si taux de duplication > 0.8 alors Alerte Duplication.
Dépend du type de site:

Shingles

Exemple de 3 shingles

Luke, je suis ton pere!
les shingles:

2*

Les signaux utilisateurs pour optimiser le ranking

Learning to rank

Calcul la pondération des signaux
En 2008, Amit Singhal -> 200 signaux

De nombreux signaux:

Voir pdf page 80
cosinus Y: pertinence de la page par rapport à la requete

Pertinence implicite

Mesure de qualité:

Pour le SEO

Le SEO a deux leviers pour augmenter la qualité perçue par le moteur:

Les pageranks et les surfeurs aléatoires

Pagerank, la vision classique

Visualiser la PageRank

Les Panama papers

modele du surfeur raisonnable, prend en compte la proba qu’un lien est cliqué par rapport à un autre

masquage thématique

C’est possible de prendre en compte la sémantique des liens.

Cours du 17/04/2020

Le pagerank vers un pagerank sémantique

Approches:

Le surfeur intelligent

indice de continuité sémantique

Misc:

Résultats expérimentaux:

Le surfeur intelligent est trop coûteux donc difficilement implémentable.

Curlie
SERPs: Search Engine Results Page

Cocon semantique

-> entourage de pages

c’est du netlinking

**Un document est pertinent pour une requête s’il répond au besoin informationnel sous-jacent.

:hammer: reprendre le cours

Expansion de Rochio

Cours du 30/04/2020

Traitement des requêtes

La requête est le goulot d’etranglement pour ameliorer l’experience de recherche.

Problemes divers:

Le moteur va faire du raffinement et de l’expansion de requête.

Raffinement de requete: Modifier des mots de la requete par d’autres
Expansion de requete: Ajout de mots a la requete

5 à 10% des utilisateurs qui partiraient du navigateur si on leur disait qu’on modifie leurs requetes

Approches les plus efficaces

Humming bird

Relevance feedback

:hammer: :movie_camera:
Gros probleme ~~~ (27 min de video)

Impact SEO: requete q -> corpus sur la thematique de q -> compter les documents de q -> co-occurence de q -> ~~~

Vecteurs de contexte

-> embarquent de la sémantique

:books: Vulgarisation de reseaux de neurones: https://twitter.com/gabrielpeyre/status/1255808297460027393?s=20

Le Knowledge Graph

-> base de connaissances mise en place en 2012
Google l’utilise pour de la désambiguisation

Les fermes de liens

Prédiction et penguin - 2h20 (:movie_camera:)


Notes de cours revisitées