Kuinka indeksoida suuri sivusto ja poimia tietoja käyttämällä Screaming Frog's SEO Spider -ohjelmaa
Autamme tällä hetkellä useita asiakkaita Marketo-migraatioissa. Koska suuret yritykset hyödyntävät tällaisia yritysratkaisuja, se on kuin hämähäkinverkko, joka kutoutuu prosesseihin ja alustoihin vuosien kuluessa, kunnes yritykset eivät edes ole tietoisia kaikista kosketuspisteistä.
Marketon kaltaisella yritysmarkkinoinnin automaatioalustalla lomakkeet ovat tietojen syöttöpiste sivustoilla ja aloitussivuilla. Yrityksillä on usein tuhansia sivuja ja satoja lomakkeita sivustoissaan, jotka on tunnistettava päivitystä varten.
Hyvä työkalu tähän on Huutavan sammakon SEO-hämähäkki... kenties suosituin alusta hakukoneoptimointimarkkinoiden indeksoimiseen, tarkastamiseen ja tietojen poimimiseen sivustosta. Monipuolinen alusta tarjoaa satoja vaihtoehtoja lähes kaikkiin tarvitsemiisi tehtäviin. Ominaisuudet ulottuvat paljon pidemmälle kuin optimointi hakua varten, mutta yksi uskomattoman hyödyllinen ominaisuus poimii tietoja sivustostasi sen indeksoinnin aikana.
Huutava sammakko SEO Spider: Indeksoi ja poimi
Screaming Frog SEO Spiderin keskeinen piirre on, että voit suorittaa mukautettuja uutteita sen perusteella regex, XPathtai CSSPath yksityiskohtia. Tämä on erittäin hyödyllistä, koska haluamme indeksoida asiakkaan sivustot ja tarkastaa ja kaapata MunchkinID- ja FormId-arvot sivuilta.
Avaa työkalu Kokoonpano> Mukautettu> Pura tunnistaa elementit, jotka haluat purkaa.
Puraamisnäyttö mahdollistaa käytännössä rajoittamattoman tiedonkeruun:
Regex-, XPath- ja CSSPath-purku
MunchkinID:n tunniste sijaitsee sivulla olevassa lomakekoodissa:
<script type='text/javascript' id='marketo-fat-js-extra'>
/* <![CDATA[ */
var marketoFat = {
"id": "123-ABC-456",
"prepopulate": "",
"ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
"popout": {
"enabled": false
}
};
/* ]]> */
Sitten käytämme a Regex-sääntö kaapata tunnus sivulle lisätyn komentotunnisteen sisällä:
Regex: ["']id["']: *["'](.*?)["']
Lomaketunnuksen tiedot ovat Marketo-lomakkeen syöttötunnisteessa:
<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">
Käytämme XPath-sääntö kaapataksesi tunnuksen sivulle lisätyn lomakkeen sisältä. XPath-kysely etsii lomaketta, jonka syötteen nimi on pelokas, sitten uuttaminen tallentaa arvo:
XPath: //form/input[@name="formid"]/@value
Pura upotetut tyylitunnisteet
Autamme asiakasta siivoamaan sivuston, jossa hän käytti Elementor-laajennuksen upotettuja tyylejä mukauttaakseen käytännössä kaikkia sivun elementtejä. Selvittääksemme, missä sisäisiä tyylejä käytettiin, raavimme sivuston useilla RegEx-säännöillä mukautettua purkamista varten:
- Sisäänrakennettu tyyli:
<span\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Ankkuritunnisteen upotettu tyyli:
<a\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Div Tag Inline Style:
<div\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Otsikkotunnisteen upotettu tyyli:
<h+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
Poikkeukset
At Martech Zone, palvelemme sivustoa useilla kielillä eri aliverkkotunnuksissa. Näiden käännösten indeksointi ei ole välttämätöntä, koska kaikki resurssit ja tiedot perustuvat ydinsivustoon. Tästä syystä otimme poissulkemisluettelon määrityksen käyttöön ja lisäsimme seuraavan säännön:
.*\.martech.zone
Tämän avulla voit myös ohittaa tarpeettomien polkujen, kuten tunnisteiden, indeksoinnin lisäämällä:
martech.zone/tag/.*
Emme myöskään halua indeksoida AMP-sivujamme, jotka päättyvät ?amp=1
, joten
https?://[^\s]+?\?amp=1
Alustalla on jopa mukava tapa testata joitain URL sääntöjen vastaisia varmistaaksesi, että ne toimivat oikein ennen kuin indeksoit sivustosi.
Screaming Frog SEO Spider JavaScript renderöinti
Toinen Screaming Frogin loistava vaihtoehto on, että et rajoitu vain HTML sivulla voit hahmontaa minkä tahansa JavaScriptin, joka lisää lomakkeita sivustoosi. Sisällä Kokoonpano> Hämähäkki, voit siirtyä Renderointi-välilehdelle ja ottaa tämän käyttöön.
Tämä vie tietysti hieman kauemmin sivuston indeksoinnin, mutta saat lomakkeita, jotka JavaScript tekee asiakkaan puolelta, sekä palvelinpuoleisia lisättyjä lomakkeita.
Vaikka tämä on hyvin erityinen sovellus, se on uskomattoman hyödyllinen, kun työskentelet suurten sivustojen kanssa. Haluat ehdottomasti tarkastaa, missä lomakkeet on upotettu koko sivustoon.
Lataa Screaming Frog SEO Spider
Disclosure: Martech Zone käyttää affiliate-linkkejään tässä artikkelissa.