петък, април 11, 2008

Бърза индексация на сайтове до 200,000 страници

В тази статия ще ви разкажа как бързо да проиндексирате сайт, който има над 20.000 страници.
- Посещение на ботовете
Тук трябва да отбележим 2 основни аспекта.
1) Структурата на сайта.
Сайта трябва така да бъде организиран, че да се облегчи работата на бота за по-бърза индексация.
За целта трябва да създадете т.н. възлови страници.
Възловите стряаници, са страници с линкове на вътрешните страници.
Може да бъдат главните страници на раздели, които водят към вътрешните страници на същите тези раздели.
Възлова страница напр. може да бъде такава страница, на която отдолу има "перелинковка" Стр. 1, 2, 3, 4, 5 и т.н.
Единственната ценност на тези страници е това че помагат на бота да проиндексира другите страници, следвайки линковете.
2) Другият важен фактор е посещенията на сайта от ботовете на търсачките.
Колкото повече е ботовия трафик, толкова повече и по-бързо ще бъдат проиндексирани страниците на сайта.
Но самия обем на трафика все още не означава, че сайта е проиндексиран.
Каква ви е ползата от огромния трафик на бота, който чете информация само от главната страница и не отива на вътрешните?
Правилно - никаква.
За това структурата е важна, за която писах в началото.

Тук ще опиша няколко метода с които можем да помогнем за бързата индексация на сайта.

- Вътрешни линкове на целевите страници
Това е възможно най-простия способ.
Например, имаме сайт за запознанства.
Там всяка целева страница представлява някой град.
И на всяка страница има (или може да се сложи) линк на съседните градове.
За целта може да се използват и пощенските кодове напр., като от базата се тегли информацията от съседните (преди и след) които отговарят на конкретния град.
Така даваме възможност на бота да минава от запис на запис, без прекъсване, докато проиндексира и последната страница на сайта.
- Обратна или въртяща се карта на сайта
Със сигурност вече сте създали проста карта на сайта (ако не сте, това е първото нещо което трябва да направите) и тя сочи към всички страници на сайта.
Мнението е, че ботовете се отнасят към картите, малко по-различно от към обикновенните страници, във връзка с големия обем линкове, по които трябва да минат.
Но когато имате над 20.000 страници и всички трябва да се проиндексират, стандартната карта се оказва не ефективна.
Ако вземем факта, че бота минава по определено количество страници с картата на сайта, то означава че трябва да направим така, че бота да мине и по другите страници.
Работата е там, че при съставянето на картата, страниците се подреждат в низходящ ред т.е. от първите редове в базата към последните.
В тази ситуация, при големи сайтове, много често бота ходи по едни и същи страници и не успява да мине през целият сайт.
За да решим този проблем, обърнете картата на сайта обратно на 180 градуса. За целта в базата данни замените ORDER BY ‘id’ на ORDER BY ‘id’ DESC (атрибут DESC указва на това, че последните страници ще се изобразят първи, а първите - последни). Така страниците които са били на опашката, ще са в самото начало и бота бързо ще ги приндексира. Ако са с вътрешна перелинковка още по-добре, бота ще ги индексира едновременно от 2-те страни и с времето ще се срещне някъде в центъра. Така индексацията на сайта ще се извърши в изключително кратки срокове.

- Има и още по-интересен метод, така наречения "въртяща се карта на сайта."
Да предположим че имате сайт с над 30.000 страници. В течение на първите 7-10 дни, картата на сайта трябва да изглежда така - 30.000-1, След това взимате първите 5.000 страници и ги слагате в края на картата и се получава така - 25.000-1:30.000-25.001. В следващия десетдневен период отново обръщате картата и получавате ето това - 20.000-1:30.30.000-20.001 и така до края.
Този метод е най-ефективен!

- Линкове от други сайтове на вътрешните страници.
Този метод също спомага за това бота по-бързо да мине през сайта.
Благодарение на този метод, можете да укажите на бота точно през кои страници да мине и така да го манипулирате. Най-ефективен е метода, когато линковете водят на възловите страници.
Сайтовете които служат при този метод, се наричат "сайтове индексатори"
Това е най-ефективната тактика от всички описани по-горе.
Сайта индексатор е специален сайт, който тегли съдържанието от вашите сайтове, индексира своите вътрешни страници и след това се самообновява - затваря страниците които попадат в индекса и на тяхно място вади нови, непроиндексирани.
Създаването на такъв сайт не отнема много време и даже ако не умеете да програмирате, то писането на такъв скрипт не е скъпо и е оправдано като разход.
В началото трябва да направите началната страница, която ще се обръща към 50-100 вътрешни страници.
Всяка страница, ще се пълни със съдържание от донора. който трябва да се проиндексира.
След това чрез командата cron, да тегли ежедневно информация от търсачките които ни интересуват, напр. Google, Yahoo, MSN чрез командата site: моятсайт.ком
Трябва да се създаде скрипт, който да парси резултатите и да сравнява със списъка от страници които имаме на сайта индексатор. В момента в който страницата се проиндексира в търсачките, скрипта трябва да постави редирект 301, който да води към страницата донор.
Такива сайтове работят на автомат, което ги прави ценни и работят докато проиндексират целият сайт или бъдат забанени от търсачките :)
За това се правят по няколко такива сайта, за по-бързо протичане на процеса.

Лично аз ползвам друг вид сайт индексатор за своите проекти.
За да не бъде забанен сайта заради неуникален контент, скрипта взима текст, смесва го и на изхода имаме нечитаем текст с линкове в него. Линковете водят към непроиндексирани страници (може на собствения сайт, може на сайт където сте купили линкове).
Такъв сайт прилича на дор, но не е дор, той не е за хора, а за роботи. Единственото неудобство е че трябва переодически да се проверяват кои линкове са в индекса и да се свалят и ако трябва, на тяхно място да се слагат нови.
Удобството на този метод, е че аз на локалния компютър чрез скрипт, генерирам контента и след това само го заливам на хоста.
Така че този вариант работи на всички безплатни хостове, защото страниците са статични.

2 коментара:

Анонимен каза...

Хубава статийка, макар че тази терминология на български звучи много странно.

Unknown каза...

Да, възможно е някой термини да се различават от българските такива, просто тук работя с такава терминология, макар че се опитвам максимално близко да пиша до българската, но явно не винаги се получава :)
Но се надявам поне смисъла да е ясен :)