Які типи файлів індексуються пошуковими системами

Просування сайту посиланнями до цих пір показує хороші результати. Посилання не працюють так, як працювали 3-5 років тому. Необхідно використовувати нові, часом нестандартні методи отримання посилань. Одним із таких методів є розміщення посилань усередині документів, завантажених на сайт.

Багато SEO-оптимізаторів прагнуть отримати зовнішні посилання зі сторінок сайтів. Але мало хто використовує таку можливість як посилання всередині документів, завантажених на сайт. Докладно розбирати процес індексації ми не будемо, але на деякі моменти звернемо увагу.

Токенізація

Люди, читаючи будь-який текстовий документ на зрозумілій їм мові, чудово розуміють структуру документа. Наприклад: де знаходиться заголовок, як один абзац тексту відокремлює від іншого, як слова поділяються пробілами. Комп’ютери та програми не розуміють форматування та структуру. Будь-який документ чи файл з погляду комп’ютера – це послідовність байтів. Створюючи будь-який документ, необхідно запрограмувати все так, щоб комп’ютер розумів, яка саме частина документа буде окремим значущим елементом (токеном), а яка частина інформації про розмітку.

Токенизация

Спеціальні програми звані «синтаксичним аналізатором» під час сканування документа автоматично визначає, які елементи є словами, а які є знаками пунктуації та розмітки. Варто уточнити, що деякі із знаків розмітки можуть бути символами, що не друкуються). Аналізатор може розпізнавати всередині документа такі об’єкти як заголовки, адреси e-mail, URL адреси. При токенізації враховується маса параметрів: мова та кодування, позиція токена тощо.

Більш докладно можна почитати тут – Wikipedia пошуковий індекс

Формат та структура документа

Для кращого розпізнавання пошуковими системами завантажені документи повинні бути певним чином підготовлені для сканування розпізнавання. Проблема в тому, що більшість документів містять не лише текст, а й спеціальну інформацію про сам документ, форматування тексту або інших об’єктів.

Найпростіший приклад – документ HTML. Будь-яка сторінка цією мовою містить HTML-теги. Теги можуть описувати логічні частини документа, форматування тексту, різні об’єкти як картинок, відео, посилань тощо. Якщо пошукові системи ігноруватимуть різницю між текстом і тегами, то в індекс пошукових систем потрапить непотрібна інформація і якість пошукової видачі сильно впаде.

документ HTML

Пошуковики знайшовши документ насамперед намагається проаналізувати формат та виявити мову розмітки. Деякі типи документів захищено, а деякі добре документовані.

Список розширень

Пошукові системи розуміють практично всі файли. Інша справа, що пошукові системи не всі типи файлів можуть проіндексувати і розпізнати посилання всередині. Серед задокументованих варто виділити такі типи:

  • .txt, .text — Текстові файли
  • .bas – Вихідний код Basic
  • .c, .cc, .cpp, .cxx, .h, .hpp  — Початковий код C/C++
  • .cs — Початковий код C#
  • .java — Вихідний код Java
  • .pl — Вихідний код Perl
  • .py — Вихідний код Python
  • ASCII текстові файли (текстові документи без зручного для комп’ютера форматування)
  • .pdf — Adobe-формат електронних документів
  • .ps – PostScript
  • .tex — LaTeX
  • .nzb — Usenet формат інтернет-серверів новин.
  • XML та похідні, наприклад, RSS
  • .sgml – Standard Generalized Markup Language
  • .Id3 – Формати мультимедійних метаданих
  • .doc, .docx – Microsoft Word
  • .rtf – Rich Text Format
  • .xls, .xlsx  — Microsoft Excel
  • .ppt, .pptx — Microsoft PowerPoint
  • .nsf, .ndk, .ntf — IBM Lotus Notes
  • .dwf — Autodesk Design Web Format
  • .kml, .kmz — Google Планета Земля
  • .gpx — GPS eXchange Format
  • .hwp – Hancom Hanword
  • .htm, .html та інші розширення файлів – HTML
  • .odp — Презентації OpenOffice
  • .ods – Таблиці OpenOffice
  • .odt — Текстові файли OpenOffice
  • .svg — векторна графіка, що масштабується.

Пошукові системи можуть індексувати файли у стислому форматі. При роботі з архівами документи спочатку розпаковуються. Після розпакування може вийде кілька документів, які пошукова система індексуватиме окремо.

  • .zip — формат стиснення даних та архівації файлів
  • .rar — формат стиснення даних та умовно-безкоштовна програма-архіватор
  • .cab — Microsoft Windows Cabinet File
  • .gzip — формат стисненого файлу gzip
  • .bzip — формат стисненого файлу bzip
  • Tape ARchive (TAR), стислий файл Unix
  • TAR.Z, TAR.GZ or TAR.BZ2 — Unix-архів файлів стислих у Compress,
  • GZIP чи BZIP2

Наведемо кілька прикладів того, як, і де можна розмістити посилання в документах. Найпростіший і очевидніший спосіб – зробити текстовий документ у Google Disk. У документі розмістити релевантний текст і посилання на сторінку, що нас цікавить. При збереженні документа розшарити його видимість всім. У такий спосіб можна зберегти різні формати файлів.

Можна використовувати спеціалізовані послуги. Наприклад, dropmark.com дозволяє завантажити pdf документ. Сервіс ru.scribd.com дає можливість завантажити презентацію, що містить посилання.

Просунути свій сайт такими посиланнями, на жаль, не вдасться. Але такі посилання дозволять добре урізноманітнити посилання і отримати посилання (нехай і nofollow) з досить якісних трастових ресурсів.

Владислав Скляр
Сооснователь агентства и технический директор EXPANS. Развивает и улучшает технологию, разрабатывает и корректирует стратегии, с помощью которых компания приводит клиентов к результату.

Ваш коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Telegram

Viber

Messenger

Зв'яжіться з нами онлайн
Закрити