Cải thiện việc crawl và index của trang web

Thảo luận trong 'Seo Onpage' bắt đầu bởi damtuan, 21/7/16.

Đã xem: 918

  1. damtuan Thành Viên Kì Cựu

    (Thegioiseo) - Craw và index - đây là hai nhiệm vụ chính của Google bot. Webmaster có thể tạo thuận lợi cho việc index trang webcủa họ bằng cách tạo ra một số thay đổi. Điều này cho phép bot có thể thực hiện công việc một cách kỹ lưỡng và cung cấp cho các trang web cơ hội để xếp hạng tốt hơn. 5 bước dưới đây có thể giúp bạn tối ưu hóa trang web của bạn và trang web của bạn có thể được tìm thấy dễ dàng hơn trên web.

    [​IMG]

    1. Khái niệm cơ bản

    1.1. Robots.txt

    Robots.txt là một tập tin văn bản đơn giản hướng dẫn Google bot index các trang web của bạn. Đây là những khu vực thường xuyên chứa dữ liệu nhạy cảm, chẳng hạn như tài khoản và đăng nhập của khách hàng, nó không cần phải được index.

    Khi tạo ra tập tin robots.txt, điều quan trọng là phải đảm bảo các bot có quyền truy cập vào tất cả các nguồn tài nguyên cần thiết để hiển thị một cách chính xác trang web của bạn. Ví dụ, bạn nên tránh chặn CSS hay JavaScript trong robots.txt.

    Nếu bạn muốn loại bỏ một thư mục cụ thể từ crawl, trong robots.txt bạn sử dụng mã sau đây:
    Mã:
    www.thegioiseo.com/robots.txt
    Tip:

    Sử dụng Google Search Console để kiểm tra robots.txt của bạn. Xin lưu ý điều này đòi hỏi bạn đã đăng ký website vào Search Console.

    [​IMG]


    1.2. XML Sitemap

    Bên cạnh robots.txt, có một tập tin mà đóng một vai trò quan trọng cho việc index đó là XML Sitemap. Đây là một tập tin máy có thể đọc được danh sách tất cả các URL trên trang web của bạn. Những dữ liệu có cấu trúc được tạo ra bằng hình thức văn bản và lưu dưới định dạng XML. Tập tin này cũng cho phép bạn truyền tải thêm các thông tin khác ngoài các URL, chẳng hạn như khi các URL khác nhau được cập nhật cuối cùng.

    Sau khi bạn đã tạo ra tập tin XML, thêm nó vào Google Search Console để thông báo cho Google URL hiện có. Tuy nhiên, XML sitemap chỉ nên bao gồm các URL đến Google và không cung cấp cho bot hướng dẫn như trong tập tin robots.txt. Do đó, Google sẽ bỏ qua các nội dung của tập tin khi index trang web.

    XML sitemap thường được xử lý kém mặc dù thực tế nó rất hữu ích trong việc index các trang web mới. Ví dụ, nếu bạn có nội dung mới trên trang web mà không được liên kết với nhau, sử dụng sitemap để thông báo cho Google về nội dung này.

    [​IMG]

    Có nhiều cách khác nhau để tạo ra một sitemap. Một số CMS thậm chí đi kèm với các công cụ có liên quan để tạo ra sitemap tự động. Bạn cũng có thể sử dụng bất kỳ chương trình miễn phí có sẵn.

    Sau khi sitemap đã sẵn sàng, lưu nó vào thư mục gốc của trang web của bạn:

    Mã:
    www.thegioiseo.com/sitemap.xml


    Nén sitemap hoặc lưu nó tự động để tiết kiệm không gian trên máy chủ.

    Google khuyên nên tách sitemap nếu bạn có hơn 50.000 URL. Trong trường hợp này, bạn cần sử dụng một chỉ số và tạo ra một “sitemap of the sitemap”. Các chỉ số sitemap nên chứa tất cả các liên kết đến các XML sitemap khác nhau. Điều này có thể trông giống như:

    [​IMG]
    Sau đó bạn nên tải tập tin vào Search Console để cho phép Google re-crawl sub-pages.


    Nếu bạn có rất nhiều video và hình ảnh trên trang web của bạn, bạn cũng nên kiểm tra việc index bằng cách tạo ra sitemap riêng biệt cho những hình ảnh và video. Cấu trúc của một XML sitemap cho các tập tin truyền thông là tương tự như sitemap thông thường.

    Tip:

    Trong nhiều trường hợp, bạn muốn trang web của bạn phải được re-crawl càng sớm càng tốt sau khi bạn đã thực hiện một vài thay đổi. Google Search Console sẽ giúp bạn trong những trường hợp như thế này. Chức năng này giới hạn 500 URL mỗi tháng cho một trang web.

    [​IMG]

    2. Sử dụng ngân sách crawl

    Google bot là một chương trình máy tính được thiết kế để follow các liên kết, thu thập URL và sau đó giải thích, phân loại và index nội dung. Để làm được điều này, bot có một ngân sách crawl giới hạn. Số lượng các trang được crawl và index phụ thuộc vào thứ hạng trang của trang web tương ứng.

    Kiến trúc trang web được tối ưu hóa sẽ làm cho bot làm việc dễ dàng hơn nhiều. Đặc biệt, hệ thống phân cấp giúp bot truy cập tất cả các webpage có sẵn.

    Việc crawl có thể bị ảnh hưởng bởi cách sử dụng các liên kết internal của bạn. Với menu điều hướng bạn có thể cung cấp cho bot các gợi ý về cách URL sử dụng các liên kết sâu trong văn bản. Bằng cách này, các liên kết trỏ đến nội dung quan trọng từ trang chủ của bạn sẽ được crawl nhanh hơn. Việc sử dụng các thẻ anchor để mô tả mục tiêu liên kết cung cấp thêm thông tin cho bot và cách để chúng phân loại nội dung.

    Để bot có thể thu thập nội dung của bạn nhanh hơn, bạn có thể sử dụng h-tags. Ở đây, bạn nên đảm bảo cấu trúc trong thẻ được đặt theo thứ tự. Điều này có nghĩa là sử dụng thẻ h1 cho tiêu đề chính và sau đó là h2, h3... cho các subheadings của bạn.

    Nhiều CMS và những nhà thiết kế web sử dụng h-tags để định dạng kích thước tiêu đề trang của họ. Điều này có thể gây nhầm lẫn cho Google bot khi crawl. Bạn nên sử dụng CSS để xác định kích thước font chữ độc lập với nội dung.

    3. Tránh để bot đi đường vòng

    Bất cứ khi nào Google bot gặp một trang lỗi, nó không thể follow bất kỳ các liên kết khác và do đó nó sẽ trở lại và bắt đầu lại từ một trang khác. Các trình duyệt hoặc trình thu thập thường không thể tìm thấy một URL sau khi các nhà vận hành trang web xóa sản phẩm từ cửa hàng trực tuyến của họ hoặc sau khi thay đổi URL. Trong trường hợp này, máy chủ trả về một mã lỗi 404 (không tìm thấy). Tuy nhiên, số lượng lỗi lớn như vậy tiêu tốn một phần ngân sách crawl rất lớn. Các webmaster phải sửa chữa những lỗi đó một cách thường xuyên (xem mục 5).

    Các trang Orphan là những trang không có các liên kết inbound internal nhưng có thể có các liên kết external. Các bot không thể thu thập các trang đó hoặc đột ngột buộc phải dừng lại việc crawl. Nó tương tự như một lỗi 404, bạn nên cố gắng tránh các trang này. Những trang này thường là do sai sót trong thiết kế web hoặc cú pháp cảu các liên kết internal không còn chính xác.

    4. Tránh trùng lặp nội dung

    Theo Google, nội dung trùng lặp là một điều không tốt đối với họ. Nếu SEO hoặc webmaster không làm bất cứ điều gì, công cụ tìm kiếm sẽ đi về phía trước và bỏ qua những nội dung đó. Việc theo dõi và kiểm soát cách Google xử lý các nội dung bằng cách sử dụng 3 biện pháp sau:

    - Chuyển hướng 301: nội dung trùng lặp có thể xảy ra rất nhanh chóng, đặc biệt nếu đó là phiên bản www. Điều tương tự cũng áp dụng cho các kết nối được bảo đảm thông qua https. Để tránh việc trùng lặp nội dung, bạn nên sử dụng chuyển hướng 301 để trỏ đến phiên bản ưa thích của trang web. Điều này đòi hỏi bạn phải sửa đổi tập tin .htaccess của bạn cho phù hợp hoặc bổ sung thêm phiên bản ưa thích trong Google Search Console.

    - Thẻ Canonical: các cửa hàng trực tuyến có nguy cơ trùng lặp nội dung rất cao. Để giải quyết vấn đề này, bạn có thể sử dụng thẻ canonical. Thẻ này sẽ thông báo cho Google bot về các phiên bản URL gốc phải được index. Có những công cụ khác nhau mà bạn có thể sử dụng để kiểm tra thẻ canonical của bạn. Những công cụ này giúp bạn xác định các trang không có thẻ canonical hay những thẻ canonical bị lỗi. Lý tưởng nhất, mỗi trang cần phải có một thẻ canonical.

    - Thẻ rel=alternate: thẻ này rất hữu ích nếu trang web có sẵn các ngôn ngữ khác nhau hoặc nếu bạn có một phiên bản desktop và mobile trên trang web của bạn. Thẻ này sẽ thông báo cho Google bot về một URL được thay thế.

    5. Monitoring: khắc phục nhanh

    Thường xuyên kiểm tra dữ liệu trong Google Search Console luôn là một cách tốt để biết cách Google crawl và index trang web của bạn. Search Console cung cấp rất nhiều lời khuyên giúp bạn tối ưu hóa trang web của bạn.

    [​IMG]

    Dưới “crawl errors”, bạn sẽ sẽ tìm thấy một danh sách chi tiết tất cả các lỗi 404 và cái gọi là “Soft 404 errors". Soft 404 errors không được hiển thị một cách chính xác và máy chủ không trả lại bất kỳ mã lỗi nào.

    [​IMG]

    Bên cạnh “Fetch as Google” và “robots.txt Tester”, công cụ “URL parameters” cũng có thể rất hữu ích. Nó cho phép các webmaster và SEO xác định cách Google bot xử lý các thông số cụ thể của một URL. Ví dụ, xác định tầm quan trọng một thông số cụ thể của URL giúp bạn tối ưu hóa hơn nữa ngân sách crawl của bot.

    Kết luận

    Các tùy chọn được giải thích trong bài viết này sẽ giúp bạn tối ưu hóa trang web của bạn để được crawl và index bởi Google bot. Và điều này sẽ làm cho trang web của bạn dễ dàng được tìm thấy trên Google. Như vậy, các tùy chọn nói trên thiết lập những nguyên tắc cơ bản để trang web thành công, vì vậy không có gì sẽ ngăn cản bạn đến con đường xếp hạng tốt hơn.

    Ghi nguồn www.thegioiseo.com
     
    Đang tải...
    nam lim xanh

    Bình Luận Bằng Facebook

  2. LoveTheTop95 Thành Viên Tích Cực

    Số bài viết: 72
    Đã được thích: 2
    Điểm thành tích: 8
    Web:
    theo mình cần làm thêm đó là submit và lập chỉ mục trên google khi ngay vừa xuất bản 1 bản viết để google index nhanh nhất
     
  3. vubahai Thành Viên Đồng

    Số bài viết: 359
    Đã được thích: 24
    Điểm thành tích: 28
    Web:
    Viết bài thường xuyên và làm bài viết index nhanh sẽ tạo thói quen tốt cho bot google vào website, onpage tốt và điều hướng chủ động bằng robot.txt cũng là các cách tốt nhất nên làm.
    iíe
     
  4. thanhluu0611 Thành Viên

    Số bài viết: 9
    Đã được thích: 1
    Điểm thành tích: 1
    Web:
    Craw và index - đây là hai nhiệm vụ chính của Google bot. Webmaster có thể tạo thuận lợi cho việc index trang web của họ bằng cách tạo ra một số thay đổi.
     
  5. damtoan123 Thành Viên

    Số bài viết: 33
    Đã được thích: 1
    Điểm thành tích: 8
    Web:
    thanks bài viết bác chủ thớt đã chia sẻ, sau bài viết mới em cung hay dùng submit để anh go dễ tìm thấy
     
  6. xuka123 Thành Viên Tiêu Biểu

    Số bài viết: 138
    Đã được thích: 2
    Điểm thành tích: 18
    Web:
    Theo mình muốn google index nhanh thì viết bài xong nên submit luôn ak.
     
  7. bestseo Thành Viên

    Số bài viết: 33
    Đã được thích: 2
    Điểm thành tích: 8
    Google họ sẽ thả bot đúng giờ mà bài viết hôm qua được index. Còn ngày hôm này bạn có thể post bài trước giờ ngày hôm qua vừa post xong google thả boss index đươc ngay.
     
  8. cattuong Thành Viên

    Số bài viết: 43
    Đã được thích: 3
    Điểm thành tích: 8
    Web:
    Có nên 1 bài viết, viết xong, 1 thời gian, rồi chỉnh sửa bài viết đó lại. Như thê bot gg sẽ index nhanh hơn và đều đặn hơn hả
     
  9. join8x Thành Viên

    Số bài viết: 5
    Đã được thích: 0
    Điểm thành tích: 1
    Web:
    submit bài viết và submit trang chủ là lên nhanh
     
  10. cattuong Thành Viên

    Số bài viết: 43
    Đã được thích: 3
    Điểm thành tích: 8
    Web:
    Cộng với việc đi backlink nữa bác