Làm sao để ngăn chặn Bots Spam từ dữ liệu phân tích của bạn?

Thảo luận trong 'Thủ thuật - Chiến lược SEO' bắt đầu bởi Boss, 3/3/15.

Đã xem: 1,060

  1. Boss Moderator

    Vài tháng trở lại đây, tôi bắt đầu nhìn thấy referral traffic trong tài khoản Google Analytics của chúng tôi. Lúc đầu, tôi cũng rất thích thú. Một người nào đó có liên kết với chúng tôi và mọi người đang click.

    Khi tôi nghiên cứu sâu hơn vấn đề này, tôi nhận thấy rằng hầu hết referral traffic này đã được gửi từ các spammer và chủ yếu là từ một spammer có tên là Vitaly Popov.

    Các tên miền mà anh ta đang sở hữu đã được đưa vào trang web của công ty chúng tôi và hầu hết các trang web của chúng tôi và của khách hàng có một vài trăm session mỗi tháng, điều đó đã đủ để đưa ra nhiều trường hợp để phân tíchdữ liệu.

    Các trang web của anh ta không phải là người duy nhất mà tôi sẽ giới thiệu trong bài viết này nhưng mạng lưới spam của anh ta đã khiến chúng tôi gặp rất nhiều phiền toái trong thời gian gần đây. Nếu bạn nhận được spam trong các phân tích của bạn, bạn có thể thực hiện theo các bước tương tự để ngăn chặn việc làm hỏng dữ liệu của bạn.

    Tại sao tôi phải lo lắng về việc chặn và lọc các trang web này?

    Có 2 lý do chính là động lực để ngăn chặn trên tất cả các trang web mà tôi làm việc. Đầu tiên: phân tích dữ liệu bị hỏng. Một vài trăm lượt truy cập mỗi tháng trên một trang web như Moz.com không phải là điều đáng lo ngại. Tuy nhiên, trên một trang web nhỏ đối với một thợ sửa ống nước địa phương, với 30 session mỗi ngày sẽ có 70% spam referral traffic, điều đó sẽ bóp nghẹt lưu lượng truy cập hợp pháp còn lại và làm cho việc phân tích dữ liệu trở nên khó chịu.

    Thứ hai: tải của máy chủ và vấn đề bảo mật. Tôi không yêu cầu chúng thu thập hoặc truy cập vào trang web của tôi. Khách truy cập của họ đang sử dụng các nguồn tài nguyên máy chủ của tôi cho một cái gì đó mà tôi không muốn hoặc không cần. Máy chủ bị quá tải có nghĩa là thời gian tải chậm và thứ hạng của tôi sẽ thấp hơn. Trong những ngày đầu, không ai biết được họ đang làm gì trên trang web của tôi. Họ có thể dễ dàng tìm kiếm với WordPress, plugin và các lỗ hổng máy chủ.

    Các tên miền spam phổ biến

    Sử dụng WHOIS.net, tôi thấy rằng mạng spam của ông Popov bao gồm các tên miền:
    • darodar.com (và tên miền phụ khác)
    • econom.co
    • ilovevitaly.co (và các biến thể TLD khác)
    và các spammer khác gây rắc rối cho trang web của chúng tôi bao gồm:
    • semalt.com (và tên miền phụ khác)
    • buttons-for-website.com
    • see-your-website-here.com
    Nhiều trang web khác đã đến và đi. Đây chỉ là những trang web mà tôi đã hoạt động gần đây.

    Tại sao họ lại đánh vào trang web của tôi?

    Tại sao mọi người bỏ ra rất nhiều công sức để thu thập dữ liệu web mà không ngăn chặn từ các phân tích? Tôi nhìn vào một số trang web được liệt kê ở trên. Ba trong số các trang web làm việc đó nhiều nhất vì những lý do rất khác nhau.

    [​IMG]

    Trang web này được cho là phần khó chịu nhất. Trang web này sử dụng referrer spam như một hình thức của lead generation (là một thuật ngữ dùng trong Marketing mô tả việc tìm kiếm những khách hàng tiềm năng thông qua việc đánh giá các tiêu chí phù hợp với sản phẩm). Cái gì là sản phẩm của họ? Web spam. Bạn có thể trả tiền see-your-website-here.com để spam cho công ty của bạn như là một hình thức của lead generation. Chủ sở hữu của tên miền này có đủ loại để tạo ra thông tin chung của anh ta trên WHOIS. Tên của ông là Ben Sykes và ông đến từ London.

    Semalt.com

    [​IMG]

    Semalt.com và tôi đã có một mối quan hệ đầy biến động. Semalt là một sản phẩm SEO được thiết kế để đưa ra các phân tích on và off-page như sử dụng từ khóa và các thước đo liên kết. Sản phẩm của họ dường như là có một chút hợp pháp. Tuy nhiên, hoạt động kinh doanh của họ lại không hợp pháp. Semalt sử dụng bot để thu thập dữ liệu trang web và index dữ liệu webpage nhưng chúng không vô hiệu hóa các theo dõi phân tích như hầu hết các chương trình khác. Họ có một hình thức để loại bỏ các trang web của bạn được thu thập thông tin tại. Tất nhiên, tôi đã cố gắng loại bỏ và chúng vẫn thu thập trang web của chúng tôi. Cuối cùng tôi đã nói chuyện với một đại diện của Semalt.com qua Twitter sau khi tôi viết bài này: Làm thế nào để ngăn chặn Semalt.com gây rắc rối cho dữ liệu phân tích trong Google Analytics. Tôi đã ghi chép cuộc nói chuyện của chúng tôi và kết quả được đưa ra trong bài viết.

    Darodar.com, econom.co và ilovevitaly.com

    [​IMG]

    Hệ thống này tồn tại với mục đích điều khiển lưu lượng truy cập liên kết đến các trang mua sắm như AliExpress.com và eBay.com. Tôi đoán rằng các trang web sẽ không trả tiền cho các liên kết – việc này dường như rất khó xảy ra. sub-domain shopping.ilovevitaly.com sử dụng để chuyển hướng trực tiếp đến aliexpress.com nhưng bây giờ nó đi đến một trang đích có liên kết đến một loạt các nhà bán lẻ trực tuyến.

    Làm thế nào để ngăn chặn bots spam?

    Chặn thông qua .htaccess

    Cách tốt nhất để ngăn chặn truy cập đến trang web của bạn là chặn chúng trong tập tin .htaccess trong thư mục gốc của tên miền. Bạn có thể sao chép và dán đoạn mã sau vào tập tin .htaccess, giả sử bạn đang ở trên một máy chủ Apache. Phương pháp này tốt hơn bởi nó ngăn chặn chương trình bots spam từ máy chủ của bạn. Nếu bạn muốn sáng tạo, bạn có thể chuyển hướng lưu lượng truy cập đến trang web của họ.

    # Block Russian Referrer Spam

    http://.*ilovevitaly\.com/ [NC,OR]

    RewriteCond %{HTTP_REFERER} ^http://.*ilovevitaly.\.ru/ [NC,OR]

    RewriteCond %{HTTP_REFERER} ^http://.*ilovevitaly\.org/ [NC,OR]

    RewriteCond %{HTTP_REFERER} ^http://.*ilovevitaly\.info/ [NC,OR]

    RewriteCond %{HTTP_REFERER} ^http://.*iloveitaly\.ru/ [NC,OR]

    RewriteCond %{HTTP_REFERER} ^http://.*econom\.co/ [NC,OR]

    RewriteCond %{HTTP_REFERER} ^http://.*savetubevideo\.com/ [NC,OR]

    RewriteCond %{HTTP_REFERER} ^http://.*kambasoft\.com/ [NC,OR]

    RewriteCond %{HTTP_REFERER} ^http://.*buttons\-for\-website\.com/ [NC,OR]

    RewriteCond %{HTTP_REFERER} ^http://.*semalt\.com/ [NC,OR]

    RewriteCond %{HTTP_REFERER} ^http://.*darodar\.com/ [NC]

    RewriteRule ^(.*)$ – [F,L]
    Nhấn vào đây để mở rộng...
    Cảnh báo: .htaccess là một tập tin rất mạnh, nó sẽ ra lệnh cho máy chủ của bạn hoạt động như thế nào. Nếu bạn tải lên một tập tin .htaccess với một ký tự đặc biệt nào đó thì rất có khả năng bạn sẽ hạ gục toàn bộ trang web. Trước khi bạn thực hiện bất kỳ thay đổi nào, tôi khuyên bạn nên sao lưu nó. Nếu bạn cảm thấy không thoải mái với việc chỉnh sửa, hãy xem các tùy chọn plugin WordPress bên dưới.

    Bộ lọc Analytics

    Bản thân .htaccess không giải quyết tất cả các vấn đề của bạn. Nó chỉ bảo vệ bạn từ các session trong tương lai và nó sẽ không ảnh hưởng đến các session đã xảy ra trước đó. Tôi muốn thiết lập một bộ lọc theo quốc gia trong analytics để loại bỏ lịch sử dữ liệu cũng như để giúp lọc ra bất kỳ chương trình nào khác mà chúng có thể tìm thấy từ các quốc gia được chọn trong tương lai. Tất nhiên, đây không phải là một ý tưởng tốt nếu bạn mong đợi để nhận được lưu lượng truy cập hợp pháp từ các nước như Nga, Brazil hay Indonesia nhưng nhiều doanh nghiệp Mỹ đã dựa vào cách này để ngăn chặn các quốc gia này mà không bị mất khách hàng tiềm năng. Thực hiện theo các bước dưới đây để thiết lập các bộ lọc:

    Đầu tiên, click vào tab "Admin" ở phía trên cùng của trang. Trên cột view, bạn sẽ muốn tạo ra một view "new" để bạn vẫn nhận được một báo cáo về tất cả lưu lượng truy cập trong Google Analytics. Tôi đặt tên là "Filter Bots”. Sau khi bạn có một view mới, bạn hãy click vào phần "Filters" sau đó chọn "+New Filter Button”.

    [​IMG]

    Việc thiết lập bộ lọc khá là đơn giản nếu bạn biết ý nghĩa của việc thiết lập. Tôi muốn lọc ra tất cả lưu lượng truy cập từ Nga, Brazil và Indonesia. Đây chỉ là những quốc gia mà chúng tôi đã gặp một số vấn đề trong thời gian gần đây. Bạn có thể bổ sung thêm các bộ lọc khi cần.

    Tên bộ lọc sẽ là tùy ý. Thông thường tôi chỉ cần gõ “block [insert country here]”. Tiếp theo, chọn loại bộ lọc “custom”. Chọn “country” từ trình đơn thả xuống “Filter Field”. “Filter Field” là nơi mà bạn thực sự xác định được các nước bạn đang lọc là gì, do đó hãy chắc chắn rằng bạn nhập vào chúng một cách chính xác. Bạn có thể kiểm tra lại bộ lọc của bạn bằng cách sử dụng nút " Verify This Filter”. Một đồ thị sẽ được bật lên và hiển thị cho bạn thấy có bao nhiêu session sẽ được loại bỏ trong 7 ngày qua.

    [​IMG]

    Tôi khuyên bạn nên chọn “Bot Filtering” được tìm thấy trong “View Settings” trong tab “Admin”. Tôi không nhìn thấy sự thay đổi trong dữ liệu của tôi bằng cách sử dụng tính năng này nhưng nó sẽ không ảnh hưởng đến thiết lập vì nó thực sự dễ dàng và có thể Google sẽ quyết định việc ngăn chặn một số spammer.

    [​IMG]

    Sử dụng WordPress? Bạn không muốn chỉnh sửa trong tập tin .htaccess của bạn?

    Tôi đã sử dụng plugin Wp-Ban trước đó và nó khá dễ dàng để ngăn chặn khách truy cập không mong muốn. Wp-Ban có khả năng cung cấp thông tin người dùng bằng IP, dải IP, tên máy chủ, tác nhân người dùng và URL tham chiếu truy cập từ blog WordPress của bạn trong panel admin WordPress. Đây là một lựa chọn tuyệt vời cho những người không muốn chỉnh sửa tập tin .htaccess của họ hoặc họ cảm thấy không thoải mái khi làm điều đó.

    Kết luận

    Tôi hy vọng bài viết trên sẽ giúp bạn ngăn chặn tất cả những kẻ spammer ra khỏi đó. Có nhiều cách khác nhau để bạn có thể giải quyết vấn đề này và đây chỉ là những cách giúp tôi bảo vệ dữ liệu phân tích của tôi. Tôi muốn nghe xem bạn đã xử lý với bots spam như thế nào. Bạn hãy chia sẻ câu chuyện của bạn với tôi trên Twitter hoặc trong bình luận dưới đây.

    Đây là 1 bài viết với các ví dụ rất cụ thể, dù bạn Seo trên .com hay .com.vn đều có thể áp dụng khi gặp trường hợp này. Đọc kỹ nội dung bài viết và hình ảnh!
     
    Hình nấm lim xanh thật
    Đang tải...
    nam lim xanh

    Bình Luận Bằng Facebook

  2. cuongapple Moderator

    Số bài viết: 540
    Đã được thích: 30
    Điểm thành tích: 28
    Web:
    Website của em hiện tại đang có rất nhiều nguồn traffic spam không hiểu ở đâu mà nhiều vậy.em có dùng cách lọc domail trong analytics cũng đã chặn được một số domail nhưng có riêng một domail là em chưa chặn được đó là: o-o-6-o-o .com bác chủ thớt cho em hỏi ngoài 2 cách trên còn cách nào khác không ạ.