ROBOT.TXT LÀ GÌ

  -  
Robots.txt là gì? Robots.txt là trong những cách chính để hoàn toàn có thể thông báo cho phép tắc tìm tìm biết vị trí mà nó có thể và không thể truy cập vào trang web của bạn. Đây là trong số những tệp ‘đơn giản’ tốt nhất trên một trang web, tuy nhiên nó cũng là một trong những tệp rất dễ gây nhầm lẫn nhất.

Bạn đang xem: Robot.txt là gì

Tất cả các công vắt tìm tìm chính đều sở hữu hỗ trợ công dụng cơ bạn dạng mà nó cung cấp, mặc dù một số công cụ trong số đó cũng thỏa mãn nhu cầu một số quy tắc bổ sung cập nhật cũng có thể hữu ích.

Bài viết này bao hàm tất cả các thông tin, cách thực hiện robots.txt trên trang web của bạn.

Một lưu ý trước khi bạn bắt đầu nội dung bài viết này!

Như tôi sẽ nói nghỉ ngơi trên, đó là một một trong những tệp dễ gây nên nhầm lẫn nhất. Vì sao vì chỉ một cam kết tự ko đúng vị trí cũng có thể gây ra tác động xấu tới việc thực hành SEO bên trên website của chúng ta và ngăn các công thế tìm kiếm rất có thể truy cập được nội dung đặc trưng trên trang web của bạn.

Robots.txt là gì?

*

Robots.txt là 1 trong tệp văn bạn dạng được phát âm bởi các công nạm tìm kiếm (ví dụ như Google, Bing cùng Yahoo), hay còn gọi với cái brand name “Robots Exclusion Protocol”, là công dụng của sự đồng thuận giữa các nhà phát triển công nỗ lực tìm kiếm ban đầu.

Đây không hẳn là tiêu chuẩn chỉnh chính thức do ngẫu nhiên tổ chức tiêu chuẩn nào để ra; mặc mặc dù là tất cả các công cố gắng tìm kiếm hầu hết tuân theo nó.

Robots.txt đang thực hiện công việc gì?

Tôi vẫn nêu ra hai công việc chính của hình thức tìm kiếm để chúng ta có được cái nhìn bao gồm nhất:

1. Thu thập thông tin trên website để ban đầu việc ‘khám phá nội dung’ phía bên trong đó.

2. Lập chỉ mục văn bản hay có cách gọi khác là index ngôn từ để nó hoàn toàn có thể cung cấp cho người tìm kiếm đang đi tìm kiếm kiếm thông tin.

Để hoàn toàn có thể thu thập dữ liệu những trang web, những công nuốm tìm kiếm vẫn đi theo các liên kết để dịch chuyển từ trang này sang trang khác với cuối cùng đó là thu thập lại cục bộ thông tin qua sản phẩm tỷ links khác và trang web khác nhau. Hành động thu thập tin tức này nói một cách khác với cái thương hiệu “spidering”.

Sau khi đã tới được một trang web, trước khi bước đầu việc xem xét website đó, trình tích lũy thông tin (search crawler) vẫn tìm kiếm tệp Robots.txt.

Khi tra cứu thấy một tệp thì trình tích lũy sẽ hiểu tệp đó trước khi tiếp tục công việc của bản thân qua gần như trang kế tiếp. Vì sao là vì chưng tệp robots.txt cất thông tin về phong thái mà nguyên tắc tìm tìm sẽ tích lũy thông tin, thông tin được kiếm tìm thấy ở này sẽ hướng dẫn đến trình thu thập thông tin hành vi tiếp theo bên trên trang web rõ ràng này.

Nếu như tệp robots.txt ko chứa ngẫu nhiên lệnh nào cấm đoán phép buổi giao lưu của tác nhân người dùng (hay trang web đó không có tệp robots.txt) thì nó sẽ thực hiện việc tích lũy thông tin sống trên gần như trang không giống trên trang web.

Tại sao Robots.txt lại quan liêu trọng?

Có thể nói rằng, hầu như các website không đề xuất tới tệp Robots.txt.

Lý vì chưng là vày Google thường hoàn toàn có thể tìm và lập chỉ mục toàn bộ các trang đặc biệt trên trang web của bạn.

Tuy nhiên, họ đã KHÔNG lập chỉ mục những trang đặc biệt quan trọng hay các phiên bản trùng lặp của những trang khác.

Điều đó có thể diễn giải rằng, có 3 tại sao chính mà chúng ta thực sự MUỐN thực hiện Robots.txt.

Chặn các trang không công khai

Đôi khi bạn có những trang bên trên trang web của bản thân mình mà bạn không thích nó được lập chỉ mục.

Ví dụ: bạn có thể có phiên phiên bản theo từng giai đoạn của một trang hoặc một trang đăng nhập. Các trang này rất cần được tồn tại. Tuy vậy bạn không thích những người dùng ‘ngẫu nhiên đổ bộ’ vào chúng. Đây đó là trường hợp nhưng bạn thực hiện robots.txt để chặn các trang này thoát khỏi trình tích lũy thông tin và lịch trình của phương pháp tìm kiếm.

Tối nhiều hóa ngân sách thu thập thông tin

Nếu bạn gặp mặt khó khăn trong việc lập chỉ mục tất cả các trang của mình, chúng ta có thể gặp sự việc về túi tiền thu thập tin tức (Crawl Budget). Bằng phương pháp chặn những trang không đặc biệt bằng robots.txt, Googlebot hoàn toàn có thể ‘chi tiêu’ nhiều hơn chi tiêu thu thập thông tin của công ty trên các trang đích thực quan trọng.

Ngăn lập chỉ mục tài nguyên:

Sử dụng thông tư meta gồm thể hoạt động giống như Robots.txt nhằm ngăn các trang được lập chỉ mục. Tuy nhiên, chỉ thị meta không chuyển động tốt cho những tài nguyên nhiều phương tiện, như PDF với hình ảnh. Đây đó là lúc nhưng robots.txt được phát huy năng lực của mình.

Điểm chủ chốt ở chỗ, Robots.txt yêu ước trình thu thập thông tin của mức sử dụng tìm tìm không tích lũy từ dữ liệu các trang rõ ràng trên trang web của bạn.

Bạn hoàn toàn có thể kiểm tra xem chúng ta đã lập chỉ mục bao nhiêu trang trong Google search Console.

*

Nếu số kia khớp cùng với số trang mà bạn muốn lập chỉ mục, bạn không phải lo tới tệp Robots.txt.

Nhưng nếu số lượng đó cao hơn con số mà bạn mong muốn đợi (và bạn nhận biết các URL được lập chỉ mục tránh việc được lập chỉ mục), thì đang tới lúc chế tác tệp robots.txt cho website của bạn.

Robots.txt trông như thế nào?

Dưới đó là định dạng cơ phiên bản của tệp robots.txt:

Sitemap:

User-agent:

User-agent:

Nếu bạn trước đó chưa từng thấy giữa những tệp này trước đây, điều ấy nghe dường như khó khăn. Mặc dù nhiên, cú pháp triển khai rất đối kháng giản. Nói bắt lại, chúng ta chỉ định những quy tắc cho bot bằng phương pháp nêu rõ tác nhân người tiêu dùng của chúng, tiếp đến là các lệnh.

Hãy cùng tìm hiểu một cách cụ thể hơn về nhị thành phần này.

Tác nhân người tiêu dùng (User-agents)

Mỗi pháp luật tìm tìm đều xác định nó với cùng một user-agents khác nhau.

Bạn rất có thể đặt hướng dẫn tùy chỉnh thiết lập cho từng giải đáp này vào robots.txt của mình. Có hàng trăm ngàn user-agents, dẫu vậy dưới đây là một số user-agents thực sự có lợi cho SEO:

Google: GooglebotGoogle Hình ảnh: Googlebot-ImageBing: BingbotYahoo: SlurpBaidu: BaiduspiderDuckDuckGo: DuckDuckBot

Chú thích bên cạnh lề: toàn bộ các user-agents đều riêng biệt chữ hoa cùng chữ thường trong robots.txt.

Bạn cũng rất có thể sử dụng ký tự thay mặt dấu (*) để gán chỉ thị dành cho tất cả các user-agents.

Ví dụ: trả sử rằng bạn muốn chặn tất cả các bot kế bên Googlebot tích lũy dữ liệu website của bạn. Đây đó là cách nhưng bạn thực hiện điều đó:

User-agent: *Disallow: /

User-agent: GooglebotAllow: /

Biết rằng tệp Robots.txt của bạn có thể bao gồm các lệnh cho từng nào tác nhân user-agents tùy thích. Điều kia nói cần rằng, mỗi lúc mà bạn khai báo về một user-agents mới, nó sẽ vận động giống như một phương tiện chặn rõ ràng.

Nói theo phong cách khác, nếu như khách hàng thêm nhiều thông tư cho user-agents, các chỉ thị được khai báo đến user-agent đầu tiên sẽ ko được áp dụng cho user-agents trang bị hai, sản phẩm công nghệ ba, trang bị tư,…

Ngoại lệ mang đến quy tắc kia là khi chúng ta khai báo cùng một user-agents dùng những lần. Trong trường vừa lòng đó, toàn bộ các chỉ thị tương quan được phối kết hợp và tuân theo.

Lưu ý quan trọng:

Trình thu thập thông tin chỉ tuân theo những quy tắc đã có được khai báo trong (các) tác nhân người dùng (user-agents) áp dụng đúng đắn nhất đến chúng. Đó là nguyên nhân vì sao tệp robots.txt sinh sống trên chặn tất cả các bot quanh đó Googlebot (và các bot không giống của Google) tiến hành việc thu thập dữ liệu bên trên web. Googlebot bỏ lỡ phần khai báo user-agents ít cụ thể hơn.

Chỉ thị

Chỉ thị là các quy tắc mà bạn muốn các user-agents vẫn khai báo tuân theo.

Các thông tư được hỗ trợ

Dưới đó là các chỉ thị mà Google hiện tại hỗ trợ, cùng với cách sử dụng của chúng.

Disallow

Sử dụng thông tư này nhằm hướng dẫn những công chũm tìm kiếm không truy cập vào những tệp cùng trang nằm trong một băng thông cụ thể.

Ví dụ: Nếu bạn muốn chặn toàn bộ các chính sách tìm kiếm truy vấn vào blog của mình và toàn bộ các bài xích đăng trên blog của mình, tệp robots.txt của bạn cũng có thể trông y như sau:

User-agent: *Disallow: /blog

Chú thích: nếu bạn không xác minh được đường truyền sau lệnh Disallow, những công cố gắng tìm tìm sẽ bỏ qua mất nó.

Allow

Sử dụng chỉ thị này để cho phép các phương tiện tìm kiếm tích lũy thông tin một trang hoặc một thư mục bé – ngay cả trong một thư mục ko được phép khác.

Ví dụ: nếu bạn có nhu cầu ngăn các công cố gắng tìm kiếm truy cập vào mọi bài đăng bên trên blog của bạn ngoại trừ một bài xích đăng, thì tệp robots.txt của bạn có thể trông hệt như sau:

User-agent: *

Disallow: /blog

Allow: /blog/allowed-post

Trong lấy một ví dụ này, những công cầm tìm kiếm hoàn toàn có thể truy cập /blog/allowed-postNhưng họ quan yếu truy cập:

/blog/another-post

/blog/yet-another-post

/blog/download-me.pdf

Cả Google lẫn Bing đều hỗ trợ chỉ thị này.

Chú thích: cũng như chỉ thị Disallow, nếu như khách hàng không khẳng định đường dẫn sau thông tư allow, những công nắm tìm kiếm sẽ bỏ qua mất nó.

Một lưu ý về các quy tắc xung đột

Bạn nên cảnh giác trong câu hỏi này, vì các chỉ thị Allow với Disallow hoàn toàn có thể dễ dàng tạo nên xung tự dưng với nhau.

Trong ví dụ bên dưới, chúng tôi không có thể chấp nhận được truy cập /blog/ và cho phép truy cập / blog.

User-agent: *

Disallow: /blog/

Allow: /blog

Trong trường vừa lòng này, URL /blog/post-title/ hình như vừa Disallow với vừa Allow. Vậy cái nào đúng?

Đối với Google và Bing, nguyên tắc là chỉ thị có khá nhiều ký từ bỏ nhất sẽ đúng. Trong trường thích hợp ở đó là chỉ thị Disallow.

Disallow: /blog/ (6 cam kết tự)

Allow: /blog (5 ký kết tự)

Nếu những lệnh allow cùng disallow có độ nhiều năm như nhau, thì lệnh ít tinh giảm nhất sẽ đúng. Trong trường thích hợp đó, đó là chỉ thị allow.

Chú thích: tại đây, /blog (không bao gồm dấu gạch men chéo) vẫn rất có thể truy cập và thu thập thông tin được.

Điều quan trọng, đây chỉ với trường đúng theo của Google và Bing. Các công vắt tìm tìm khác xuất xắc lắng nghe chỉ thị phù hợp ban đầu. Trong trường thích hợp này, điều ấy không được phép.

Sitemap

Sử dụng chỉ thị này nhằm chỉ định vị trí của các Sitemap bên trên trang web của công ty cho các công nắm tìm kiếm. Nếu như khách hàng không quen với sitemap, chúng thường bao gồm các trang mà bạn có nhu cầu các luật pháp tìm kiếm thu thập thông tin và lập chỉ mục.

Dưới đó là ví dụ về robots.txt sử dụng lệnh sitemap:

Sitemap: https://www.domain.com/sitemap.xml

User-agent: *

Disallow: /blog/

Allow: /blog/post-title/

Việc bao hàm các sơ đồ trang web trong tệp robots.txt của người tiêu dùng quan trọng như vậy nào?

Nếu các bạn đã giữ hộ thông qua tìm kiếm Console, thì nó sẽ hơi thừa so với Google. Mặc dù nhiên, nó cho những công nắm tìm kiếm khác như Bing biết khu vực tìm sơ đồ trang web của bạn, vị vậy nó vẫn chính là một cách thức khá thú vị.

Lưu ý rằng, bạn không cần lặp lại chỉ thị sơ đồ website nhiều lần địa điểm mỗi user-agents. Nó không những áp dụng mang đến một. Bởi vậy, tốt nhất bạn nên bao gồm chỉ thị sitemap ở đầu hoặc cuối tệp robots.txt của mình.

Ví dụ:

Sitemap: https://www.domain.com/sitemap.xml

User-agent: GooglebotDisallow: /blog/Allow: /blog/post-title/

User-agent: BingbotDisallow: /services/

Google cung cấp chỉ thị sitemap, cũng như Ask, Bing với Yahoo.

Các lệnh ko được hỗ trợ

Dưới đấy là các lệnh không còn được Google hỗ trợ nữa – một trong những lệnh trong những đó chưa lúc nào có về phương diện kỹ thuật.

Trễ tích lũy thông tin

Trước đây, bạn có thể sử dụng chỉ thị này để chỉ định độ trễ tích lũy thông tin tính bởi giây.

Ví dụ: Nếu bạn muốn Googlebot ngóng 5 giây sau mỗi hành vi thu thập thông tin, bạn sẽ đặt độ trễ thu thập thông tin thành 5 như sau:

User-agent: GooglebotCrawl-delay: 5

Hiện Google không còn hỗ trợ chỉ thị này, nhưng lại Bing với Yandex thì có.

Điều kia nói rằng, hãy cảnh giác khi tùy chỉnh chỉ thị này, đặc biệt nếu bạn có một trang web lớn. Nếu khách hàng đặt độ trễ thu thập thông tin là 5 giây, thì nhiều người đang hạn chế các bot thu thập thông tin về tối đa 17.280 URL từng ngày.

Điều đó sẽ không còn hữu ích lắm nếu như bạn đang thiết lập hàng triệu trang, nhưng mà nó hoàn toàn có thể tiết kiệm băng thông nếu bạn có một trang web nhỏ.

Noindex

Chỉ thị này chưa lúc nào được Google cung ứng một cách chính thức. Tuy nhiên, cho tới gần đây, tín đồ ta nhận định rằng Google sẽ có một trong những “mã xử lý những quy tắc không được hỗ trợ và không được xuất bạn dạng (chẳng hạn như noindex).”

Vì vậy, nếu bạn muốn ngăn Google lập chỉ mục toàn bộ các bài bác đăng trên blog của mình, bạn cũng có thể sử dụng lệnh sau:

User-agent: GooglebotNoindex: /blog/

Tuy nhiên, vào ngày 1 mon 9 năm 2019, Google đã nói rằng thông tư này ko được hỗ trợ. Nếu bạn có nhu cầu loại trừ một trang xuất xắc tệp khỏi lao lý tìm kiếm, hãy áp dụng Meta Robots tags hoặc tiêu đề HTTP X-Robots vắt thế.

Nofollow

Đây là một chỉ thị khác mà Google chưa khi nào chính thức hỗ trợ và được áp dụng để phía dẫn những công nạm tìm kiếm không đi theo các liên kết trên các trang với tệp theo một băng thông cụ thể.

Xem thêm: Có 3 Tỷ Nên Đầu Tư Gì 2020, Năm 2020, Nên Đầu Tư Gì Để Sinh Lời Cao

Ví dụ: nếu bạn có nhu cầu ngăn Google theo dõi tất cả các link trên blog của mình, chúng ta cũng có thể sử dụng câu lệnh sau:

User-agent: GooglebotNofollow: /blog/

Google đã thông báo rằng thông tư này chấp nhận không được cung ứng vào ngày một tháng 9 năm 2019.

Nếu bạn muốn thực hiện tại nofollow với toàn bộ các links trên một trang tức thì bây giờ, chúng ta nên sử dụng Meta Robots Tag hoặc Title X-Robots.

Nếu bạn muốn yêu ước Google không tuân theo các liên kết rõ ràng trên một trang, hãy thực hiện thuộc tính links rel = “nofollow”.

Ưu với nhược điểm của việc sử dụng robots.txt

Ưu điểm: chuyên nghiệp trong việc quản lý ngân sách thu thập thông tin

Thông thường, fan ta thường hiểu rõ rằng một trình tích lũy thông tin search kiếm cho một trang web với “mức mang đến phép” đang được khẳng định trước cho số lượng trang nhưng mà nó sẽ thực hiện việc thu thập thông tin (hoặc lượng khoáng sản / thời gian mà nó sẽ sử dụng, dựa vào quyền hạn / kích thước / danh tiếng của trang web và máy chủ phản hồi kết quả như nỗ lực nào).

Trong SEO gọi đó là Crawl Budget.

Nếu bạn nhận định rằng trang web của chính bản thân mình có vấn đề với túi tiền thu thập thông tin, thì câu hỏi chặn các công ráng tìm kiếm gây ‘lãng phí’ giá thành ở các phần không đặc biệt quan trọng trên website của bạn cũng có thể có tức là họ tập trung thay vào những phần quan tiền trọng.

Đôi khi gồm thể bổ ích khi chặn các công thay tìm kiếm tích lũy dữ liệu những phần có vấn đề trên trang web của bạn, nhất là trên các trang web cần được làm sạch nhiều SEO.

Sau khi sẽ thu dọn những thứ, bạn có thể để nó vào lại.

Lưu ý về câu hỏi chặn những tham số truy tìm vấn

Một trường hợp mà chi phí thu thập thông tin đặc biệt quan trọng quan trọng là khi trang web của công ty sử dụng các tham số chuỗi truy tìm vấn nhằm lọc hoặc sắp xếp danh sách.

Giả sử, chúng ta có 10 tham số truy vấn vấn không giống nhau, mỗi tham số có những giá trị khác nhau rất có thể được áp dụng trong ngẫu nhiên kết hòa hợp nào (như một loại áo phông có không ít màu với kích thước).

Điều này dẫn tới không hề ít URL hợp lệ rất có thể có, tất cả đều có thể được thu thập thông tin. Việc chặn thu thập thông tin truy tìm vấn đã giúp bảo đảm công cầm tìm kiếm chỉ tích lũy các URL bao gồm trên trang web của bạn và sẽ không còn đi vào cái bả lớn mà chúng ta cũng có thể sẽ tạo ra.

Nhược điểm:

Không xóa một trang ra khỏi hiệu quả tìm kiếm

Mặc dù, chúng ta có thể sử dụng tệp robots.txt để cho spider biết địa điểm nó chẳng thể đi tới website của bạn, nhưng bạn không thể áp dụng nó để thông tin cho hiện tượng tìm tìm biết đều URL nào ko hiển thị trong công dụng tìm tìm – có thể nói là ngăn nó sẽ không ngăn nó được lập chỉ mục.

Nếu giải pháp tìm tìm kiếm thấy đủ liên kết đến URL đó, nó sẽ bao gồm cả nó và lần khần có gì bên trên trang đó. Vậy nên, hiệu quả của bạn trên hiệu quả tìm kiếm vẫn trông như vậy này:

Nếu bạn muốn chặn một cách đáng tin cậy một trang hiển thị trong tác dụng tìm kiếm, bạn cần sử dụng Meta Robots Tag noindex. Điều đó tất cả nghĩa là, nhằm tìm thấy thẻ noindex, cơ chế tìm kiếm phải truy vấn được trang đó, vậy phải đừng ngăn nó bằng robots.txt.

Không lan truyền giá trị liên kết

Nếu giải pháp tìm kiếm không thể tích lũy thông tin một trang, nó cần thiết truyền được giá trị link qua các liên kết trên trang đó. Lúc một trang bị chặn bằng robots.txt, đó là một mặt đường cụt. Ngẫu nhiên giá trị link nào hoàn toàn có thể đã đưa tới hoặc đi qua trang đó đều bị biến đổi mất.

Cách tìm kiếm tệp robots.txt

Nếu bạn đã có tệp robots.txt trên trang web của mình, bạn sẽ có thể truy vấn tệp này tại domain.com/robots.txt. Điều nhắm tới URL trong trình ưng chuẩn của bạn.

Nếu thấy thứ gì đấy giống như hình bên dưới đây, thì bạn đã có tệp robots.txt:

*

Cách chế tác tệp robots.txt

Nếu bạn chưa xuất hiện tệp robots.txt, việc tạo nên một tệp rất dễ dàng dàng. Chỉ việc mở một tư liệu .txt trống và ban đầu nhập lệnh. Ví dụ: nếu bạn muốn không cho phép tất cả những công cầm cố tìm kiếm tích lũy thông tin /admin/ thư mục của bạn, nó đang trông như sau:

User-agent: *Disallow: /admin/

Tiếp tục xây dựng các chỉ thị cho tới khi chúng ta cảm thấy phù hợp với đông đảo gì bản thân có. Lưu tệp của doanh nghiệp dưới dạng “robots.txt”.

Ngoài ra, bạn cũng có thể sử dụng trình tạo nên robots.txt như trình tạo nên này.

*

Ưu điểm của việc thực hiện một công cụ như vậy này là nó bớt thiểu những lỗi cú pháp. Điều kia là giỏi vì một sai lầm hoàn toàn có thể dẫn tới ‘thảm họa’ vào SEO bên trên trang web của doanh nghiệp – bởi vậy, trường hợp sai sót ở tinh vi này, bao gồm thể các bạn sẽ phải mất chi phí để bù đắp lại ‘sai lầm’ đó.

Điểm bất lợi là bọn chúng hơi tiêu giảm về kĩ năng tùy chỉnh.

Nơi để tệp robots.txt của bạn

Đặt tệp robots.txt vào thư mục cội của tên miền phụ mà lại nó áp dụng.

Ví dụ: để kiểm soát điều hành hành vi thu thập thông tin trên domain.com, tệp robots.txt phải truy vấn được tại domain.com/robots.txt.

Nếu bạn muốn kiểm soát việc thu thập thông tin bên trên một miền phụ như blog.domain.com, thì tệp robots.txt phải truy vấn được tại blog.domain.com/robots.txt.

Các cách thức hay nhất về Robots.txt

Bạn hãy ghi lưu giữ về điều đó để tránh khỏi những sai lầm thường gặp.

Sử dụng một dòng mới cho từng chỉ thị

Mỗi thông tư nên được nằm trong một chiếc mới. Nếu như không, rất có thể nó sẽ gây nên sự nhầm lần đối với các khí cụ tìm kiếm.

Bad:

User-agent: * Disallow: /directory/ Disallow: /another-directory/

Good:

User-agent: *Disallow: /directory/Disallow: /another-directory/

Sử dụng những ký tự thay mặt đại diện để đơn giản dễ dàng hóa hướng dẫn

Bạn ko chỉ hoàn toàn có thể sử dụng ký tự thay mặt (*) để áp dụng lệnh với tất cả user-agents mà hơn nữa để khớp với những mẫu URL khi tiến hành khai báo lệnh.

Ví dụ: nếu bạn có nhu cầu ngăn qui định tìm kiếm truy cập vào URL danh mục sản phẩm được thông số hóa trên website của mình, bạn cũng có thể liệt kê chúng ra như sau:

User-agent: *

Disallow: /products/t-shirts?

Disallow: /products/hoodies?

Disallow: /products/jackets?…

Nhưng tôi mang đến rằng điều này không tác dụng lắm. Sẽ xuất sắc hơn nếu bạn đơn giản và dễ dàng hóa phần đa thứ bằng một cam kết tự đại diện như cố kỉnh này:

User-agent: *

Disallow: /products/*?

Ví dụ này vẫn chặn những công vắt tìm kiếm thu thập thông tin tất cả các URL vào subfolder / product / tất cả chứa vệt chấm hỏi.

Nói theo cách khác, bất kỳ URL danh mục thành phầm được thông số hóa.

Sử dụng “$” để hướng dẫn và chỉ định phần cuối của một URL

Bao gồm hình tượng “$” nhằm mục đích để khắc ghi phần cuối của một URL. Ví dụ: nếu bạn có nhu cầu ngăn các công rứa tìm kiếm truy cập vào toàn bộ các tệp .pdf trên trang web của mình, tệp robots.txt của chúng ta có thể sẽ trông y hệt như sau:

User-agent: * Disallow: /*.pdf$

Trong ví dụ này, giải pháp tìm kiếm chẳng thể truy cập ngẫu nhiên URL nào xong bằng .pdf.

Điều đó tức là họ không thể truy cập vào /file.pdf, mà lại họ rất có thể truy cập /file.pdf?id=68937586 bởi nó không được xong bằng “.pdf” .

Chỉ áp dụng mỗi User-agent một lần

Nếu bạn chỉ định cần sử dụng cùng một user-agent những lần, Google sẽ không còn bận trọng điểm về điều đó. Nó sẽ chỉ phối hợp tất cả những quy tắc tự khai báo không giống nhau thành một cùng tuân theo vớ cả.

Ví dụ: nếu như bạn có các chỉ thị và user-agent sau vào tệp robots.txt của mình…

User-agent: GooglebotDisallow: /a/

User-agent: GooglebotDisallow: /b/

Googlebot đã không tích lũy thông tin một trong những thư mục đó.

Điều đó nói rằng, vẫn là hợp lý nếu chỉ khai báo mỗi user-agent một lần vì chưng nó sẽ gây ra ít lầm lẫn hơn. Nói biện pháp khác, bạn sẽ ít phạm phải những sai lạc nghiêm trọng hơn bằng phương pháp giữ những thứ nhỏ gọn và đối chọi giản.

Sử dụng tính ví dụ để kị khỏi các lỗi không cầm ý

Việc không hỗ trợ hướng dẫn cụ thể khi cấu hình thiết lập chỉ thị có thể dẫn cho tới những sai lạc dễ sa thải và tạo ra tác động nghiêm trọng mang lại SEO.

Ví dụ: mang sử rằng các bạn có một website đa ngữ điệu và chúng ta đang làm việc trên một phiên bản bằng giờ đồng hồ Đức sẽ sở hữu được sẵn vào thư mục nhỏ / de /.

Bởi vì nó chưa sẵn sàng hoạt động, bạn muốn ngăn các công nuốm tìm kiếm truy vấn vào nó.

Tệp robots.txt dưới sẽ ngăn những công cố gắng tìm kiếm truy cập vào thư mục bé đó và đầy đủ thứ trong đó:

User-agent: *Disallow: /de

Nhưng nó cũng sẽ ngăn những công nắm tìm kiếm tích lũy thông tin của bất kỳ trang tuyệt tệp làm sao được ban đầu bằng /de.

Ví dụ:

/designer-dresses//delivery-information.html/depeche-mode/t-shirts//definitely-not-for-public-viewing.pdf

Trong trường hòa hợp này, giải pháp sẽ rất solo giản, chỉ cần thêm vào trong 1 dấu gạch ốp chéo.

User-agent: *Disallow: /de/

Sử dụng nhấn xét để giải thích tệp robots.txt của doanh nghiệp với con người

Nhận xét giúp phân tích và lý giải robots.txt của công ty cho các nhà cải tiến và phát triển – và thậm chí rất có thể là chính chúng ta trong tương lai. Để bao hàm nhận xét, hãy bắt đầu dòng bằng dấu thăng (#).

# This instructs Bing not khổng lồ crawl our site.User-agent: BingbotDisallow: /

Trình tích lũy thông tin sẽ làm lơ mọi lắp thêm ở trên các dòng bắt đầu bằng vết (#).

Sử dụng tệp robots.txt cá biệt cho từng Subdomain

Robots.txt chỉ kiểm soát hành vi tích lũy thông tin bên trên miền phụ, khu vực nó được giữ trữ. Nếu bạn muốn kiểm kiểm tra việc thu thập thông tin bên trên một miền phụ khác, bạn sẽ cần một tệp robots.txt riêng biệt biệt.

Ví dụ: nếu trang web chính chúng ta nằm trên domain.com và blog của khách hàng nằm trên blog.domain.com, thì bạn sẽ cần nhị tệp robots.txt. Một chiếc nên đi vào thư mục gốc của miền chính và mẫu kia vào thư mục gốc của blog.

Cách khám nghiệm Robots.txt để tìm ra những vấn đề

Các lỗi của Robots.txt hoàn toàn có thể lọt qua được khá dễ dàng, do vậy bạn phải chú ý nhằm theo dõi các vấn đề.

Để thực hiện công việc này, hãy tiếp tục kiểm tra những vấn đề liên quan tới robots.txt trong report “Coverage” trong search Console. Dưới đây là một số lỗi chúng ta có thể gặp phải, chân thành và ý nghĩa của chúng và giải pháp mà bạn có thể sửa chúng.

Bạn nên kiểm tra những lỗi liên quan đến một trang làm sao đó?

Dán URL vào chính sách Kiểm tra URL của Google trong tìm kiếm Console. Trường hợp nó bị chặn vày robots.txt, các bạn sẽ thấy một cái gì đó giống như sau:

*

URL sẽ gửi bị chặn bởi robots.txt

*

Điều này tức là ít nhất một trong những URL trong (các) sơ đồ website đã gửi của bạn đã bị robots.txt chặn.

Nếu các bạn đã sinh sản sơ đồ dùng trang web của bản thân mình một cách đúng đắn và sa thải các trang được thêm canonical, ko được lập chỉ mục với được redirect, thì không tồn tại trang như thế nào được gửi sẽ bị robots.txt chặn. Nếu đúng như vậy, hãy chất vấn xem trang nào đang bị hình ảnh hưởng, tiếp đến điều chỉnh tệp robots.txt của bạn sao cho phù hợp để xóa cho trang đó.

Bạn có thể sử dụng Google’s Robots.txt Tester để xem thông tư nào đang ngăn nội dung. Chỉ cần cẩn trọng khi thực hiện điều này. Rất dễ dàng mắc lỗi ảnh hưởng đến các trang và tệp khác.

*

Bị chặn vị robots.txt

*

Điều này tức là bạn đang xuất hiện nội dung bị chặn vị robots.txt hiện không được lập chỉ mục trong Google.

Nếu nội dung này đặc biệt quan trọng và cần được lập chỉ mục, hãy xóa khối thu thập thông tin vào robots.txt. (Cũng cần đảm bảo an toàn rằng câu chữ không được lập chỉ mục).

Nếu các bạn đã chặn nội dung trong robots.txt với ý định đào thải nội dung đó khỏi chỉ mục của Google, hãy xóa khối thu thập thông tin và cầm vào đó sử dụng Meta Robots Tag hoặc X-Robots Title. Đó là giải pháp duy nhất để đảm bảo loại trừ nội dung ra khỏi chỉ mục của Google.

Chú thích: Việc sa thải khối tích lũy thông tin khi nỗ lực loại trừ một trang ra khỏi công dụng tìm tìm là cực kỳ quan trọng. Nếu không thực hiện được điều đó và Google sẽ không còn nhìn thấy thẻ noindex hoặc Title HTTP – do vậy, nó sẽ vẫn được lập chỉ mục.

Đã lập chỉ mục, mặc dù bị chặn do robots.txt

*

Điều này có nghĩa là một số nội dung đã biết thành robots.txt ngăn vẫn được lập chỉ mục vào Google.

Một lần nữa, nếu như khách hàng đang cố gắng loại trừ ngôn từ này ra khỏi công dụng tìm tìm của Google, thì robots.txt chưa hẳn là giải pháp chính xác. Xóa khối thu thập thông tin và cụ vào đó thực hiện Meta Robots Tag hoặc Title HTTp X-Robots để phòng lập chỉ mục.

Nếu các bạn vô tình chặn văn bản này và hy vọng giữ nó vào chỉ mục của Google, hãy xóa khối thu thập thông tin vào robots.txt. Điều này có thể giúp bạn nâng cấp khả năng hiển thị của ngôn từ ở trong kiếm tìm kiếm của Google.

Xem thêm: Gạo Hoang Dã ( Wild Rice Là Gì ? Lợi Ích Của Gạo Hoang Dã Với Sức Khỏe

Robots.txt đối với Meta Robots với X-robots

Có rất nhiều Robots sinh hoạt đây, sự biệt lập giữa tía loại robot này là gì? Trước hết, robots.txt là 1 trong những tệp văn phiên bản thực, trong khi meta với x-robot là các lệnh meta. Ngoài các điều bọn chúng thực sự là gì? Thì cả ba đều giao hàng các tác dụng khác nhau. Robots.txt sai khiến cho hành vi thu thập thông tin trên cục bộ trang website hoặc thư mục, trong lúc đó meta cùng x-robot hoàn toàn có thể ra lệnh đến hành vi lập chỉ mục ở cấp độ trang cô quạnh (hoặc bộ phận trang).