collapse

* Posts Recentes

LLM Crawlers por jm_araujo
[Hoje às 21:57]


Emulador NES em ESP32 por dropes
[30 de Abril de 2024, 15:09]


Circuito Microfone que funcione por almamater
[27 de Abril de 2024, 17:14]


Arame de Estendal por almamater
[18 de Abril de 2024, 16:16]


O que é isto ? por SerraCabo
[12 de Abril de 2024, 14:20]


Amplificador - Rockboard HA 1 In-Ear por almamater
[11 de Abril de 2024, 20:46]


Meu novo robô por josecarlos
[29 de Março de 2024, 18:30]


Bateria - Portátil por almamater
[25 de Março de 2024, 22:14]


Escolher Osciloscópio por jm_araujo
[06 de Fevereiro de 2024, 23:07]


TP4056 - Dúvida por dropes
[31 de Janeiro de 2024, 14:13]

Autor Tópico: LLM Crawlers  (Lida 35 vezes)

0 Membros e 9 Visitantes estão a ver este tópico.

Offline TigPT

  • Administrator
  • Mini Robot
  • *****
  • Mensagens: 5.374
    • Tiago Rodrigues
LLM Crawlers
« em: Hoje às 19:38 »
Hoje recebi uma série de emails, utilização de CPU do servidor acima do normal.



Primeiro pensei que fosse alguma tentativa de bruteforce mas quando comecei a analisar as logs apercebi-me que dois bots (Claude from Anthropic e o Amazonbot), estão a fazer crawling do LR todo página a página, possivelmente para treinar estes LLMs em Português.

Primeiro, qual a vossa opinião sobre o assunto? deveríamos bloquear estes bot ou deixa-los indexar todo o histórico, em prol de mais e melhores LLMs ?

De forma geral, acho que a informação aqui é pública e como tal, não me oponho ao crawling da mesma, por outro, gostava que fossem mais simpáticos e fizessem esse crawling ao longo de várias semanas em vez de quererem sugar todo o website em poucas horas / dias.

Alguém sabe de um mecanismo de pushback a estes bots para que não sejam tão agressivos no crawling? ex, já considerei forçar uma pausa na resposta quando o header é de um bot, para que o bot assuma que está a meter o site lento por respostas mais demoradas e reduza o numero de requests por segundo que faz.

Offline TigPT

  • Administrator
  • Mini Robot
  • *****
  • Mensagens: 5.374
    • Tiago Rodrigues
Re: LLM Crawlers
« Responder #1 em: Hoje às 19:58 »
Aqui está uma snippet das logs, mais logs no ficheiro txt em anexo.

Código: [Seleccione]
lusorobotica.com 23.22.35.162 - - [02/May/2024:18:55:45 +0000] "GET /index.php?PHPSESSID=912890638cccf119fdbf5cdd4885859c&topic=875.0 HTTP/2.0" 200 9884 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)" "172.18.0.17:80"
lusorobotica.com 54.36.149.14 - - [02/May/2024:18:55:47 +0000] "GET /index.php?topic=8102.msg91393 HTTP/2.0" 200 10333 "-" "Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)" "172.18.0.17:80"
lusorobotica.com 3.143.168.172 - - [02/May/2024:18:55:47 +0000] "GET /index.php?PHPSESSID=1a8c11bc68a7451598ccebc558c1bcab&action=profile;u=2750 HTTP/2.0" 200 3156 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)" "172.18.0.17:80"
lusorobotica.com 23.22.35.162 - - [02/May/2024:18:55:49 +0000] "GET /index.php?PHPSESSID=912890638cccf119fdbf5cdd4885859c&topic=205.0 HTTP/2.0" 200 7569 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)" "172.18.0.17:80"
lusorobotica.com 3.22.119.251 - - [02/May/2024:18:55:52 +0000] "GET /index.php?PHPSESSID=efe708a3b83c2b0e1fa70e6b544b1d1c&action=recent HTTP/2.0" 200 8425 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)" "172.18.0.17:80"
lusorobotica.com 3.224.220.101 - - [02/May/2024:18:55:53 +0000] "GET /index.php?PHPSESSID=912890638cccf119fdbf5cdd4885859c&board=59.40 HTTP/2.0" 200 6112 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)" "172.18.0.17:80"
lusorobotica.com 3.145.15.1 - - [02/May/2024:18:55:57 +0000] "GET /index.php?PHPSESSID=ada81f073cc2b2ea3f110369c8acaea1&topic=6467.msg104287 HTTP/2.0" 200 9179 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)" "172.18.0.17:80"
lusorobotica.com 23.22.35.162 - - [02/May/2024:18:55:57 +0000] "GET /index.php?PHPSESSID=912890638cccf119fdbf5cdd4885859c&topic=916.0 HTTP/2.0" 200 9542 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)" "172.18.0.17:80"
lusorobotica.com 52.167.144.238 - - [02/May/2024:18:55:58 +0000] "GET /index.php?board=20.920 HTTP/2.0" 200 7319 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/116.0.1938.76 Safari/537.36" "172.18.0.17:80"
lusorobotica.com 3.224.220.101 - - [02/May/2024:18:56:01 +0000] "GET /index.php?PHPSESSID=912890638cccf119fdbf5cdd4885859c&topic=221.0 HTTP/2.0" 200 10096 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)" "172.18.0.17:80"
lusorobotica.com 13.59.61.119 - - [02/May/2024:18:56:02 +0000] "GET /index.php?PHPSESSID=e7591d4c022e7bd76941935cdbc2f117&action=dlattach;topic=9553.0;attach=4723;image HTTP/2.0" 200 21901 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)" "172.18.0.17:80"
lusorobotica.com 52.70.240.171 - - [02/May/2024:18:56:05 +0000] "GET /index.php?PHPSESSID=912890638cccf119fdbf5cdd4885859c&topic=842.0 HTTP/2.0" 200 10875 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)" "172.18.0.17:80"
lusorobotica.com 5.255.231.187 - - [02/May/2024:18:56:06 +0000] "GET /index.php?topic=9004.0 HTTP/2.0" 200 7416 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)" "172.18.0.17:80"
lusorobotica.com 3.145.119.199 - - [02/May/2024:18:56:07 +0000] "GET /index.php?PHPSESSID=fc5504c97c744593f80bf35bf8ed880c&topic=10003.0 HTTP/2.0" 200 6431 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)" "172.18.0.17:80"
lusorobotica.com 3.224.220.101 - - [02/May/2024:18:56:09 +0000] "GET /index.php?PHPSESSID=912890638cccf119fdbf5cdd4885859c&topic=229.0 HTTP/2.0" 200 9670 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)" "172.18.0.17:80"

Offline jm_araujo

  • Mini Robot
  • *
  • Mensagens: 2.952
  • NERD!
Re: LLM Crawlers
« Responder #2 em: Hoje às 21:57 »
Administro um forum popular, está quase todo aberto sem registo(só umas partes fechadas para incentivar ao registo.para partilharem), e não me importo com bots.
Não me faz impressão que os bots corram a NET toda para sacar informação, sou a favor de uma NET 100% aberta, no pouco software que criei (e divulguei), apesar de.irrelevante depois de muito pensar meti licença unlicence(estava indeciso entre essa e beerware). E detesto paywallls.
Não sei se já foi visitado por esses bots, estou na PTISP com alojamento SSD e sempre foi muito rápido, mesmo com mais de 100 utilizadores simultâneos.
Acho que no robots.txt tens opções para limitar o comportamento dos bots, falta saber é se são todos cumpridores.
O meu robots.txt:
Código: [Seleccione]
User-agent: *
Crawl-delay: 30
Disallow: /Smileys
Disallow: /Themes
Disallow: /*msg
Disallow: /*wap
Disallow: /*action
Disallow: /*sort
(O software é SMF)
« Última modificação: Hoje às 22:06 por jm_araujo »