Magazine Informatica

Cosa sono i bot

Creato il 10 settembre 2011 da Hnikarr
In campo informatico, con il termine bot si indica un’ampia categoria di programmi, in forme e scopi differenti, sono utilizzati per svolgere automaticamente attività troppo faticose, o troppo noiose, per gli esseri umani. Il loro impiego più frequente si trova proprio nella Rete internet, dove svolgono lavori che sono sia semplici, sia ripetitivi: il più tipico è l’indicizzazione dei siti e dei loro contenuti, che consiste in pratica nel saltellare da una pagina all’altra, seguendo i link interni, e copiare tutto il suo contenuto, per catalogarlo nell'archivio di un motore di ricerca. Lo stesso termine bot, tra l’altro, deriva proprio dal campo in cui sono più spesso utilizzati, ossia la Rete: è una abbreviazione di web robots, il cui significato dovrebbe essere abbastanza chiaro. Ah, una precisazione: un bot non è necessariamente un software vero e proprio, cioè un programma completo e indipendente. Molto spesso, anzi, i bot sono semplici script, ossia piccole porzioni di codice, programmate per svolgere un solo compito o poco più e ripeterlo potenzialmente all’infinito. Come succede per qualsiasi strumento, anche i bot possono essere utilizzati sia in modo utile, sia in modo dannoso. Bot utili sono, ad esempio, quelli utilizzati dai motori di ricerca per ordinare il contenuto dei propri archivi e per “schedare” il contenuto della Rete: se non esistessero, sarebbe alquanto difficile poter trovare qualcosa, fra miliardi di pagine. Altri bot potrebbero, invece, fornirti le informazioni di base su un servizio a cui ti sei appena iscritto (le informazioni sono le stesse per ogni nuovo utente, per cui è semplice sviluppare un bot che te le fornisca), oppure darti il benvenuto in una chat, con le tipiche frasi di rito, o eseguire al tuo posto altre operazioni molto semplici e ripetitive, come controllare periodicamente una pagina, cliccare un determinato pulsante e così via. A metà tra il positivo e negativo, invece, troviamo quei bot che si usano per automatizzare le attività nei giochi online, che molto spesso sono appunto caratterizzati da una sequenza di azioni da ripetere più e più volte, con poche varianti. In questo caso, un bot ci risparmia di certo fatica e tempo, lavorando al nostro posto, ma spesso è anche considerato un imbroglio (scam, in gergo) e punito dai gestori del gioco stesso, se scoperto. Decisamente negativi, infine, sono gli usi dei bot per svolgere attività come setacciare siti e forum, alla ricerca di indirizzi e-mail: una pratica molto comune, collegata allo spamming, che permette allo spammer di vendemmiare in breve tempo una grande quantità di indirizzi, che saranno poi soggetti alle sue “attenzioni” (ossia inondati di messaggi pubblicitari, o peggio). Connesso allo spamming, vi è anche l’uso di bot per pubblicare in automatico semplici messaggi di testo su forum, blog o altro, accompagnandoli con link pubblicitari. In questi casi, di solito si utilizzato i captcha per contrastarli, ossia quelle finestrelle in cui si richiede di inserire un codice composto di lettere e numeri, per autorizzare la pubblicazione di un commento (o altro): un umano riesce a farlo senza problemi, un bot no. Altro sistema molto negativo per utilizzare i bot lo troviamo all’interno della categoria “malware”, di cui abbiamo già parlato. Un worm, infatti, oltre a essere un virus (nel senso generico del termine), incorpora anche alcune funzioni tipiche di un bot, come ad esempio il sistema attraverso il quale si moltiplica e si diffonde. Un buon worm, infatti, dopo aver infettato un computer, provvederà a raccogliere gli indirizzi e-mail presenti nella rubrica del computer e spedirà una copia di se stesso a ognuno di questi indirizzi, per infettare anche loro. Inoltre, nelle varianti più recenti (come il virus della chat di Facebook), il worm presente nel computer infetto aprirà conversazioni con gli amici della persona infetta, spedendo loro un semplice messaggio di testo e un link da cliccare, simulando di essere il proprietario del computer infetto (beh, almeno nei limiti in cui un bot può fingersi reale). Spinto agli estremi, il sistema sopra descritto può creare un botnet, ossia una rete di computer infetti dallo stesso worm e controllati quindi dal “proprietario” del worm. Questi computer potranno poi essere utilizzati come se fossero bot essi stessi, ossia per eseguire le operazioni che il controllore del botnet deciderà di far loro eseguire. Il risultato supremo che si può ottenere in questo modo e, per esempio, la creazione di un botnet capace di colpire e “affondare” siti internet attraverso un preciso attacco DoS (Denial of Service) oppure DDoS (Diffused Denial of Service). In pratica, una serie di “connessioni a raffica” a un sito internet, per intasarlo di traffico e costringere il suo server a chiudere i battenti per un periodo più o meno lungo. Siccome l’unica operazione richiesta è quella di collegarsi più volte di fila a un sito, è un perfetto lavoro per bot.

Gli spider di Google

Una categoria molto particolare di bot è costituita dagli spider di Google, ma anche degli altri motori di ricerca (spesso raccolti sotto l’etichetta di web crawler, come alternativa a spider). Questi spider sono programmi che hanno il compito di setacciare di continuo la Rete, per catalogare le pagine e i siti web, trovare i nuovi e aggiornare i vecchi. Si spostano da una pagina all'altra utilizzando i link all’interno delle pagine stesse e, in questo modo, ricostruiscono la struttura del sito, che sarà poi spedita al motore di ricerca. Raggiungono una pagina, la scorrono per intero, ne copiano il contenuto (che finirà nella cache di Google) e poi seguono uno alla volta i link che, da quella pagina, portano ad altre pagine, ripetendo la stessa operazione. Questa operazione è l’indicizzazione di un sito e serve appunto a inserirne le pagine nel “catalogo” del motore di ricerca, così da poterle poi proporre tra i risultati di una ricerca. Data la noiosità estrema del lavoro e la ripetitività monotona, è molto più semplice affidarla a un sistema automatico, che non si annoia e non si lamenta, a differenza di un essere umano: questo sistema automatico è appunto costituito dai bot. Tra l’altro, l’indicizzazione delle pagine è ripetuta a intervalli più o meno regolari, per aggiornare il contenuto dell’archivio del motore di ricerca, ed è un altro buon motivo per lasciare che se ne occupino i bot. I siti stessi, poi, hanno la possibilità di controllare e indirizzare, almeno in parte, l’attività di uno spider, attraverso l’uso del file robots.txt, che dovrebbe trovarsi nella root di ogni sito (ossia nella cartella “base”). In particolare, si può utilizzare il file robots.txt per dire agli spider quali pagine o quali cartelle non debbano essere indicizzate. Non è detto che vi ascolteranno, perché gli spider interpretano i file robots.txt come consigli e non come ordini, ma di solito lo faranno.

Potrebbero interessarti anche :

Ritornare alla prima pagina di Logo Paperblog

Possono interessarti anche questi articoli :