Štampa
Kategorija: Saša Dulović

CAPTCHA (kapča) je vrsta testa koji se koristi u računarstvu da odredi da li je korisnik čovek ili računar (program).  Od korisnika se traži da uradi jednostavan test koji je računar sposoban da generiše i oceni. Pošto bi trebalo da računar bude nesposoban da reši taj test, svaki korisnik koji unese tačan odgovor se smatra čovekom. Uobičajeni CAPTCHA test traži od korisnika da unese nekoliko reči koje su prikazane na slici. Reči su na neki način iskrivljeni, a slova kamuflirana.

Skraćenica CAPTCHA dolazi od engleskog Completely Automated Public Turing test to tell Computers and Humans Apart (u prevodu: potpuno automatizovani javni Tjuringov test za razlikovanje računara i ljudi).

Slika01  Slika02

Postoji više razloga zbog kojih se koriste ovakvi testovi za razlikovanje računara i ljudi. Jedan je sprečavanje spama na forumima. Oglašivači često prave botove (programe) koji krstare Internetom, pronalaze forume, na njima otvaraju naloge i obasipaju sve diskusije reklamnim materijalom.

Drugi razlog je sprečavanje automatskog otvaranja velikog broja naloga na sajtovima koji pružaju besplatne servise, što bi dovelo do blokiranja servisa.

Još jedna primena je zaštita korisničkih naloga od napada koji su usmereni na otkrivanje korisničke lozinke metodom grube sile (isprobavanje kombinacija slova dok se ne otkrije koja je lozinka). Ako korisnik pri pokušaju logovanja više puta unese pogrešnu lozinku, za svaki dalji pokušaj logovanja se od njega traži da odradi CAPTCHA test, kako bi se sprečilo da bot pokušava da se uloguje satima ili danima sve dok ne otkrije lozinku.

CAPTCHA i reCAPTCHA


Razlika između CAPTCHA i reCAPTCHA je u tome što se umesto besmislenih reči pojavljuju reči iz skeniranih knjiga. Ljudi ukucavaju te reči i nakon što više njih za istu reč da tačan odgovor, sistem smatra da je ta reč pogođena i sklanja je sa spiska. Ovaj sistem je od reCAPTCHA kupio Google i služi za automatsko "prekucavanje" ogromnog broja skeniranih knjiga koje Google ima u svojoj bazi.

Sajtovi koji koriste ovaj sistem prikazuju slike skeniranih reči koje programi za prepoznavanje teksta nisu mogli ispravno da prepoznaju i pročitaju. Za skeniranje knjiga se koriste dva različita programa za prepoznavanje teksta. Ukoliko se neka reč ne prepozna kao ista od strane oba programa, smatra se da nije ispravno pročitana, i time postaje reč koja će se naći na reCAPTCHA slici. Uz tu (nepoznatu) reč se nalazi reč koja je već ispravno prepoznata (kontrolna reč).

Ceo sistem se zasniva na pretpostavci da će korisnik ispravno uneti i nepoznatu reč ukoliko je ispravno uneo kontrolnu. Kada nepoznata reč dobije potreban broj bodova, odnosno bude prepoznata dovoljan broj puta, ona se proglašava pročitanom. Svakog dana se na ovaj način digitalizuje više miliona reči. Kakva genijalnost.

Više o projektu Biblioteke Google knjiga možemo naći na http://books.google.com/googlebooks/library.html