Вэб-соскоб з экспертам Semalt

Скрабаванне па Інтэрнэце, таксама вядомы як збор у Інтэрнэце, - гэта метад, які выкарыстоўваецца для атрымання дадзеных з вэб-сайтаў. Праграмнае забеспячэнне для ўборкі Інтэрнэту можа атрымаць доступ да Інтэрнэту непасрэдна з дапамогай HTTP або вэб-браўзэра. Хоць працэс карыстальнікам праграмнага забеспячэння можа быць рэалізаваны ўручную, гэтая тэхніка звычайна ўключае ў сябе аўтаматызаваны працэс, рэалізаваны з выкарыстаннем вэб-сканера або бота.

Скрабаванне па Інтэрнэце - гэта працэс, калі структураваныя дадзеныя капіююцца з Інтэрнэту ў лакальную базу дадзеных для аглядаў і пошуку. Яна ўключае атрыманне вэб-старонкі і выманне яе змесціва. Змест старонкі можа быць прааналізаваны, адшуканы, перабудаваны, а яго дадзеныя скапіяваны ў лакальную прыладу захоўвання.

Вэб-старонкі, як правіла, складаюцца з тэкставых разметных моў, такіх як XHTML і HTML, якія ўтрымліваюць асноўную колькасць карысных дадзеных у выглядзе тэксту. Аднак многія з гэтых сайтаў былі распрацаваны для канчатковых карыстальнікаў, а не для аўтаматызаванага выкарыстання. Менавіта з гэтага было створана праграмнае забеспячэнне для выскрабання.

Існуе мноства методык, якія можна выкарыстоўваць для эфектыўнага выскрабання ў Інтэрнэце. Некаторыя з іх падрабязна распрацаваны ніжэй:

1. Чалавек Copy-and-paste

Час ад часу нават самы лепшы вэб-інструмент для выскрабання не можа замяніць дакладнасць і эфектыўнасць чалавечага ручнога капіявання і ўстаўкі. У асноўным гэта дастасавальна ў тых выпадках, калі вэб-сайты ўсталёўваюць бар'еры для прадухілення аўтаматызацыі машын.

2. Узор тэксту ў адпаведнасці

Гэта даволі просты, але магутны падыход, які выкарыстоўваецца для здабывання дадзеных з вэб-старонак. Ён можа быць заснаваны на камандзе UNIX grep альбо проста звычайным сродкам выразу дадзенай мовы праграмавання, напрыклад, Python або Perl.

3. Праграмаванне HTTP

Праграмаванне HTTP можа выкарыстоўвацца як для статычных, так і для дынамічных вэб-старонак. Дадзеныя здабываюцца шляхам размяшчэння HTTP-запытаў на аддалены вэб-сервер, выкарыстоўваючы праграмаванне socket.

4. Разбор HTML

Многія вэб-сайты, як правіла, маюць шырокую калекцыю старонак, дынамічна створаных з крыніц асноўнай структуры, такіх як база дадзеных. Тут дадзеныя, якія адносяцца да аналагічнай катэгорыі, закадуюцца на падобныя старонкі. Пры разборы HTML, праграма звычайна выяўляе такі шаблон у пэўнай крыніцы інфармацыі, вымае яго змесціва, а потым пераводзіць яго ў афіляваную форму, якую называюць абгорткай.

5. Разбор DOM

У гэтай тэхніцы праграма ўбудоўваецца ў паўнавартасны вэб-браўзэр, напрыклад, Mozilla Firefox або Internet Explorer, каб атрымаць дынамічны кантэнт, створаны на сцэнарыі на базе кліента. Гэтыя браўзары таксама могуць разбіраць вэб-старонкі ў дрэве DOM у залежнасці ад праграм, якія могуць распачаць часткі старонак.

6. Семантычнае прызнанне анатацыі

На старонках, якія вы збіраецеся саскрэпіць, могуць быць ахоплены сэнсавыя пазнакі і анатацыі альбо метададзеныя, якія могуць выкарыстоўвацца для пошуку пэўных фрагментаў дадзеных. Калі гэтыя анатацыі ўбудаваны ў старонкі, гэты прыём можа разглядацца як асаблівы выпадак разбору DOM. Гэтыя анатацыі таксама могуць быць арганізаваны ў сінтаксічны пласт, а затым захоўвацца і кіравацца асобна ад вэб-старонак. Гэта дазваляе скрабкам атрымліваць схему дадзеных, а таксама каманды з гэтага ўзроўню, перш чым ён саскоквае старонкі.