Semalt, veb saytlardan məlumat çıxartmağın asan bir yolunu paylaşır

Web Scraping , veb saytlardan məzmun əldə etmək üçün məşhur bir üsuldur. Xüsusi proqramlaşdırılmış bir alqoritm saytın əsas səhifəsinə gəlir və göstərilən divlərin interyerlərini yığaraq bütün daxili bağlantıları izləməyə başlayır. Nəticədə, bütün lazımi məlumatları ciddi bir qaydada yatıran hazır CSV faylı. Nəticədə ortaya çıxan CSV, demək olar ki, unikal məzmun yaradan gələcək üçün istifadə edilə bilər. Və ümumiyyətlə, bir cədvəl olaraq bu cür məlumatlar çox dəyərlidir. Təsəvvür edin ki, bir inşaat mağazasının bütün məhsul siyahısı bir cədvəldə təqdim olunur. Üstəlik, hər bir məhsul üçün, məhsulun hər növü və markası üçün bütün sahələr və xüsusiyyətlər doldurulur. Bir onlayn mağazada işləyən hər hansı bir kopirayter belə bir CSV sənədinə sahib olmaqdan məmnun olardı.

Veb saytlardan və ya veb qrafiklərdən məlumat çıxarmaq üçün çox sayda vasitə var və hər hansı bir proqramlaşdırma dilləri ilə tanış deyilsinizsə, narahat olmayın, bu yazıda ən asan yollardan birini göstərəcəyəm - Scrapinghub istifadə.

Əvvəlcə scrapinghub.com saytına daxil olun, qeydiyyatdan keçin və daxil olun.

Təşkilatınızla bağlı növbəti addım sadəcə atıla bilər.

Sonra profilinizə çatırsınız. Bir layihə yaratmaq lazımdır.

Burada bir alqoritm seçməlisiniz ("Portia" alqoritmini istifadə edəcəyik) və layihəyə bir ad verməlisiniz. Birtəhər qeyri-adi adlandıraq. Məsələn, "111".

İndi məlumat çıxarmaq istədiyiniz veb saytın URL-sini yazmağınız lazım olan alqoritmin iş sahəsinə daxil oluruq. Sonra "Yeni hörümçək" düyməsini basın.

Nümunə olaraq göstəriləcək səhifəyə gedəcəyik. Ünvan başlıqda yenilənir. "Bu səhifəni əlavə et" düyməsini basın.

Menyu görünəcək olan siçan imlecinizi sağa köçürün. Burada "Çıxarılan maddə" sekmesini maraqlandırırıq, burada "Məhsulları düzəldin" düyməsini basmalısınız.

Sahələrimizin boş siyahısı göstərilir. "+ Sahə" düyməsini basın.

Burada hər şey sadədir: sahələrin siyahısını yaratmaq lazımdır. Hər bir maddə üçün bir ad (bu vəziyyətdə başlıq və məzmun) daxil etməlisiniz, bu sahənin tələb olunduğunu ("Lazım") və dəyişə biləcəyini ("Müxtəlif") göstərməlisiniz. Bir elementin "tələb olunduğunu" göstərsəniz, alqoritm sadəcə bu sahəni doldura bilməyəcəyi səhifələri atlayacaqdır. Bayraqlı deyilsə, proses əbədi davam edə bilər.

İndi sadəcə lazım olan sahəni vurun və bunun nə olduğunu göstərin:

Bitdi? Sonra veb başlığına "Nümunəni Saxla" vurun. Bundan sonra iş sahəsinə qayıda bilərsiniz. İndi alqoritm bir şey əldə etməyi bilir, bunun üçün bir vəzifə təyin etməliyik. Bunu etmək üçün "Dəyişiklikləri dərc et" düyməsini basın.

Vəzifə lövhəsinə gedin, "Hörümçəyi işlət" düyməsini basın. Veb saytı, prioriteti seçin və "Çalış" düyməsini basın.

Yaxşı, qaşınma indi davam edir. Onun sürəti kursorunuzu göndərilən sorğuların sayına işarə edərək göstərir:

CSV-də hazır ipləri almaq sürəti - başqa bir nömrəyə işarə edərək.

Artıq hazırlanmış əşyaların siyahısını görmək üçün bu nömrəyə vurun. Bənzər bir şey görəcəksən:

Tamamlandıqda nəticə bu düyməni basaraq qeyd edilə bilər:

Bu belədir! İndi proqramlaşdırma təcrübəsi olmayan veb saytlardan məlumat çıxara bilərsiniz.