0 votes
in YAVA247 Data Platform by (200 points)

Bapak/Ibu mohon bantuannya terkait seperti apa extract data website? apa ada contoh penarikan data dari website? Apa dengan menggunakan apache Nifi atau HGRID DE ya? Terima kasih

3 Answers

0 votes
by (440 points)
selected by
 
Best answer

Berikut contoh langkah untuk extract data dari Konten Website menggunakan Apache NiFi:

1. Menggunakan processor InvokeHTTP untuk mengakses Website, dapat menggunakan metode GET.
2. Menggunakan processor dengan fungsi-fungsi Manipulasi String (Contoh: ReplaceText dengan expression language: substring, replace, append, prepend dst) untuk parsing content.
3. Menggunakan processor ReplaceText untuk menyiapkan syntax load data hasil parsing ke Hive
4. Menggunakan processor PutHiveQL untuk menjalankan syntax Load data ke Hive.  


Berikut contoh langkah untuk extract data Excel dari Website menggunakan Apache NiFi:

1. Menggunakan processor InvokeHTTP untuk mengakses Website, dapat menggunakan metode PUT
2. Menggunakan syntax curl sebagai alternatif dari penggunaan processor InvokeHTTP untuk kasus HTTP-POST yang memerlukan header yang komplek.
3. Syntax curl dituangkan dalam shell script yang dijalankan melalui processor ExecuteStreamCommand.  
4. Mengkonversi File Excel menjadi File CSV.
5. Menyimpan File CSV hasil konversi ke HDFS.
6. Menyiapkan Table Hive untuk dapat mengakses data hasil Web Scraping menggunakan Syntax Query.

by (200 points)
edited by

Pak Imam, hasil output dari invokehttp tidak bisa dibaca. karena hasilnya html sbb. untuk convert atau replace text macam html seperti apa ya pak?

by (440 points)
edited by

Mungkin bisa dicoba menggunakan beberapa processor berikut:

1. InvokeHTTP

2. GetHTMLElement

3. ExtractText

4. ReplaceText

5. RouteOnAttribute

by (440 points)

GetHTMLElement Properties

ExtractText Properties

ReplaceText Properties

RouteOnAttribute Properties

by (200 points)

Pak Imam, untuk ekstrak teks tidak bisa. sudah saya cleansing namun ke view as original atau formatted gak bisa dengan menggunakan ekstrak text. berikut masih view as hex.

by (200 points)

Extract Textnya masuk ke unmatched

by (440 points)
Mohon info URL yang di get
by (200 points)
by (440 points)

Bisa dicoba alternatif berikut:

1. InvokeHTTP

2. GetHTMLElement_1 Properties

CSS Selector: div.boxes

3. GetHTMLElement_2 Properties

CSS Selector: div.content-persidangan

4. PutFile Properties

Simpan ke File untuk dilanjutkan proses parsing menggunakan ETL-Tools.

by (200 points)
Lanjut ETL Tools itu maksudny HGRID DE ya pak?
0 votes
by (520 points)
Mungkin bisa diperjelas data yang diambil data apa dan formatnya apa?
0 votes
by (520 points)
Untuk crawling dan scrapping data seperti yang mbak debby maksud belum bisa dilakukan di HGrid247 DE v3.2, tapi fitur tersebut tersedia di HGrid247 DE v3.3 yang akan rilis tahun ini. Untuk sementara bisa menggunakan apache nifi untuk extract datanya dan dilanjutkan menggunakan HGrid247 DE untuk pemrosesan data.
by (200 points)
ok makasih infonya mas..
by (440 points)
Iya bisa menggunakan HGrid-DE.
Welcome to YAVA247 Community, where you can ask questions and receive answers from other members of the community.
...