Tips efisiensi BigQuery untuk ekspor data massal Search Console

Senin, 5 Juni 2023

Ekspor data massal Search Console adalah cara yang efektif untuk memasukkan data performa penelusuran situs Anda ke BigQuery guna meningkatkan kemampuan penyimpanan, analisis, dan pelaporan. Misalnya, setelah mengekspor data, Anda dapat menjalankan kueri dan pengelompokan URL, menjalankan analisis pada kueri penelusuran longtail, dan menggabungkan penelusuran dengan sumber data lainnya. Anda juga dapat memilih untuk mempertahankan data selama diperlukan.

Saat menggunakan Ekspor data massal, penting halnya untuk membuat keputusan yang tepat ketika mengelola biaya penyimpanan dan pemrosesan data. Tidak ada biaya yang terkait dengan Search Console untuk mengekspor data. Namun, sebaiknya baca harga BigQuery untuk memahami apa saja yang harus Anda bayar. Dalam postingan ini, kami akan membahas tips untuk membantu Anda memanfaatkan data baru tanpa mengeluarkan banyak biaya.

Jika Anda belum menyiapkan ekspor data massal, lihat panduan langkah demi langkah di pusat bantuan Search Console. Untuk melihat ringkasan data yang tersedia melalui ekspor, tonton video yang disematkan di sini.

Membuat pemberitahuan dan batasan penagihan

Saat mempertimbangkan biaya, sebaiknya pikirkan berapa anggaran yang Anda siapkan. Jawaban untuk pertanyaan tersebut mungkin berbeda antara penyimpanan, analisis, dan pemantauan. Misalnya, Anda mungkin bersedia membayar sejumlah biaya tertentu untuk memastikan semua data Anda tersimpan, tetapi membayar biaya lebih sedikit untuk membuat platform pelaporan. Saat mempertimbangkannya, sebaiknya tentukan anggaran bulanan yang akan dikeluarkan untuk data Penelusuran.

Setelah menentukan jumlah anggaran, Anda dapat membuat pemberitahuan anggaran Google Cloud untuk menghindari tagihan tidak terduga. Anda juga dapat menetapkan aturan nilai minimum yang akan memicu notifikasi email saat mendekati jumlah batas anggaran.

Screenshot Cloud Console yang menunjukkan cara membuat pemberitahuan penagihan

Untuk perlindungan tambahan, Anda juga dapat membatasi jumlah byte yang ditagihkan untuk satu kueri. Jika Anda melakukannya, jumlah byte yang dibaca kueri akan diperkirakan sebelum kueri dijalankan. Jika jumlah perkiraan byte melebihi batas, kueri akan dibatalkan tanpa penarikan biaya.

Jangan membangun dasbor secara langsung di data mentah

BigQuery beroperasi dengan cepat, dan mungkin Anda cenderung ingin menautkan dasbor langsung ke tabel yang diekspor Search Console. Namun, untuk situs besar, set data ini akan sangatlah besar (terutama dengan penambahan kueri dari waktu ke waktu). Jika Anda membangun dasbor yang menghitung ulang informasi ringkasan di setiap tampilan dan membagikannya di perusahaan, tindakan ini akan cepat menimbulkan biaya kueri yang besar.

Untuk menghindari hal tersebut, sebaiknya lakukan agregasi data terlebih dahulu dari setiap penurunan harian dan buat satu atau beberapa tabel ringkasan. Kemudian, dasbor Anda dapat membuat kueri untuk tabel deret waktu yang jauh lebih kecil, sehingga akan mengurangi biaya pemrosesan.

Periksa fungsi kueri penjadwalan di BigQuery, atau pertimbangkan untuk menggunakan BI Engine jika Anda menginginkan solusi yang lebih otomatis.

Mengoptimalkan biaya penyimpanan data

Saat Anda memulai ekspor data massal, data akan disimpan secara permanen di set data BigQuery Anda secara default. Namun, Anda dapat memperbarui waktu habis masa berlaku partisi default sehingga partisi tanggal akan otomatis dihapus setelah satu tahun, atau 16 bulan, atau setelah durasi yang Anda inginkan.

Data yang diekspor dapat bernilai bagi Anda, tetapi jumlahnya bisa sangat besar. Gunakan pengetahuan bisnis Anda dan pertimbangkan untuk mempertahankannya cukup lama untuk dianalisis secara mendalam, tetapi jangan terlalu lama karena bisa menjadi beban. Salah satu opsinya adalah mempertahankan versi sampel tabel lama sekaligus mempertahankan seluruh tabel dari tanggal yang lebih baru.

Mengoptimalkan kueri SQL Anda

Saat membuat kueri data Search Console, sebaiknya pastikan kueri Anda dioptimalkan untuk performa. Jika Anda baru menggunakan BigQuery, lihat panduan dan contoh kueri di pusat bantuan. Ada tiga teknik yang perlu Anda coba.

1. Batasi pemindaian input

Pertama-tama, jangan gunakan SELECT * karena ini adalah cara yang paling mahal untuk membuat kueri data, BigQuery melakukan pemindaian penuh pada setiap kolom dalam tabel. Menerapkan klausa LIMIT tidak memengaruhi jumlah data yang dibaca.

Karena tabel yang diekspor dipartisi menurut tanggal, Anda dapat membatasi pemindaian input hanya untuk hari tertentu, terutama saat Anda menguji dan bereksperimen dengan data. Gunakan klausa WHERE untuk membatasi rentang tanggal pada tabel berpartisi menurut tanggal, sehingga akan menghemat biaya kueri secara signifikan. Misalnya, Anda hanya dapat melihat dalam 14 hari terakhir menggunakan klausa berikut:

WHERE data_date between DATE_SUB(CURRENT_DATE(), INTERVAL 14 day)

Untuk setiap kueri yang dibuat, Anda ingin memperkenalkan setiap filter yang dikenal sesegera mungkin untuk mengurangi pemindaian input. Misalnya, jika Anda menganalisis kueri, sebaiknya kecualikan baris kueri anonim. Kueri anonim dilaporkan sebagai string dengan panjang nol dalam tabel. Untuk melakukannya, Anda dapat menambahkan hal berikut:

WHERE query != ''

2. Ambil sampel data

BigQuery menyediakan kemampuan pengambilan sampel tabel, yang memungkinkan Anda membuat kueri subset data acak dari tabel BigQuery besar. Pengambilan sampel menunjukkan berbagai kumpulan data sekaligus menghindari biaya yang terkait dengan pemindaian dan pemrosesan seluruh tabel, juga sangat berguna saat Anda mengembangkan kueri, atau ketika hasil pasti tidak diperlukan.

3. Gunakan fungsi perkiraan yang tidak memerlukan hasil pasti

BigQuery mendukung sejumlah fungsi agregasi perkiraan yang memberikan perkiraan hasil dengan biaya yang jauh lebih murah daripada platform lain dengan fungsi yang sama. Misalnya, jika Anda mencari URL teratas menurut tayangan dengan beberapa kondisi, Anda dapat menggunakan

SELECT APPROX_TOP_SUM(url, impressions, 10) WHERE datadate=...;

Daripada

SELECT url, SUM(impressions) WHERE datadate=... GROUP BY url ORDER BY 2 DESC LIMIT 10;

Resource

Informasi ini hanyalah beberapa tips yang dapat Anda gunakan untuk mulai mengelola pengeluaran biaya, lihat praktik terbaik pengoptimalan biaya untuk BigQuery guna mempelajari lebih lanjut.

Seperti biasa, jika ada pertanyaan atau masalah, harap hubungi kami melalui Komunitas Pusat Google Penelusuran atau di Twitter.