BigQuery

Python

Pythonの共有dictをプロセス間キャッシュにしたら遅すぎた話

この記事の内容BigQueryから抽出したParquet形式のデータをPandas DataFrameとして読み込み、各行の数値に計算処理を行う必要があった。現時点におけるレコードは数百万行であるものの、将来的に数千万レコードに増加すること...
GCP

BigQueryテーブルをパーティション化して処理データ量を1/260に削減する!

まとめ1ヶ月分のデータのうち2時間のタイムフレームを対象とするSelectクエリのデータ処理量は適切にパーティショニングされたテーブルでは非パーティショニングテーブルに比べ1/260に削減された。データセットによっては巨大なデータが知らない...
GCP

Shift_JISエンコードされたローカルCSVファイルをBigQueryにインポートする!

Shift_JISエンコードされたローカルCSVファイルをBigQueryにインポートする!
Azure

[Azure][GCP]PSCエンドポイントでインターネットを通らないBigQuery環境を実現する![BigQuery]

Azureからインターネットを通さずにBigQueryにリクエストを投げたくてVPNトンネル経由でGCPのエンドポイントを叩ける環境を構築した。(PSC:Private Service Connect)AWSのDirect Connect、...