Python Pythonの共有dictをプロセス間キャッシュにしたら遅すぎた話 この記事の内容BigQueryから抽出したParquet形式のデータをPandas DataFrameとして読み込み、各行の数値に計算処理を行う必要があった。現時点におけるレコードは数百万行であるものの、将来的に数千万レコードに増加すること... 2023.03.15 Python
GCP BigQueryテーブルをパーティション化して処理データ量を1/260に削減する! まとめ1ヶ月分のデータのうち2時間のタイムフレームを対象とするSelectクエリのデータ処理量は適切にパーティショニングされたテーブルでは非パーティショニングテーブルに比べ1/260に削減された。データセットによっては巨大なデータが知らない... 2023.01.16 GCPクラウド
GCP Shift_JISエンコードされたローカルCSVファイルをBigQueryにインポートする! Shift_JISエンコードされたローカルCSVファイルをBigQueryにインポートする! 2022.12.21 GCPクラウド
Azure [Azure][GCP]PSCエンドポイントでインターネットを通らないBigQuery環境を実現する![BigQuery] Azureからインターネットを通さずにBigQueryにリクエストを投げたくてVPNトンネル経由でGCPのエンドポイントを叩ける環境を構築した。(PSC:Private Service Connect)AWSのDirect Connect、... 2022.05.31 AzureGCPクラウド