yikegaya’s blog

仕事関連(Webエンジニア)と資産運用について書いてます

Dataflow

GCP Dataflowの負荷テスト中にストラグラーを検知してPENDした時の調査メモ

仕事でDataflowを使ったデータ分析基盤を開発していたんですが、数千万件のデータを処理できるか負荷テストしていたところジョブの実行詳細に「ストラグラーが検出されました」というメッセージが出てジョブがPENDする現象が起こりました。 その際に調べたり…

Composer+Dataflowでデータ処理パイプライン環境作った時のメモ

仕事でComposer+Dataflowのローカル開発環境作ったんですが色々ややこしいので整理 Dataflow DataflowはGCP上でApache Beamで記述されたコードを実行できるサービスです。 Apache Beamとはストリーム処理/バッチ処理を記述するためのフレームワークです。別…

DockerでローカルにGCP Dataflowの開発環境を作った

仕事でGCPのDataflowを検証することになりローカルからdockerでPythonスクリプトを実行してGCPにデプロイできる環境を作ってみました。 動かすコード GCPの公式サイトに書いてあったDataflowからPubsubに書き込むデモを動かしてみます。 Dataflow から Pub/S…