開催日程はありません。
プロフィール
【概要】
エンジニアとして、
官公庁や、広告業界のWebシステムの構築を要件定義から保守運用まで幅広く経験している。
2017年4月からは、マネージャーとしてデータ系の組織の立ち上げや、データ基盤のアーキテクト及びディレクションに携わりデータエンジニアの集団のマネジメント業務を経験。
Udemy講師でもあります
【URL】https://www.udemy.com/course/python-spark-pyspark/?referralCode=E67BF8B61F65866794EB
【執筆歴】
...
+続きを読む
全体で2時間ほどを予定していますがお時間に余裕を持ってご参加ください。
15分
自己紹介やコース説明
40分
Sparkの紹介とインストール&質疑
1. Sparkとは?
2. 分散処理とは?
3. PySparkとは?
4. Pyspark インストールとノートブックの簡単な説明
5. Pysparkを簡単に動かしてみよう
休憩 10分
60分
Sparkの基本&質疑
1. Spark Sessionとは?
2. Sparkを用いたバッチにおけるエンジニアリングの流れ(データソース、変換、カラムナーフォーマット、テーブル作成)?
3. データソースの読み込み
4. データ変換
5. DIKWモデル
6. カラムナーフォーマットへの変換
7. スモールファイル問題
8. 参照用のテーブル作成
全体で1.5~2時間ほどを予定していますがお時間に余裕を持ってご参加ください。
30分
SparkSQL&質疑
1. 前のセクションの振り返りとSparkSQLの紹介
2. SparkSQLを用いてデータエンジニアリング一連の流れを再現
3. テーブル定義はどこに保存されている?
4. SparkSQLの他のTips(Insert文)
5. SparkSQLの他のTips(Hint文)
6. Update/Delete文?
7. SparkSQLを使うメリット、Dataframeを使うメリット
休憩 10分
50分
1. 本番で動かすことを前提とした、これまでと本レクチャーの違い
2. Pysparkを本番環境で動かす際の流れ
3. Spark Submitを動かす(Sparkをコマンドラインで実行する方法)
4. チューニングのコツ
1. Spark Webインタフェースを用いたボトルネックの調査
2. メモリへの登録