2回コース講座 データエンジニアと学ぶPythonとSparkで学ぶPySpark

オンライン

データサイエンスのための前処理をマスターしよう

こんなことを学びます

概要はコチラのスライドからもご覧いただけます。
https://www.slideshare.net/YukiSaito24/pythonsparkpy-spark

<こんなことを学びます>
Pysparkのバッチ講座になります

学べること
ケーススタディで実務を例に取ったデータエンジニアリングの流れで紹介
PySparkを使う上でハマりやすいチューニングポイントを知ることができます
分散処理の基本を学ぶことができます

<こんなことが出来るようになります>
CSVデータやカラムナーをPySparkで読み込み、SparkSQLやDataFrameを使って整形。カラムナーフォマットで出力するというデータエンジニアリングの一連の流れを一人でできるようになります。
また、エンジニアとして本番に適用する際にハマりやすいチューニングポイントを紹介します。

<こんな風に教えます>
画面を共有しながらレクチャーを行います※Windowsでも受講可能ですが、講師の端末はMacOSです。随時質問も受け付けながら行います。

<持ち物>
PCを一台ご持参ください

<定員>
基本 3~名
(要望と開催スペースに応じて変わります)
続きを読む

開催日程がありません

開催予定エリアオンライン

価格(税込)¥8,000(¥4,000 × 2 回)

現在は開催リクエストを受け付けていません
受けたい
0人が受けたい登録しています

オンライン受講日程

開催日程はありません。

オンライン受講料に含まれるもの

レッスン代

この講座の先生

ビッグデータエンジニア

プロフィール
【概要】

エンジニアとして、

官公庁や、広告業界のWebシステムの構築を要件定義から保守運用まで幅広く経験している。

2017年4月からは、マネージャーとしてデータ系の組織の立ち上げや、データ基盤のアーキテクト及びディレクションに携わりデータエンジニアの集団のマネジメント業務を経験。
Udemy講師でもあります
【URL】https://www.udemy.com/course/python-spark-pyspark/?referralCode=E67BF8B61F65866794EB

【執筆歴】

...
+続きを読む

カリキュラム

  • 第1回 Sparkの紹介とインストール&Sparkの基本

    全体で2時間ほどを予定していますがお時間に余裕を持ってご参加ください。

    15分
    自己紹介やコース説明

    40分
    Sparkの紹介とインストール&質疑

    1. Sparkとは?
    2. 分散処理とは?
    3. PySparkとは?
    4. Pyspark インストールとノートブックの簡単な説明
    5. Pysparkを簡単に動かしてみよう

    休憩 10分

    60分
    Sparkの基本&質疑

    1. Spark Sessionとは?
    2. Sparkを用いたバッチにおけるエンジニアリングの流れ(データソース、変換、カラムナーフォーマット、テーブル作成)?
    3. データソースの読み込み
    4. データ変換
    5. DIKWモデル
    6. カラムナーフォーマットへの変換
    7. スモールファイル問題
    8. 参照用のテーブル作成

  • 第2回 SparkSQLと本番環境への適用

    全体で1.5~2時間ほどを予定していますがお時間に余裕を持ってご参加ください。

    30分
    SparkSQL&質疑
    1. 前のセクションの振り返りとSparkSQLの紹介
    2. SparkSQLを用いてデータエンジニアリング一連の流れを再現
    3. テーブル定義はどこに保存されている?
    4. SparkSQLの他のTips(Insert文)
    5. SparkSQLの他のTips(Hint文)
    6. Update/Delete文?
    7. SparkSQLを使うメリット、Dataframeを使うメリット

    休憩 10分

    50分
    1. 本番で動かすことを前提とした、これまでと本レクチャーの違い
    2. Pysparkを本番環境で動かす際の流れ
    3. Spark Submitを動かす(Sparkをコマンドラインで実行する方法)
    4. チューニングのコツ
    1. Spark Webインタフェースを用いたボトルネックの調査
    2. メモリへの登録

こんな方を対象としています

向いている人:
これからビッグデータの世界で大規模なデータと闘うABC人材になりたい人
Pythonを使ったプログラミングを強化したい人
Pythonに分散処理というスパイスを加えたい人

向いていない人:
Pysparkの熟達者
Pysparkでストリーミング処理をやってみたい方
機械学習のアルゴリズムを勉強したい方
難しいアルゴリズムは出てきません
続きを読む

受講する際は以下をお読み下さい

Windowsでも受講可能ですが、講師の端末はMacOSになりますのでセッティングや画面の説明はMacでの実施となります。
続きを読む
※ストアカでは講座に適用される保険を用意しています。詳しくはストアカ補償制度をご覧ください。

データサイエンスのおすすめの先生データサイエンスの先生を探す

データサイエンスの関連カテゴリーから講座を探す

先生のスキルから探す