こんにちは、にゃんさんです。
今日はETLツールの魅力について書いていきたいと思います。
仕事柄ETLツールを使うことが多くなってきたので備忘録として、お役に立てば幸いです。
※徐々に記事を更新していきたいと思います。
ETLツールとは?
そもそもETLツールとはなんぞやの話になりますが、ETLの略語としては、
Extract(抽出)
Transform(変換)
Load(書き出し)
の略語をとったものになります。いろいろなところにあるファイルやデータベース、システムからデータを抽出し、データを加工(変換)し、書き出す一連を行うツールの総称を指します。ですので、簡単に言うと、データを抽出して、必要な加工を行い、書き出すツールになります。
ETLツールのメリット
データ加工をツールで処理ができ、直感的な操作でシステム開発が可能になります。プログラミングの知識がなくても作成することができ、開発工数を削減することが期待できます。
Pentaho Data Integration(CE版)を例に説明します。
以下の図はETLツールであるPentaho Data Integrationを起動した画面になります。
左のデザインタブより、加工したい処理(ステップ処理)を選択し、データ変換の定義を決めていきます。
例えば、Pentaho上でCSVファイルを読み込むと、以下のような形で読み込むことができます。Pentaho上で読み込んだデータについては、データの中身を加工(数字を変換するなど)や、Excelの拡張子にも出力できますし、データベースのテーブルへの書き込みも可能です。
このようにETLツールを使用することで様々なことが可能になります。
ETLツールのデメリット
ファイルやデータを直感的に加工してくれるETLツールですが、使用するまでにサーバやデータベースの知識が必要になる可能性が高いです。ETLツールを利用するために自分たちで準備したサーバ上に構築する必要があることや、様々なデータベースからデータ抽出ができるため、データベースのホスト名、インスタンス名、ポート番号、テーブル名など・・・ある程度のデータベース等の知見も必要となってきます。
まとめ
ETLツールのPentahoをベースに簡単な説明や使い方について説明しました。次回以降で詳細な使い方についてレクチャーしていきたいと思います。