【Pentaho】ETLツールの魅力について

こんにちは、にゃんさんです。

今日はETLツールの魅力について書いていきたいと思います。
仕事柄ETLツールを使うことが多くなってきたので備忘録として、お役に立てば幸いです。
※徐々に記事を更新していきたいと思います。

ETLツールとは?

そもそもETLツールとはなんぞやの話になりますが、ETLの略語としては、

Extract(抽出)

Transform(変換)

Load(書き出し)

の略語をとったものになります。いろいろなところにあるファイルやデータベース、システムからデータを抽出し、データを加工(変換)し、書き出す一連を行うツールの総称を指します。ですので、簡単に言うと、データを抽出して、必要な加工を行い、書き出すツールになります。

 ETLツールのメリット

データ加工をツールで処理ができ、直感的な操作でシステム開発が可能になります。プログラミングの知識がなくても作成することができ、開発工数を削減することが期待できます。

Pentaho Data Integration(CE版)を例に説明します。

以下の図はETLツールであるPentaho Data Integrationを起動した画面になります。
左のデザインタブより、加工したい処理(ステップ処理)を選択し、データ変換の定義を決めていきます。

例えば、Pentaho上でCSVファイルを読み込むと、以下のような形で読み込むことができます。Pentaho上で読み込んだデータについては、データの中身を加工(数字を変換するなど)や、Excelの拡張子にも出力できますし、データベースのテーブルへの書き込みも可能です。
このようにETLツールを使用することで様々なことが可能になります。

ETLツールのデメリット

ファイルやデータを直感的に加工してくれるETLツールですが、使用するまでにサーバやデータベースの知識が必要になる可能性が高いです。ETLツールを利用するために自分たちで準備したサーバ上に構築する必要があることや、様々なデータベースからデータ抽出ができるため、データベースのホスト名、インスタンス名、ポート番号、テーブル名など・・・ある程度のデータベース等の知見も必要となってきます。

まとめ

ETLツールのPentahoをベースに簡単な説明や使い方について説明しました。次回以降で詳細な使い方についてレクチャーしていきたいと思います。