【まとめ】Googleスプレッドシートを使ってデータを取得する2つの方法
Googleスプレッドシートを使ったWebデータ取得方法には、大きく2つの方法があります。
・スプレッドシート関数の活用
・URLfetch関数の活用
これまで、いくつか例をあげながら紹介してきました。
今回は、これまでに紹介したスプレッドシートでWebデータを取得する方法を整理します。
スプレッドシート関数の活用
Googleスプレッドシートには、プログラム機能を使わなくてもデータを取得できる関数があります。
1. IMPORTXML関数:Webデータを取得
2. IMPORTHTML関数:Web上の表(テーブル)・リストを取得
3. IMPORTFEED関数:Web更新情報を取得
これらは、プログラム(Google Apps Script(GAS))を書かずに、Web上のデータを手軽に抽出することができます。ただし、1項目につき、1つの関数を呼び出す必要があるので複数のデータを抽出する場合、処理に時間がかかる・エラーが発生するなどのデメリットがあります。
URLfetch関数の活用
プログラム(Google Apps Script)を使ってWebデータを取得する関数です。
1. Googleスプレッドシートを使ったデータ取得:URLfetch関数の活用
2. Google Apps ScriptでWebデータ取得では使う正規表現はこれだけ!
3. Google Apps ScriptでWebデータ取得の考え方(個別商品ページ)
4. Google Apps ScriptでWebデータ取得の考え方(商品検索ページ)
WebページのソースであるHTMLを抽出します。IMPORTXMLなどのデータ取得関数とは異なり、1回のWebサイトへのアクセスで当該ページの全データを取得できるので処理が早くなります。
ただし、これだけでは、何も役に立たないので、取得したHTMLのテキストを分析して、欲しいデータを抽出する必要があります。従って、データを抽出のための文字列操作関数をいかに組み合わせて、欲しいデータだけを取得するかがポイントとなります。
サイトによって使えないものもある
某大手通販サイトなど、プログラムを使ったデータ取得ができないようにしているサイトもあります。
また、URLfetchでは上手く取得できないが、IMPORTXML関数を使うと取得できるサイトもあったりします。
うまく使い分けて行く必要があります。
まとめ
今回は、これまでに紹介したスプレッドシートでWebデータを取得する方法を整理しました。これらを上手く使うことができれば、いろいろ便利なことができるはずです。
ぜひ、いろいろチャレンジしてみて下さい。