コピペを何度も繰り返さないで、自動で簡単にホームページのデータをExcelに貼り付ける方法 Octoparse(オクトパス)の使い方【Webスクレイピング】

2022年2月9日


【簡単Webスクレイピング】ホームページにある数多くの大量データを自動でダウンロードし、Excel表にコピペする作業を効率よく一瞬で行う方法、RPA(Python)、VBA(マクロ)、Power Automate)Octoparseの使い方

もしあなたが仕事で上司から「このサイトにある会社のリスト1000件分をExcelシートにコピペして、一覧表を作ってね」と言われた時に、どうしますか?

ホームページを1ページずつ開いて、それを一つ一つExcelシートにコピーアンドペーストして、表を作って行きますか?

一見につき15秒かかったとして、1000件あれば15,000秒。つまり250分、約4時間強かかります。
もちろん休憩しながらやったりしますから、そう考えると、1日がかりの仕事になっちゃいますよね。

今の時代、こんなことをやってはいけません!

頭を使えば、短時間で一気にリストを作ることができます。

今回は、ウェブページ上にある大量のデータを、自動化テクニックを使って一瞬で収集し、ダウンロードする方法、このような技術を、「ウェブスクレイピング」と呼びますが、その具体的に説明していきたいと思います。

ウェブスクレイピングを行う5つの方法

ウェブ上にあるデータを一気に収集したり、ダウンロードする方法には、以下の5つの方法があります
RPA、Octoparse、VBA (Excelマクロ)、Power Automate。

RPA

まずRPAですけど、プログラミング技術を持っている人にロボットを作ってもらうので、30万円とか、50万円とかのコストがかかります。

もし自分でやる場合も、Pythonというプログラムの知識が必要になりますから、素人の人ではとてもじゃないけどできません。

VBA (Excelマクロ)

次にExcelのVBA (マクロ)ですけど、こちらもかなり専門的な知識が必要になります。
普通のマクロだけではなく、Seleniumという特別なプログラムを別途パソコンにインストールする必要があります。
これも、普通の人にはかなり難しいです。

Power Automate

このようなインターネットからの情報収集を自動的に、かつ簡単に行う方法として、Microsoft Power Automateというソフトがあります。

こちらは頑張って勉強すればできると思いますけど、それでも1日から2日間位の学習が必要になるので、すぐに使えるものではないと思います。

もし学習したい場合は、YouTubeとかで操作方法の解説動画が数多くあるので、それを見てください。

Octoparseについて

今回、お勧めしたいのが、Octoparseというソフトです。

パソコンにインストールする必要がありますが、手順さえわかれば、ものすごく簡単にウェブスクレイピングが可能です。

今回は、その具体的なやり方について説明していきます。

Octoparse(オクトパス)の使い方

まずは、オクトパースをインストールしましょう。

インストール後は、Octoparseのサイトにアカウントを登録する必要があるので、メールアドレスとパスワードを登録します。

そして、パソコンにインストールしたOctoparseを起動させましょう。

起動時には、サイトへのログインをする必要がありますので、まずはログインをしてください。

では、具体的な使い方を説明します。

簡単に言うと、以下の3ステップでできます。

1 ダウンロードをしたい情報のあるホームページのURLをコピー

2 そのURLをオクトパスに貼り付けて、抽出開始をする

3 必要に応じて、微調整する → 必要ない場合もあります

4 抽出が終わったものを、Excel形式でアウトプットする

実際にやってみましょう!

うまい棒の商品情報を一気にダウンロードして入手する方法

ページの構成は、「メインの一覧ページ」と「各商品の詳細ページ」

このパターンでも、一気にデータをスクレイピングできます!

まずはOctoparse(オクトパス)を起動!
次にURLを貼ります。
「抽出開始」で、自動的に抽出されます。

抽出完了後


各詳細ページの情報も欲しいのでリンク先の情報も入手できるようにする

リンク先の列を選択

 

選択後、保存します。

設定後は、「ローカル抽出」をクリック

 

データをエクスポート

 

Excelでエクスポート

最終的にはこうなります!

 

簡単なので、ぜひやってみてください!


役に立ったと感じたら、ここをポチっとクリックして応援よろしくお願い致します