ビッグデータ収集

PHPにて海外賃貸のビッグデータ収集を行いました。収集したデータはMySQLで保存し、CSVデータとしてダウンロードできる形になっています。

※取得データのうち、4件を抜粋。

取得したままのHTMLでは使えないので、PHPにて「価格」「住所」など使える情報として分割処理をし、DBに保存しています。なお、細かな整形などはしていません。ちなみにデータ収集を実行したサイトはこちらになります。

開発環境

[DB / 使用言語] MySQL / PHP
[作業PC / 作業エディター] Windows / Sublime Text 3

実際の案件では、OSはLinuxを使用。手元のXAMPP環境でもテスト実行はできます。ライブラリなどは使用せず、PHPのcurl関数での実行となります。

自分が実施したこと

  1. PHPによる2サイトのデータ収集。生HTMLのDBへの保存。
  2. 保存した生のHTMLから必要項目を分割取得。項目ごとにDBヘ保存。

収集後のデータの使い道

フロント側のスキル不足のため、まだ実装はできていないですが、今後は下記の流れを想定しています。

収集したデータを、整える。
整えたデータをWordPressのフロント側で受け取る。
表示。

こうする事で、中〜大規模なポータルサイトを作成(予定)です。

なお、私自身は、まだフロント側のスキルが不足しているので、勉強後に「投稿データ」としてWordPressサイトに流し込む形で、いつか下記のポータルサイトを完成できれば良いなと考えています。

URL:https://thai-mig.com/
使用テーマ:GENSEN(TCD)

ドメイン取得やhttps化、有料テーマの導入(TCDのGENSEN)のみを行った状態になっています。スクレイピング後のデータは、まだ流し込んでいません。デザインやフロントのプログラミングなどもしておらず、現状ほぼ初期状態です。

この記事を書いた人

竹田奈央

東京都港区勤務 / 国立大中退 / フルリモートの女性WEBエンジニア / アラサー / 独身 / 基本は石川県にいながら、都内の会社にてフルリモート勤務 / 7月〜東京・軽井沢・千葉 ADDress ワーケーション 中 / 松本人志・千鳥好き / 3日に1回ウンコツイート(←大事) / Twitterは @takeda_no_nao