ビッグデータ収集

PHPにて海外賃貸のビッグデータ収集を行いました。収集したデータはMySQLで保存し、CSVデータとしてダウンロードできる形になっています。

※取得データのうち、4件を抜粋。

取得したままのHTMLでは使えないので、PHPにて「価格」「住所」など使える情報として分割処理をし、DBに保存しています。なお、細かな整形などはしていません。ちなみにデータ収集を実行したサイトはこちらになります。

開発環境

[DB / 使用言語] MySQL / PHP
[作業PC / 作業エディター] Windows / Sublime Text 3

実際の案件では、OSはLinuxを使用。手元のXAMPP環境でもテスト実行はできます。ライブラリなどは使用せず、PHPのcurl関数での実行となります。

自分が実施したこと

  1. PHPによる2サイトのデータ収集。生HTMLのDBへの保存。
  2. 保存した生のHTMLから必要項目を分割取得。項目ごとにDBヘ保存。

収集後のデータの使い道

フロント側については現在勉強中のため、まだ実装はできていないですが、今後は下記の流れを想定しています。

収集したデータを、整える。
整えたデータをWordPressのフロント側で受け取る。
表示。

こうする事で、中〜大規模なポータルサイトを作成(予定)です。

なお、私自身は、まだフロント側のスキルについては勉強中なので、勉強後に「投稿データ」としてWordPressサイトに流し込む形で、いつか下記のポータルサイトを完成できれば良いなと考えています。

URL:https://thai-mig.com/
使用テーマ:GENSEN(TCD)

ドメイン取得やhttps化、有料テーマの導入(TCDのGENSEN)のみを行った状態になっています。スクレイピング後のデータは、まだ流し込んでいません。デザインやフロントのプログラミングなどもしておらず、現状ほぼ初期状態です。

※現在停止中。

この記事を書いた人

竹田奈央

石川県出身 / 都内在住 / 国立大中退→情報工学科卒 / フリーランスの女性WEBエンジニア / フルリモート / アラサー / 独身 / #ADDress ワーケーション / 松本人志・千鳥好き/ 下記Twitter OR LinkedInボタンで繋がってくれると嬉しいです