PHPにて海外賃貸のビッグデータ収集を行いました。収集したデータはMySQLで保存し、CSVデータとしてダウンロードできる形になっています。
※取得データのうち、4件を抜粋。
取得したままのHTMLでは使えないので、PHPにて「価格」「住所」など使える情報として分割処理をし、DBに保存しています。なお、細かな整形などはしていません。ちなみにデータ収集を実行したサイトはこちらになります。
開発環境
[DB / 使用言語] MySQL / PHP
[作業PC / 作業エディター] Windows / Sublime Text 3
実際の案件では、OSはLinuxを使用。手元のXAMPP環境でもテスト実行はできます。ライブラリなどは使用せず、PHPのcurl関数での実行となります。
自分が実施したこと
- PHPによる2サイトのデータ収集。生HTMLのDBへの保存。
- 保存した生のHTMLから必要項目を分割取得。項目ごとにDBヘ保存。
収集後のデータの使い道
フロント側については現在勉強中のため、まだ実装はできていないですが、今後は下記の流れを想定しています。
こうする事で、中〜大規模なポータルサイトを作成(予定)です。
なお、私自身は、まだフロント側のスキルについては勉強中なので、勉強後に「投稿データ」としてWordPressサイトに流し込む形で、いつか下記のポータルサイトを完成できれば良いなと考えています。
URL:https://thai-mig.com/
使用テーマ:GENSEN(TCD)
ドメイン取得やhttps化、有料テーマの導入(TCDのGENSEN)のみを行った状態になっています。スクレイピング後のデータは、まだ流し込んでいません。デザインやフロントのプログラミングなどもしておらず、現状ほぼ初期状態です。
※現在停止中。