ビッグデータ収集


PHPにて海外賃貸のビッグデータ収集を行いました。収集したデータはMySQLで保存し、CSVデータとしてダウンロードできる形になっています。

※取得データのうち、4件を抜粋。

取得したままのHTMLでは使えないので、PHPにて「価格」「住所」など使える情報として分割処理をし、DBに保存しています。なお、細かな整形などはしていません。ちなみにデータ収集を実行したサイトはこちらになります。

開発環境

[DB / 使用言語] MySQL / PHP
[作業PC / 作業エディター] Windows / Sublime Text 3

実際の案件では、OSはLinuxを使用。手元のXAMPP環境でもテスト実行はできます。ライブラリなどは使用せず、PHPのcurl関数での実行となります。

自分が実施したこと

  1. PHPによる2サイトのデータ収集。生HTMLのDBへの保存。
  2. 保存した生のHTMLから必要項目を分割取得。項目ごとにDBヘ保存。

収集後のデータの使い道

フロント側については現在勉強中のため、まだ実装はできていないですが、今後は下記の流れを想定しています。

収集したデータを、整える。
整えたデータをWordPressのフロント側で受け取る。
表示。

こうする事で、中〜大規模なポータルサイトを作成(予定)です。

なお、私自身は、まだフロント側のスキルについては勉強中なので、勉強後に「投稿データ」としてWordPressサイトに流し込む形で、いつか下記のポータルサイトを完成できれば良いなと考えています。

URL:https://thai-mig.com/
使用テーマ:GENSEN(TCD)

ドメイン取得やhttps化、有料テーマの導入(TCDのGENSEN)のみを行った状態になっています。スクレイピング後のデータは、まだ流し込んでいません。デザインやフロントのプログラミングなどもしておらず、現状ほぼ初期状態です。

※現在停止中。


この記事を書いた人

竹田奈央

フリーランス女性エンジニア|年収630万円UP&フルリモートで自由な働き方を実現中

石川県出身・東京都在住。国立大学中退後、情報工学科を卒業し、開発歴5年以上。現在はフルリモートで活動するフリーランス女性エンジニアです。

受託開発・SES・自社サービス・上場企業での大規模開発などの開発経験を持ち、柔軟な対応力が強み。アラサーで独立し、単価80万円以上の案件を獲得、年収は630万円以上アップしました。

「地方出身でも」「女性でも」「会社を辞めても」エンジニアとしてキャリアアップできると身をもって実感中。自由な働き方やキャリア形成に興味がある方は、ぜひTwitterまたはLinkedInでお気軽に繋がってください!