読者です 読者をやめる 読者になる 読者になる

プログラマでありたい

おっさんになっても、プログラマでありつづけたい

スクレイピングのお仕事について

 今年一番のトピックスは、クローラー本の出版でした。ちょうど、昨年の今頃に企画が舞い込んできて、2月〜7月くらいでせっせと書いていました。企画から執筆中まで、一貫してクローラー本の需要があるのか半信半疑でした。半信半疑というより、売れないだろうと思いながら書いていました。しかし、蓋を開けてみたら思いのほか好調で、既に増刷も2回繰り返しています。Amazonの順位の方も順調で、4ヶ月程ほぼ3,000位以内をキープしています。

f:id:dkfj:20141202231546p:plain

 これが不思議で仕方がないので、どんな人がクローラーやスクレイピングを必要としているのか、ちょっと考えてみます。考える材料としては、クラウドソーシングサイトで「スクレイピング」や「クローラー」、「データ収集」といったキーワードで検索してみます。対象のサイトとしては、以下の2サイトです。
Lancers
CrowdWorks

クラウドソーシングでの求人の分類



 人間系の収集&まとめですが、下記のような求人にまとめられます。

主な求人内容
  • 特定サイトからのデータ抽出(サイト非公開)
  • 求人サイトからのデータ抽出
  • ヤフオクからの出品情報の抽出
  • ECサイトから商品データ抽出
  • アダルト動画&画像の抽出とブログへの投稿
  • 2chからデータ抽出とブログへの投稿
報酬帯
  • 5,000〜50,000円 8割程度
  • 50,000〜100,000円 2割程度

 目立つのは、抽出&ブログへの自動投稿系の求人です。複数の依頼者から定期的に求人依頼があるようです。半ばスパムの世界なので、効率重視なのでしょうね。いかに安い原価で大量のサイトを作ることを突き詰めた結果でしょう。
 また次に目に付くのは、特定サイトからのデータ抽出です。抽出先は非公開で、クローズドな形でやり取りして提案まで行き着くパターンのようです。
 あとは安定して多いのが、Amazonからのデータ抽出です。これは検索条件を変えれば幾らでも出てきそうな勢いでした。

 報酬帯は、5,000〜50,000円が多いですが、私にはそもそもクラウドソーシング系の報酬の相場が解らないので、この報酬が相場なのか安いのかは解りません。ただ、内容を見ている限りは難易度が低く類似の案件が多いので、稼ぎやすいのかもしれません。

感想



 考える材料にしようとクラウドソーシングサイトを見ていたのですが、登録されている案件が興味深すぎて、それどころではなかったです。クローリング対象のデータとして、クラウドソーシングサイトが魅力的すぎるので、どこかで調査してみたいですね。求人のカテゴリの推移や相場をデータ化すると、いろいろな考察の元ネタになるはずです。


See Also:
クローラーとAWSが出会ったら?第3回Webスクレイピング勉強会@東京
RubyでWebスクレイピングの話をしてきました。第1回Webスクレイピング勉強会@東京
「第2回Webスクレイピング勉強会@東京」に参加&発表してきました
『Rubyによるクローラー開発技法』を書きました
Rubyによるクローラー開発技法の目次


参照:
クローラー/スクレイピング Advent Calendar 2014
プログラマになりたい Advent Calendar 2014

Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例

Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例