読者です 読者をやめる 読者になる 読者になる

プログラマでありたい

おっさんになっても、プログラマでありつづけたい

クローラー/スクレイピング本がざくざく

 2015年8月末に、クローラー/スクレイピング本が2冊同時に発売です。Python版メインのものとJavaScript版メインのものです。なかなか市場のニーズ突いてきていますね。

実践 Webスクレイピング&クローリング-オープンデータ時代の収集・整形テクニック

実践 Webスクレイピング&クローリング-オープンデータ時代の収集・整形テクニック

JS+Node.jsによるWebクローラー/ネットエージェント開発テクニック

JS+Node.jsによるWebクローラー/ネットエージェント開発テクニック

実践 Webスクレイピング&クローリング-オープンデータ時代の収集・整形テクニック



 実践 Webスクレイピング&クローリング-オープンデータ時代の収集・整形テクニックは、Pythonをベースにしたスクレイピング/クローラー本です。「インターネットを1つの巨大なデータベースとして扱えるようになろう」とキャッチコピーがあり、その為にいかに効率的にデータを取得するのか、またその為に注意するための法律面についての言及してあります。
 著者の@nezuqさんは、スクレイピングの勉強会である東京スクラッパーの主催者です。私も、Rubyのクローラー本を書いた際に、何回か発表の機会を頂きいろいろとお世話になりました。その縁もあり、今回献本いただき読ませて頂いています。ありがとうございます!!

f:id:dkfj:20150830173922j:plain

 ざっくり読みましたが、非エンジニアやスクレイピング/クローラーを全然知らない人には良いのではないでしょうか。理由としては、200ページくらいと軽量なことと、Windows前提のPythonを選択していることが主な理由です。さっくり読めます。Webスクレイピング代行サービスとしてkimonoや、オープンデータ・WebAPIの紹介等もしています。また、データの整形ツールとして、nkfやAWK,Excelとの連携も紹介しています。基本的なスクレイピングする際によく使うものが紹介されています。ただし、ここの説明については、あまり深くないです。スクレイピングを始めるための押さえる技術のガイド本として活用すべきかと思います。道を教えて、あとは独学で補うというタイプです。

実践 Webスクレイピング&クローリング-オープンデータ時代の収集・整形テクニック



 もう一冊のクローラー/スクレイピング本は、JS+Node.jsによるWebクローラー/ネットエージェント開発テクニックです。こちらの方は読んでいませんが、430ページという分厚さで利用しているライブラリも「PhantomJS/CasperJS/CoffeeScript/Electron/Node.js/Rhino/Nashorn/JScript他」と色々な深いところまでやっていそうな予感です。読んでみようと思います。

感想



 私がRubyによるクローラー開発技法というクローラー/スクレイピング本を出したのは、ちょうど1年ほど前です。その前には、Spidering hacksという10年ほど前の本があったくらいです。手前味噌ですが、クローラー本が予想外に売れたお陰で、クローラー/スクレイピングに対するニーズが意外に高いということが発見され、どんどん同種の本が出てくるのはありがたいことです。いつ発売か解りませんが、もう1冊スクレイピング本を書いている人も知っています。

『Rubyによるクローラー開発技法』を書きました
Rubyによるクローラー開発技法の目次

Rubyによるクローラー開発技法  巡回・解析機能の実装と21の運用例

Rubyによるクローラー開発技法  巡回・解析機能の実装と21の運用例