『Rubyによるクローラー開発技法』を書きました

　勉強会やスライドで紹介していましたが、Ruby×クローラーという題材で、『Rubyによるクローラー開発技法』という本を書かせて頂きました。RubyとEmacsの鬼であるるびきちさんとの共著です。

作者: るびきち,佐々木拓郎
出版社/メーカー: SBクリエイティブ
発売日: 2014/08/25
メディア: 大型本
この商品を含むブログ (1件) を見る

この本を書いた理由

　そもそものキッカケは、るびきちさんのエントリーにある通り、SBクリエイティブの編集者さんが、クローラーの作成経験のある人を探していて、私の書いた「オープンソースのRubyのWebクローラー"Anemone"を使ってみる」を読んで打診してくださったというのが始まりです。
　私自身も、Webからデータを収集して分析するということは、趣味として長年やってきました。一方で、本業の方でクローラーというものを作ったことはなく、せいぜい業務効率化でデータ取得をサポートするスクリプトを作る程度です。もっと言えば、Webサイトの運用で、質の悪いクローラーと戦うことの方が多かったです。そんなこともあり、クローラーというある種グレーゾーンに入りやすいものを題材とするので、書いても良いのかという悩みました。また、そもそもクローラーの本の需要は、ニッチな上に寿命が短いのではという懸念もありました。
　いろいろ考えることはありましたが、クローラーやスクレイピングの技術を正しく使えば有用なことは間違いありません。そこで、私なりのクローラーというものを伝えられればと思い挑戦してみました。

本の内容

　６章構成になっています。

１章　10分クローラー作成
２章　クローラー作成の基礎
３章　収集したデータを分析する
４章　高度な利用法
５章　目的別クローラーの作成
６章　クローラーの運用

　２＆３章で、データの収集から解析まで一通り取り扱っています。nokogiri&anemoneやxpathといった基本的なライブラリの使い方から、軽く正規表現や形態素解析・自然言語処理の話をしています。４章の部分は、クローラーを拡張していくにはどうするかという観点で書いています。そして、５章は目的別のクローラーということで、実際のサイトを対象にどのようにデータをとってくるのかを具体的に書いています。おなじみの株価や新聞からの情報収集や、iTunes StoreやGoogle Playからのアプリランキング取得など20以上のトピックスがあります。最後の６章は、主にサーバサイドで動かすにはという話です。この辺りは、AWSの各種サービス（SNS,SQS）との連携などにも触れています。

　全般的には、クローラーを初めて作る人を意識して書いています。クローラーとかスクレイピングは、超絶テクニックが有るわけではなく、どちらかと言えば泥臭い作業の連続です。その辺りを、どのように考えながら作るのかを書いたつもりです。

まとめというか感想

　本を書くということは初めての経験でした。想像以上の大変さで、改めて執筆者の凄さというのを認識できました。また、本の冒頭に家族への感謝の気持ちが書かれていることが多く、今までいったい何なんだろうと思っていました。自分で書いてみて初めて解ったのですが、家族の協力がなければ執筆作業はとてもじゃないですが出来ないです。（平日の晩や土日が潰れるので、家事や子育てなどの負担が重くなる）本当に感謝の気持ちで一杯です。
文系上がりのエンジニアとして何者でもなかった自分が、何かには成れたように思えます。