先日のJAWS-UG アーキテクチャ支部 クラウドネイティブ分科会 CDP議論会 #7で、Lambdaを利用したクローラー/Webスクレイピングについての発表をしてきました。
発表の経緯
そもそも何故アーキテクチャ支部でクローラー/Webスクレイピングの話をしたのかです。クラウドネイティブ分科会では、ここ数回Lambdaの実践的な活用について議論しています。利用パターンとしては、システムの中核となる部分とそれ以外の部分があるよねという前提がでてきました。そして、それ以外の周辺分野から利用していくほうが実践導入は早そうなので、そこで使えるパターンを議論してきました。その中で、出てきたのが下記の5パターンです。
・監視
・通知
・フィルター
・コンテンツ確認(Validation)
・チャットOps
※この辺りについてはアーキテクチャ支部のGitHubのIssueに記載されているので、興味ある人はご確認ください。
その中の1つの監視で、サービス監視というところにクローラー/スクレイピングの技術があるよという流れで、そもそもLambda上でどう実現するかという話が出てきました。Seleniumとかあるよねというので、では簡単にまとめて見ましょうということで私も話すことになりました。
発表資料
当日の発表資料は、次のとおりです。あくまで監視という文脈なので、具体的な方法については、ほぼ記載していません。クローラー/スクレイピングの全体感を説明した上で、最後に監視方法の1例について説明しています。
www.slideshare.net
当日の議論
何をどう監視するかということで、それぞれの立場ごとに意見が異なっていて面白かったです。私としては、個々のサーバやプロセスは内部から監視して、Lambdaからの監視はユーザ視線でどう見えているのか確認という意味で考えておりました。
当日の議論は、そこに留まらずサーバレス監視の実現・CloudWatchとの補完などあり、なるほどなぁと思えることが多かったです。それ以外にも、マイクロサービスやDockerの運用(監視)の話も出てきて、これまでと違った知見がいるということを痛感しました。奥が深いです。(というか闇が深くなるかもしれませんw)
感想
個人的には、クローラー/Webスクレイピングの実行基盤としてのLambdaは最良の部類かと思っています。Lambdaに特化した情報をもう少しまとめていこうかなと思います。まとめ方の形態については、いろいろ画策しています。
Amazon Web Services クラウドネイティブ・アプリケーション開発技法 一番大切な知識と技術が身につく
- 作者: NRIネットコム株式会社,佐々木拓郎,佐藤瞬,石川修,高柳怜士,佐藤雄也,岸本勇貴
- 出版社/メーカー: SBクリエイティブ
- 発売日: 2016/04/20
- メディア: 単行本
- この商品を含むブログを見る
Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例
- 作者: 佐々木拓郎,るびきち
- 出版社/メーカー: SBクリエイティブ
- 発売日: 2014/08/22
- メディア: 単行本
- この商品を含むブログ (9件) を見る
See Also:
アプリケーションエンジニア向けのAWS本を書きました
Amazon Web Services クラウドネイティブ・アプリケーション開発技法の目次
『Rubyによるクローラー開発技法』を書きました
『Amazon Web Services パターン別構築・運用ガイド』を書きました