プログラマでありたい

おっさんになっても、プログラマでありつづけたい

2014-04-01から1ヶ月間の記事一覧

RubyでYahoo! キーフレーズ抽出APIを使ってテキストマイニング

Rubyでキーワード抽出およびTF-IDFでキーワードの重要度の重み付けが出来んかなと思ってGemを漁ってみました。残念ながら、日本語データに関しては、それらしいのは見つかりませんでした。キーワード抽出については、Mecabで形態素解析後に品詞同士のつなが…

Ruby製のクローラー Anemoneでストレージをファイルに変更する

シリーズの如く何度かAnemoneの話を書いています。Anemoneは割りと小さなモジュールなので、ソースを読めば直ぐに解ることが多いです。一方で、ドキュメントが充実しているとは言い難いので、少し違うことをしようとすると、ソース嫁という状態になります。…

AppleTVのYoutubeにログインできない場合の傾向と対策

息子がプラレールで遊んでいるうちに、すっかりと鉄ちゃん予備軍になりました。来る日も来る日もプラレールで遊び、またある時はYoutubeで電車の映像を眺めています。そんな訳でいちいち検索するのも面倒くさいので、息子が利用する用のアカウントを作って幾…

FireFoxやChromeを使って任意のノードのXPathを簡単に抽出する方法について

「Ruby製の構文解析ツール、Nokogiriの使い方 with Xpath」というエントリーで、Nokogiriの使い方に絡めてXPathの記述をちょこっと書きました。XPathは、XMLやHTMLのノードを指定する為の構文です。XPathを使うことにより、HTML中のタグも一意に指定すること…

Ruby製の構文解析ツール、Nokogiriの使い方 with Xpath

RubyでHTMLやXMLをパースする構文解析ツールの定番は、Nokogiriです。スクレイピングする際の必需品で、なくてはならないモジュールの1つです。ただ色々なことが出来る反面、どこから取りかかれば良いのか解り難い部分もあります。自習を兼ねて、Nokogiri概…

Google Adsenseのレスポンシブル広告ユニット(ベータ版)を、スマホで見たらひどかった件

はてなブログに移行しまたので、スマホの方にGoogle Adsenseの設定をしてみました。幾つか方法を調べていたのですが、JavaScriptを使い自分でサイズに応じて広告の大きさを変える方法と、Googleが提供するレスポンシブル広告ユニット(ベータ版)を使う方法…

Ruby製のクローラー Anemoneの文字化け対策

何度も取り上げていますが、Ruby製のクローラーであるAnemoneについてです。もう2年ほどメンテナンスされていないものの、Rubyの中のクローラー・フレームワークとしては未だに一番の完成度です。しかし、残念ながら幾つかの問題点があります。その中で日本…

Ruby2.0の文字エンコーディングの簡単なまとめ。KconvとM17N

浦島太郎状態になっていたので、Ruby周りの文字コードの扱いについて改めて勉強しなおしました。簡単にいうとRuby 1.9.1以降の多言語化仕様(M17N)では、文字コードをどう扱えばよいのかという点です。 Rubyの文字コード変換ライブラリ Ruby 1.9.1の多言語…

新社会人に伝えたい「インプットよりアウトプットが大切」の嘘

新社会人向けに、おっさんがブログで講釈をたれるのが流行る季節になってきました。おっさんの一人として、私も偉そうなこと言ってみます。それは、 「インプットよりアウトプットが大切」 なんて大嘘です。 そんな戯言を真に受けている暇があったら、さっさ…