プログラマでありたい

おっさんになっても、プログラマでありつづけたい

技術メモ

TimeCapsule以外のNASで、TimeMachineを使う

appleのTimeCapsule素晴らしい発想の商品だと思います。NASに無線を付けるという考え方、最初にした人は凄い。しかも、Leopardの売りの一つであるTimeMachineの母艦となるように作られているので、欲しくなってきます。しかし、私には3つの理由で購入を見送…

郵便番号から緯度経度情報を取得するには?

郵便番号マップを作ってみた ビジュアライジング・データ ―Processingによる情報視覚化手法 を読んでたら「アメリカの郵便番号を地図上に図示する」という例が出てきたので、これの日本版を作ってみました。 面白いエントリーが挙がっていました。続編が楽し…

これって、なんてSQL

たまに使うけど、下記のような構文のSQLって何て呼ぶのでしょう?副問い合わせではないですよね。ほのかな疑問。 select * from (select * from dual)

maven local repository directory is not foundと出たら

Eclipseで、Doltengプロジェクトを作ったり消したりしていたら、下記のように"maven local repository directory is not found"とエラーが出て新規にプロジェクトが出来なくなりました。 原因は、プロジェクトを消しても、Doltengの設定が残っている為のよう…

Open source Cluster 3とJava TreeViewを使ってみた

「livedoor clipsのデータを少しだけ眺めてみた。」と「livedoor clipsのタグ情報をクラスタリングしてみる」の続き。 livedoor clipsのデータを視覚化してみました。方法は、Cluster 3とJava TreeViewを使うことにしました。(両方ともここから落とせます。…

livedoor clipsのタグ情報をクラスタリングしてみる

「livedoor clipsのデータを少しだけ眺めてみた。」の続き。 データをインポートが終わったので、次はそのデータの活用をしようと思います。まずは何からかなぁと考えていたのですが、タグ同士でクラスタリング出来ないかと考えました。つまりグループ化。意…

livedoor clipsのデータを少しだけ眺めてみた。

データ貰うだけもらって、放置していたlivedoor clipsのデータを覗いてみました。 クローリングしてる暇があるなら…論文かいたら? | EDGE Datasets(研究用データセット) ダウンロードと一緒に取り扱い説明がついています。そのままだとtagが文字列データとし…

Eclipseの改行コード

久々にWindowsでEclipseを使った。改行コードがCRLFになるので、どこで設定するんだろうと思いちょっと調べてみた。Eclipse3.2の場合、ウィンドウ->設定->一般->ワークスペースで新規テキスト・ファイルの行区切り文字をその他Unixを選択する。プロジェクト…

Windowsでディスクの使用量が可視化できるツール WinDirStat

Windowsでファイルやフォルダのディスクの使用率や占有率を調べたくて何か良いツールがないか探してみました。 WinDirStatが中々グッドです。調べた上で、可視化までしてくれます。欠点として結構時間が掛かるというのはありますが、常時使うものでもないの…

gemでzlib起因のエラー

fedora coreの環境にもRuby on Railsを入れようとしました。先日の、「CentOS 5にRuby On Railsをインストールする」とほぼ同じ作業をして、gemからrailsをインストールしようとすると下記のようなエラーが出ました。 # /usr/bin/gem install rails /usr/lib…

着眼点が凄い! この人も好きかも!

最近流行りのリコメンドサービス。また面白いサービスが出てきました。「この人も好きかも!」 サービスの内容は、以下の通り。人名からリコメンドしてくれます。 好きな作家、漫画家、ミュージシャンなどの人名を入力すると、他に好きになれそうな人物をラ…

集合知サイト

これはすごい」と思う集合知のサイトを教えてください。 集合知を使ったサービスの一覧。質問者がかなり知識のある方のようで、紹介されたサイトに一つ一つちゃんとコメントを付けてくれているので、かなり解り易くなっています。

mecabで文章中のURLを抽出する

mecabでURLをTokenizeすると、個々の要素に分解されてしまいます。 $ mecab http://d.hatena.ne.jp/dkfj/20081219/1229648643 http 名詞,固有名詞,組織,*,*,*,* :// 名詞,サ変接続,*,*,*,*,* d 名詞,一般,*,*,*,*,* . 名詞,サ変接続,*,*,*,*,* hatena 名詞,…

コードも視覚化!!

最近、少しずつビジュアライジング・データを読み始めています。今まで割と視覚情報については苦手意識もあって避けていた部分があるのですが、改めて重要だなと思い始めました。 そんな中で、久々に正規表現を多用するコードを書く必要があって四苦八苦して…

iPhone開発の記事

目指せ!iPhoneアプリ開発エキスパート 楽しみな連載が始まりました。

大量データの処理方法 はてなさんの場合

KOF 2008 の発表資料 大量データの処理の実際の話。特に気になるのが、ドキュメントのベクトル化。確かにベクトルの方向で類似文章を見つけることは出来ると思うのですが、id:naoyaさん自身が言う通り辞書の単語数×ドキュメント数の計算をしないといけません…

mod_cluster

mod_cluster登場、mod_jkやmod_proxyよりも優れたロードバランシング mod_jkやmod_proxyより優れたとの触れ込みのmod_cluster。特徴として、APサーバ側からのフィードバックを取れるそうです。確かに利点ですね。ただこの辺のモジュールは、信頼性が大切なの…

オープンソースのレコメンドエンジン Taste

Netflix Prize 外野席というエントリーを読んでいるら、オープンソースのリコメンドエンジン Tasteが紹介されていました。Javaベースの協調フィルタリングのレコメンドエンジンです。こんなのがあるのは、全然知りませんでした。 まだ詳しく見ていないのです…

Oracle TimesTenとCoherenceとオープンソースと

先日、「Oracle涙目。memcachedの使い方」というエントリーを書いたら、それって、Oracle TimesTenとCoherenceというコメントを頂けた。こういった情報を頂けるのは、非常にありがたいです。ざっと資料を読んだだけですが、確かに信頼性が高そうです。実際に…

Seasar2でmemcachedを使う

WEB+DB PRESS Vol.47を読んでいて、Seasar2で使う方法を考えていました。Java用のmemcachedのクライアント、"memcached client for java"を呼べば、面倒くさい処理をほとんど書かずに使えそうです。logic層からDAO層にデータの呼び出しに行く所に分岐を書い…

Oracle涙目。memcachedの使い方

かなりつぼにハマっている今月のWEB+DB PRESS Vol.47。結構紙面を割いて特集を組んでいるmemcachedの記事も中々良いです。mixiやlivedoorで使われていて有名になった技術ですが、そろそろ一般の会社でも導入が検討されつつあるということでしょうかね。 アプ…

One True Lookup Tableという考え方

WEB+DB PRESS Vol.47が発売されました。今月の密かな注目が、SQLアタマアカデミーの単一参照テーブル(One True Lookup Table)という概念と実利についてです。これ何ぞやといいますと、都道府県マスタや、性別マスタ等の雑多かつコードと名前しか無いような…

man ascii

今の子どもって、アスキーコードとかも分かってないのかもねのはてブのコメント man asciiをするといいよ! というかプログラミングキャンプでは初日に説明した知らんかった。知らんかった。知らんかった。$ man ascii ASCII(7) BSD Miscellaneous Informatio…

Subversionのリポジトリのファイルタイプを切り替える。

SubversionのリポジトリのファイルシステムをBerkeleyDBにしていると、かなりの確率で壊れます。たいていの場合、svnadmin recoveryで直りますが、根本的な対処としてはBerkeleyDBを使わないようにしましょう。で、運悪く既に使っている場合の、移行方法です…

Macで画像キャプチャをする方法

恥ずかしながら最近まで知りませんでした。 標準機能でついているようです。Macで画面キャプチャというエントリーを参考にさせて頂きました。 * 画面全体:command+shift+3キー * 選択範囲:command+shift+4キーを押して、目的の領域をドラッグして選択 * ウ…

Suffix Arrayのリンク集

これをマスターしたら、プログラマとして幅が広がるなと思っているのがSuffix Array。たつをさんの所で、リンク集を整備していました。折を見て、試してみたいです。 Suffix Array の解説文書のリンク集 ※MecabをSuffix Arrayの実装と考えて、Mecabを使うと…

SubVersionのリポジトリが壊れたら?

SVNのリポジトリでBerkeley DBを使っていると、よく壊れます。 基本的にsvnadmin recoverで回復するのですが、たまに致命的に壊れます。 Repository lock acquired. Please wait; recovering the repository may take some time... svn: DB_RUNRECOVERY: Fat…

SpamAssassinで必ずスパムと判断させる

本文を下記のみにしておけば、必ずスパムと判断されます。 テスト時に、たまに使える。XJS*C4JDBQADN1.NSBN3*2IDNEN*GTUBE-STANDARD-ANTI-UBE-TEST-EMAIL*C.34Xhttp://spamassassin.apache.org/gtube/

bash: /bin/rm: Argument list too long

大量のファイルをgrepやrmしようとすると、 Argument list too long やら 引数が多すぎます と怒られます。その時の対処方。

LANGの設定

UTF-8 export LANG=ja_JP.UTF-8 S-JIS export LANG=ja_JP.SJIS EUC export LANG=ja_JP.EUC-JP