2011-12-01から1ヶ月間の記事一覧

紀元前後情報と年月日情報からの曜日特定

メリットは特にないと思いますがjava.util.Calendar.*を使わずに、CE/BCE(紀元前後)情報と年月日情報から曜日を特定し出力します。1582CEの10月5日から14日までは存在しません。それ以前はJulian暦、それ以後はGregorian暦を採用します。実際にJu…

二つの文字列の類似度

雑な備忘録なので、サーベイの前準備程度にお使いください。 二つの文字列の類似度を測る方法についてまとめる。なお、値が高いほど類似度が高いものには青色、値が高いほど類似度が低いものには赤色で色付けた。 なお、意味レベルまで考慮して単文あるいは…

三大紙のニュースページからの記事抽出

三大紙(:朝日、毎日、読売)のニュースサイトからクロールされたwebページから、記事を抽出するプログラムを書いた。1つのニュースページからの抽出物は次の3つ 記事タイトル 更新時間 記事内容(画像なし) 実験のためのデータ集めで急いで書きました。…