« 峨山道トレイルラン | 最新記事 | 線路の錆 »
※今日のブログは、まずここをクリックしてからお読みください。
「偶然短歌bot」@g57577という、形態素解析エンジンMeCabにて文章中から短歌を抽出するtwitter botを作られた方がいらっしゃいます。
これはどういうものかというと、ウィキペディア日本語版(2014年11月の版)の膨大なテキストの中から無作為に5・7・5・7・7になっている文章を抽出して短歌としてつぶやくというものです。
Twitter でつぶやく頻度も5・7・5・7・7時間おき!と、こだわりが見られます。
無作為に抽出されたとはいえ、なかなか意味深で、また詩的なものも多いというのが面白いですね。
これまでつぶやかれたものをいくつか見て行きましょう。
なお、短歌を見て、それがウィキペディア日本語版の何の語句の項目から抽出されたかを予想するのも楽しいです。
まずは短歌を列記します。短歌の隣に抽出元の語句の正解を掲載してみましたので、お楽しみください。
ある道を 右に曲がれば 東大で、まっすぐ行けば 公園なのね
「マッスル北村」項
↑この部分をマウス左クリックでなぞると答えが出ます。
質問を 受け付ける場を 設けたが、結局誰も 質問に来ず
「スマイリーキクチ中傷被害事件」項
空洞に なっているため 大きさを 支えきれずに 壊れてしまう
「マリモ」項
ギタリスト 二人のうちの どちらかが リードギターの 役割となる
「リードギター」項
「まゆあげ」の 表情が付き、「そうなの?」と たずねるような 表情となる
「日本手話」項
港では 他船がいない 状況は そうは望めず、また風も吹く
「水先人」項
竜兵を 中心とする 飲み仲間 「竜兵会」の 一員である
「有吉弘行」項
アルメニア、アゼルバイジャン、ウクライナ、中央アジア、およびシベリア
「モロカン派」項
作品は コスチュームへの 憧れと ファンタジー性、そして戦闘
「子供向けアニメ」項
前日に 断りもなく ミヨちゃんは 北海道に 行ってしまった
「魔女っ子チックル」項
バック宙、高台からの バック宙、壁宙などを 披露しており
「東山紀之」項
本気だぞ!「男女平等」教育の 真の狙いは 革命にあり
「日本教職員組合」項
舞台から 放り投げたり、緞帳に ぶら下がっては それを引きずり
「西川のりお」項
外側は サクサク感で 内側は ふっくらとした 食感のある
「ビスケット」項
アイデアの 出尽くし感や マンネリ化、回転率の 悪さからくる
「シューティングゲーム」項
先端に 手がついており、スイッチを 入れると棒が どこまでも伸び
「ドラえもんのひみつ道具 (ぬ-の)」項
生物が 触手を持った 怪物に 襲われている 場面に出会う
「火星のオデッセイ」項
特別に 取り付けられた 安定化 自動爆撃 照準装置
「トールボーイ」項
シャンパンや 軽食などの 提供で 差をつけている 会社も多い
「ビジネスクラス」項
委員会 企画財政 委員会 未来創造 科学放送
「国会 (大韓民国)」項
挿入し、数分間は 肛門を 押さえるように 止めておくこと
「小児科学」項
仕組みは
1.ウィキペディア日本語版のデータ jawiki-latest-pages-articles.xml.bz2 をダウンロード。
2.これを WP2TXT で上記を扱いやすい形式に変換。
3.スクリプト で5・7・5・7・7になっている文を抽出。この段階で1万首ほど見つかる。
4.上記で抽出したもの中から適Heroku を使い適当につぶやく。。
というものです。
日本語っておもしろいですね!