キュレーションサイト騒動の照らす道筋、その1〜語られなかったパクリツール問題

感想：本当に賢い奴というものはいるものだ。

これまでの流れ

もともともは医療系のキュレーションサイトに似非科学にもなっていない情報（肩こりの原因は悪霊みたいなもの）の指摘からはじまったものだが、いままで燻っていたキュレーションサイトが外部情報を丸パクリする実態が世間一般にしられることになり、一番の槍玉にあがったDeNAがすべてのサイトを閉鎖。経営陣が謝罪会見するに追い込まれた。DeNAの他にも、サイバーエージェントやリクルートも運営していたキュレーションメディアの閉鎖や見直しを表明した。

キュレーションサイトの運営

テーマにそったキュレーションサイトを立ち上げ、記事を外部より募集する
外部記事を「2000文字1000円」で買い取る
まとまった記事をあつめ、さらにSEOテクニックを駆使して検索エンジンで上位にくるようにする
検索からのクリックによる広告収入を収益とする

「2000文字1000円」というのは、大手の出版社の原稿料の1/50〜1/100程度といわれている。

安い単価の背景

このような単価では取材して文章を起こすというような作業はペイできない。DeNAの会見でも単価の安さを指摘していたが、それは運営側も理解していたはずである。会見では曖昧な回答をしていた。要するに運営元が入稿する外部ライターが記事パクリの実態を知っていたかどうかは、もっと突っ込むべきポイントであった。

記者会見で「2000文字1000円」という安価でライターを酷使していたという指摘をされていたが、既存メディア側の記者の方も思い込みがあった。このキュレーションサイトの記事はまともなライターがタイピングすらしていない。なんども指摘するが「2000文字1000円」ではまともな執筆作業（取材、起稿、修正などなど）は割に合わないわけで、運営側がそれを知らないというのは無理筋というものだ。入稿される記事がパクリやコピペから作られたものであるという認識があったのは、明らかだろう。

いろいろ事情に詳しい知人にいわせると、人力ですべて書いていたといえば、違うようだ。「リライトツール」というものがある。要するにパクリツール。これは、記事にしたいキーワードをいくつか入力すると、ネット上をクロールしてブログやSNS等から、まとまった文章を引っ張ってくる。WEBページをスクレイピングする方法から、最近のブログサイトやSNSではAPIも用意されているので、それを利用して、大量に元ネタになる記事引っ張ってくる。そして検索エンジンの上位にくるように文章を再構成（キーワードを何度も繰り返す配置にするetc）までを自動的に行うものだ。

この手のリライトツール（パクリツール）を使うと1時間で2000字前後の記事を10〜100程度、作ることは可能なようである。先のクソ安い単価にも関わらず、このツールを使ってパクリ記事を乱造したうえでキュレーションメディアに入稿すれば、1時間あたり10,000円〜100,000円の収入が得られるという計算になる。ということは、数台のPCを活用すれば、台数分を乗じた額になる。実態として、キュレーションメディアに入稿していたライターの過半は、IT系エンジニアがサイドビジネス感覚で、このリライトツールを駆使して泡銭を稼いでいたということだ。とある人物は月に100万円に近い額を稼ぎだしたとも聞く。ま、この手の話は膨らむ傾向があるので、話半分に聞いておいたほうが良い。

専業アフィリエイターとよばれる、どちらかといえばキュレーションメディアにパクられた側の連中（こいつらもリライトツールを駆使していたわけだが）がこれに憤慨して批判記事を書き飛ばし、ネットライターもその批判に同調し、一方で、大手の伝統的な出版メディアの記者はこの手のツールの存在すら知らず、ライターの労働哀歌みたいな主張をしていた点に、社会の絶望的な分断を見た気がする。

ではこれからどうなるのか？

識者の中には「これでWEB系メディアも記事のチェックや著作権の配慮など、既存メディアと同様のモラルが求められる方向に進むようになるだろう」とコメントしていた者がいた。しかし、それは本当だろうか？希望的観測に過ぎないのではないか？

恐らく、キュレーションサイト方式は、さらに黒い方向に進化することだろう。少なくても人間の介在をほとんど必要としないビジネスモデルで泡銭が稼げることを証明し、このような方法があることを広く知らしめてしまったからだ。

まず、検索エンジン側のGoogle様含めて、ITメディアの人々は徹底的な自動化推進論者であり、人を介した内容チェックなど話にならないと根底で思っている。

またパクリツールはさらに進化していく。現状では丸パクリでしかないわけだが、ディープラーニングが取り入れられるようになるだろう。もっともディープラーニングも元データを大量に読ませ込むというのは変わらない訳だが、まともな文章が吐き出されるようになるのはもうすぐだ。そのようなツールが出回れば、もうパクリなのか機械学習の効果なのか、人間にはわからないような文章を吐き出すことになるだろう。

しかも機械が大量に出力される文章は、やはり自動化された機械によりモラルチェックがなされるようになる。ディープラーニングについては思うところがあり、まとまれば別記事で書き飛ばしておきたい。機械化された情報を大量に収集して、機械がさらに再構成した情報を吐き出すようになる。これがGarbage in Garbage outになるのかどうかは注目していきたいし、この人工知能の問題は別記事で、時間があったら書きとめたい。

そして、既存メディアとIT系には深い断絶があった。既存メディアにはあるていど読める記事にするには、取材費やら調査費やらが必要で、それらを込みで高い原稿料を支払っていた。それが既存メディアの不文律でありモラルハザードでもあった。ところが、ITメディア系はそんなことはまったく考慮の外でひたすら安い単価で仕入れることが目標達成への道であった。この断絶こそが、DeNAの謝罪会見のなにやらお互いの姿を掴み損ねている光景として現れたということなのだろう。

いやはや、21世紀っぽくなってきましたな。上記予想が当たるかどうかはわからない。しかし、100%人力でブログを書くという行為は絶滅危惧種に指定された馬鹿のやること・・・になるのも、もう少し先の未来なのかもしれない。

無知と無能の間に

無知無能者、固人之所不免也

キュレーションサイト騒動の照らす道筋、その1〜語られなかったパクリツール問題

これまでの流れ

キュレーションサイトの運営

安い単価の背景

ではこれからどうなるのか？