一生懸命に素晴らしい記事や投稿を書いたのに、他の誰かがそれを自分のものだと主張しているのを想像してみてください。あなたのサイトのコンテンツが盗用されると、こうなるのです。
コンテンツの盗用、すなわち「スクレイピング」は、サイトオーナーにとって大きな問題である。これらの人々は、あなたの作品をコピーし、自分のサイトで使用し、時には自分の作品であるかのように装う泥棒です。これは本当にイライラさせられ、不公平なことです。
この投稿では、ブログコンテンツのスクレイピングとは何か、コンテンツスクレイピングをどのように減らし、防ぐことができるか、そしてコンテンツスクレイパーをどのように利用すれば自分の利益になるかについて説明する。
WordPressにおけるブログコンテンツのスクレイピングとは?
ブログコンテンツのスクレイピングとは、多数のソースからコンテンツを取得し、別のサイトで再公開することです。通常、これはブログのRSSフィードを通じて自動的に行われます。
残念ながら、WordPressブログのコンテンツがこのように盗まれることは非常に簡単で、よくあることです。もしあなたの身に起こったことがあるのなら、それがどれほどストレスフルでイライラすることなのか理解できるはずだ。
フォーマット、画像、動画など、コンテンツがそのままコピー&ペーストされることもあります。
また、あなたのコンテンツが、あなたのサイトへのリンク付きで、あなたの権限なしに再投稿されることもあります。これはSEOに役立ちますが、オリジナルのコンテンツはあなたのサイトでのみホスティングサービスを維持することをお勧めします。
コンテンツ・スクレイパーはなぜコンテンツを盗むのか?
ユーザーから、なぜスクレイパーがコンテンツを盗むのかという質問がありました。通常、コンテンツを盗む主な動機は、あなたの苦労から利益を得ることです:
- アフィリエイト報酬:不誠実なアフィリエイト・マーケターは、ニッチな商品を宣伝するために、検索エンジンを通じて自分のサイトにトラフィックをもたらすためにあなたのコンテンツを利用するかもしれない。
- リードジェネレータ:弁護士や不動産業者は、誰かにお金を払ってコンテンツを追加してもらい、そのコミュニティで権威を得ようとするかもしれないが、それが他のソースからスクレイピングされていることに気づかないかもしれない。
- 広告収入:ブログのオーナーは、「コミュニティのために」特定のニッチ分野の知識のハブを作るためにコンテンツをかき集め、サイトに広告を貼り付けることがある。
コンテンツのスクレイピングを完全に防ぐことは可能か?
この投稿では、コンテンツのスクレイピングを減らし、防ぐためにできるいくつかのステップを紹介する。しかし残念ながら、断固とした泥棒を完全に阻止する方法はありません。
そのため、コンテンツスクレーパーを利用する方法についてのセクションでこの投稿を終えた。窃盗犯を常に止めることはできないが、彼らがあなたから盗んだコンテンツを通じてトラフィックや収益を得ることができるかもしれない。
誰かがあなたのコンテンツをスクレイピングしているのを発見したとき、あなたは何をすべきか?
スクレイパーを完全に阻止することは不可能なので、ある日誰かがあなたのブログから盗んだコンテンツを使っていることに気づくかもしれない。そんな時、どうすればいいのか悩むかもしれない。
コンテンツ・スクレーパーに対処する際に、人々がとるいくつかのアプローチを紹介しよう:
- 何もしない:スクレイパーとの戦いに多くの時間を費やすことになるので、人気ブロガーの中には何もしないことに決める人もいる。Googleはすでに有名なサイトを投稿者として見ているが、小さなサイトはそうではない。そのため、このアプローチが常にベストとは限らないと私たちは考えている。
- 削除:スクレイパーに連絡を取り、コンテンツの削除を求めることができる。拒否されたら、削除通知を送信する。その方法については、WordPressで盗まれたコンテンツを簡単に見つけて削除する方法をご覧ください。
- 優位に立つ:私たちは、WPBeginnerからスクレイピングされたコンテンツを削除させることに有効化した一方で、スクレイパーからトラフィックを獲得し、お金を稼ぐためにいくつかのテクニックを使用しています。以下の「コンテンツスクレーパーを活用する」セクションで、その方法を学ぶことができます。
それでは、WordPressでブログのスクレイピングを防ぐ方法を見ていきましょう。これは包括的なガイドなので、ナビゲーションしやすいように目次を用意した:
1.ブログの名前とロゴを著作権または商標登録する
商標法と著作権法は、知的財産権、ブランド、ビジネスを多くの法的課題から保護します。これには、あなたの著作物やブランド名、ロゴの盗作や違法使用も含まれます。
サイト上に著作権表示を明確に表示する必要があります。あなたのサイトのコンテンツは自動的に著作権法の対象となりますが、通知を表示することで、あなたのコンテンツが著作権で保護されており、保護された財産をビジネスに使用することができないことを知らせることができます。
例えば、WordPressのフッターに動的な日付を含む著作権表示を追加することができます。これにより、著作権表示を常に最新の状態に保つことができます。
そうすることで、一部のユーザーは盗用を思いとどまるかもしれません。また、盗用されたコンテンツを削除するために、停止命令書を送ったり、DCMAに提訴したりする必要がある場合にも役立ちます。
著作権登録はオンラインでも申請できます。この手続きは複雑ですが、幸運なことに、中小企業や個人を助けてくれる低コストの法律サービスがあります。
ブログの名前とロゴを商標登録し、著作権を取得する方法については、こちらのガイドをご覧ください。
2.RSSフィードをスクレイピングされにくくする
ブログコンテンツのスクレイピングは通常、ブログのRSSフィードを通じて自動的に行われるので、フィードに加えることができるいくつかの有用な変更を見てみよう。
WordPressのRSSフィードに投稿の全コンテンツを含めない
RSSフィードには、全コンテンツではなく、各投稿の概要のみを含めることができます。これには抜粋のほか、投稿日、投稿者、カテゴリーなどの投稿メタデータが含まれます。
ブログコミュニティでは、RSSフィードを完全なものにするか、要約フィードにするかという議論があります。要約を持つことの長所の一つは、コンテンツのスクレイピングを防ぐのに役立つということを除いては、今はそのことには触れない。
WordPress管理画面の設定 ” 読むから設定を変更することができます。抜粋」オプションを設定し、「変更を保存」ボタンをクリックします。
これで、RSSフィードには投稿の抜粋のみが表示されるようになります。もし誰かがあなたのRSSフィードを通してあなたのコンテンツを盗もうとした場合、彼らは投稿の全文ではなく、要約だけを手に入れることになります。
要約を調整したい場合は、WordPress抜粋のカスタマイズ方法をご覧ください。
スクレイピングを防ぐためにRSSフィードを最適化する
WordPressのRSSフィードを最適化することで、コンテンツを保護したり、バックリンクを増やしたり、ウェブトラフィックを増やしたりする方法は他にもあります。最も良い方法のひとつは、RSSフィードに投稿が表示されるのを遅らせることです。
RSSフィードに投稿日が表示されるのを遅らせることで、スクレイパーのサイトなど他の場所にコンテンツが表示される前に、検索エンジンにクロールしてインデックスさせる時間を与えることができます。そして、検索エンジンはあなたのサイトを投稿者として認識します。
最も安全で簡単な方法は、WPCodeを使用することです。WPCodeには、WordPressに正しいカスタマイザーコードを自動的に追加するレシピがあるからです。
詳しい方法は、WordPress RSSフィードに投稿日が表示されるのを遅らせる方法をご覧ください。
3.トラックバック、ピンバック、REST APIを無効化する。
ブログの黎明期、トラックバックとピンバックは、ブログ同士がリンクについて通知し合う方法として導入された。誰かがあなたのブログの投稿にリンクすると、その投稿者のサイトは自動的にあなたのブログにピンバックを送ります。
このピンバックは、あなたのブログのコメント処理キューに相手のサイトへのリンクとともに表示されます。あなたが承認すれば、あなたのサイトからバックリンクと言及が得られます。
これは、スパマーにあなたのサイトをスクレイピングし、トラックバックを送信する動機を与えます。幸運なことに、あなたはトラックバックとピンバックを無効化することができ、スクレイパーがあなたのコンテンツを盗む理由を一つ減らすことができる。
詳しくは、今後の投稿のトラックバックをすべて無効化するガイドをご覧ください。また、既存のWordPress投稿のトラックバックとピンバックを無効化する方法もご覧ください。
WordPress REST APIの無効化
トラックバックやピンバック以外にも、WordPressのREST APIを無効化することをお勧めします。スパマーがコンテンツをスクレイピングしやすくなるからです。
WordPress REST API を無効化する方法について、詳しいガイドがあります。
必要なことはすべて、無料のWPCodeプラグインをインストールして有効化し、あらかじめ用意されているスニペットを使用してREST APIを無効化することです。
4.スクレーパーによるWordPressサイトへのアクセスをブロックする
スクレイパーによるコンテンツの盗用を阻止する一つの方法は、スクレイパーからサイトへのアクセスを奪うことです。IPアドレスをブロックすることによって手動でこれを行うことができますが、ほとんどのユーザーは、Webアプリケーションファイアウォールなどのセキュリティプラグインを使用する方が簡単だと感じるでしょう。
セキュリティプラグインを使ってスクレーパーをブロックする(推奨)
スクレイパーを手動でブロックするのは厄介で、大変な作業だ。特に、多くのハッキングの試みと攻撃は、世界中の幅広いランダムなIPアドレスを使って行われるからだ。そのようなランダムなIPアドレスをすべて把握するのはほとんど不可能だ。
WordfenceやSecuriのようなウェブアプリケーションファイアウォール(WAF)が必要なのはそのためです。これらは、あなたのサイトのトラフィックを監視し、一般的なセキュリティ脅威がWordPressサイトに到達する前にブロックすることで、あなたのサイトとすべての受信トラフィックとの間のシールドとして機能します。
WPBeginnerのサイトでは、Sucuriを使用しています。これは、ウェブサイトアプリケーションファイアウォールを使用して、このような攻撃からウェブサイトを保護するウェブサイトセキュリティサービスです。
基本的に、あなたのサイトのトラフィックはすべてセキュリティサービスのサーバーを経由し、そこで不審な動きがないか検査されます。不審なIPアドレスがサイトに到達しないように自動的にブロックします。Sucuriがどのように3ヶ月で450,000件のWordPress攻撃をブロックしたかをご覧ください。
スクレーパーのIPアドレスを手動でブロックまたはリダイレクトする
上級ユーザーは、スクレーパーのIPアドレスを手動でブロックすることもできる。これはさらに手間がかかるが、スクレーパーのアドレスを一度覚えてしまえば、それをターゲットにすることができる。ウェブ開発者のジェフ・スターは、コンテンツスクレーパーの対処法について書いている中で、この方法を提案している。
注意:サイトファイルへのコードの追加は危険です。小さなミスでもサイトに大きなエラーを引き起こす可能性があります。そのため、この方法は上級ユーザーのみにお勧めします。
スクレーパーのIPアドレスは、ウェブホスティングアカウントのcPanelダッシュボードの「Raw Access Logs」にアクセスすることで見つけることができる。リクエスト数が異常に多いIPアドレスを探し、区切りのテキストファイルにコピーするなどして記録しておく必要がある。
ヒント:自分自身や正当なユーザー、検索エンジンからのサイトへのアクセスをブロックしてしまわないようにする必要があります。不審なIPアドレスをコピーし、オンラインIP検索ツールを使って、そのIPアドレスについて詳しく調べてみましょう。
IPアドレスがスクレイパーのものであることを確信したら、cPanelの「IP Blocker」ツールを使うか、ルートの.htaccessファイルに次のようなコードを追加することでブロックすることができます:
Deny from 123.456.789
コード内のIPアドレスをブロックしたいIPアドレスに置き換えることを本当に〜してもよいですか?スペースで区切って同じ行に入力すれば、複数のIPアドレスをブロックできます。
詳しい手順については、WordPressでIPアドレスをブロックする方法をご覧ください。
ジェフは、単にスクレイパーをブロックする代わりに、ダミーのRSSフィードを送ることを提案している。LoremIpsumや迷惑な画像でいっぱいのフィードを作ったり、彼らのサイトに送り返したりして、無限ループを引き起こし、彼らのサーバーをクラッシュさせることもできる。
ダミーのフィードにリダイレクトするには、.htaccessファイルに次のようなコードを追加する必要があります:
RewriteCond %{REMOTE_ADDR} 123\.456\.789\.
RewriteRule .* http://dummyfeed.com/feed [R,L]
5.WordPressで画像の盗難を防ぐ
守るべきはコンテンツだけではありません。WordPressでは画像の盗用も防ぐ必要があります。
テキストと同様、画像の盗用を完全に防ぐ方法はありませんが、WordPressサイトで画像の盗用を防ぐ方法はたくさんあります。
例えば、WordPressの画像のホットリンクを無効化することができます。これにより、誰かがあなたのHTMLコンテンツをスクレイピングしても、その画像はサイトに読み込まれなくなります。
また、サーバーの負荷と帯域幅の使用量を削減し、WordPressの速度とパフォーマンスを向上させます。
あるいは、画像にクレジットを示す透かしを入れることもできる。こうすることで、スクレイパーがあなたのコンテンツを盗んだことが明確になります。
この2つのテクニックをはじめ、画像を保護するその他の方法については、WordPressで画像の盗難を防ぐ方法をご覧ください。
6.コンテンツの手動コピーを阻止する。
ほとんどのスクレイパーは自動ツールを使用していますが、一部のコンテンツ泥棒は、あなたのコンテンツのすべてまたは一部を手動でコピーしようとするかもしれません。
これを難しくする一つの方法は、彼らがあなたのテキストをコピー&ペーストできないようにすることです。これは、サイト上のテキストを選択しにくくすることで可能です。
コンテンツの手動コピーを防ぐ方法については、WordPressでテキストの選択とコピー&ペーストを防ぐ方法のステップバイステップガイドをご覧ください。
しかし、これでコンテンツが完全に保護されるわけではありません。技術に精通したユーザーであれば、ソースコードを表示したり、インスペクト・ツールを使って好きなものをコピーすることは可能です。また、この方法はすべてのウェブブラウザーで機能するわけではありません。
また、あなたの文章をコピーするすべての人がコンテンツ泥棒になるわけではないことを心に留めておいてください。例えば、投稿をソーシャルメディアでシェアするためにタイトルをコピーする人もいるかもしれない。
そのため、サイトにとって本当に必要と思われる場合にのみ、この方法を使用することをお勧めします。
7.コンテンツ・スクレーパーの活用
ブログの規模が大きくなると、すべてのコンテンツスクレーパーを止めたり追跡したりすることはほとんど不可能になります。私たちは今でもDMCAに苦情を送っている。しかし、私たちのコンテンツを盗用しているサイトが他にも大量にあり、私たちでは追いつかないことも分かっています。
その代わりに、私たちのアプローチは、コンテンツのスクレイパーを利用しようとすることです。盗んだコンテンツでお金を稼いでいたり、スクレイパーのサイトから多くのトラフィックを受け取っているのを見れば、それほど悪いことではない。
スクレイパーからトラフィックとバックリンクを獲得するために内部リンクを習慣化する
SEOに関する究極のガイドでは、内部リンクを習慣化することを推奨している。ブログ投稿日に他のコンテンツへのリンクを設置することで、ページビューを増やし、自分のサイトの直帰率を下げることができます。
しかし、スクレイピングに関しては2つ目の利点がある。内部リンクは、あなたのコンテンツを盗んでいる人々から貴重なバックリンクを得ることになる。Googleのような検索エンジンは、バックリンクをランキングシグナルとして使用するので、追加のバックリンクはあなたのSEOにとって良いことだ。
最後に、これらの内部リンクによって、スクレイパーのオーディエンスを盗むことができる。才能のあるブロガーは、興味深いキーワードにリンクを配置し、ユーザーがクリックしたくなるように仕向ける。スクレイパーのサイトへの訪問者もリンクをクリックし、そのままあなたのサイトに戻ることになる。
アフィリエイト・リンクでキーワードを自動リンクし、スクレイパーから稼ぐ
あなたのサイトでアフィリエイトマーケティングで収益を上げているのであれば、RSSフィードの自動リンクを有効化することをお勧めします。そうすることで、RSSリーダーを通してしかあなたのサイトを読まない読者からの収益を最大化することができます。
さらに良いことに、あなたのコンテンツを盗んでいるサイトからお金を稼ぐことができる。
ThirstyAffiliatesのようなWordPressプラグインを使えば、割り当てられたキーワードを自動的にアフィリエイトリンクに置き換えてくれます。WordPressでキーワードとアフィリエイトリンクを自動的にリンクさせる方法をご紹介しています。
RSSフッターでサイトを宣伝する
All In One SEOプラグインを使って、RSSフッターにカスタム項目を追加することができます。
例えば、自社の製品やサービス、コンテンツを宣伝するバナーを追加することができます。
一番いいのは、これらのバナーがスクレイパーのサイトにも表示されることだ。
私たちのカテゴリー:RSSフィードの投稿の最下部には、いつもちょっとした免責事項を付け加えている。こうすることで、スクレイパーのサイトから元の投稿へのバックリンクを得ることができる。
これにより、Googleや他の検索エンジンは、私たちが投稿者であることを知ることができます。また、そのサイトが私たちのコンテンツを盗んでいることをユーザーに知らせることができます。
詳しくは、WordPressでRSSフィードのフッターをコントロールする方法をご覧ください。
このチュートリアルで、WordPressでブログコンテンツのスクレイピングを防ぐ方法を学んでいただけたでしょうか。WordPressの究極のセキュリティガイド、またはWordPressの専門家が選ぶ最高のコンテンツ保護プラグインもご覧ください。
If you liked this article, then please subscribe to our YouTube Channel for WordPress video tutorials. You can also find us on Twitter and Facebook.
Moinuddin Waheed
I have many friends who used to talk to me about using RSS feed and make content on their website this way. I was not aware exactly how it worked and what benefits they incurred by doing that.
Scraping others content and showing as if they are themselves have created is an offense but in unethical world who cares. Thanks for making this guide by following which we can prevent our content from scraping and atleast can turn it to our advantage.
Jiří Vaněk
Thank you for the article. I have a blog with over 1200 articles, and I need to start addressing that as well. Thanks for the valuable advice.
WPBeginner Support
You’re welcome!
管理者
Toheeb Temitope
Thanks for the post.
But can I even remove the or disable RSS feed totally or is there any special benefit in it.
Then if I want to disable RSS feed totally, how will I do it.
Thanks.
WPBeginner Support
If you want to disable the RSS feed for your site, our guide below would be helpful:
https://www.wpbeginner.com/wp-tutorials/how-to-disable-rss-feeds-in-wordpress/
RSS feeds can be helpful to certain users of your site who use RSS feed readers to know when a site has new content.
管理者
Moinuddin Waheed
it is good idea to know that we can even disable the RSS feed thus by preventing the potential theft and scraping of the content.
though disabling the RSS feed has some trade off as well.
is there any seo disadvantage of disabling the RSS feed?
or it has nothing to do with seo and ranking ?
WPBeginner Support
Your RSS feed should not affect your site’s SEO.
Giovanni
Thank you. Exactly the information I need. But do scrapers use RSS feed still in 2019?
WPBeginner Support
They certainly can and will try to
管理者
Nergis
We hear so much about getting site content by doing content curation. Is content scrapping the same as content curation? If not what’s the difference between the two?
WPBeginner Support
Content scraping is taking content from other sites to place on your site without permission, content curation is normally linking to other content within content you have created
管理者
Kingsley Felix
I am facing these issues, i had 20+ for one of our brands, then we moved elsewhere and they are back again.
WPBeginner Support
content scrapers are a constant strugle sadly
管理者
slevin smith
I found a realy bad content scaper from by blog, not only they steal my content, used the same name for they spam blog only separatedwith a – and all description, tag, basicly trying to be me, is used links in rssfeed with my blog, youtube channel, facebook, twitter, pinterest & google plus, which shows up on there spam blog, also found that png images shows up on the front page but jpeg dose not, but that maybe just on blogger.
astrid maria boshuisen
I absolutely love the interlinking-idea. Will have to look at the RSS suggestion, since I forgot how that works exactly, having focussed on writing Kindle e-books for a while (talk about content scraping – zero protection there!.. hence my return to website writing) but I feel I have really got a place to start with protecting my content! Thanks!
Danni Phillips
WOW! So much to take into consideration when starting a blog. My blog is only 2 weeks old. I have used mainly WP Beginner to set up my blog. So much good info set out in a way a newbie can follow.
I don’t know if this works for content scraping but I have installed a plugin called Copyright Proof. It disables right click so that people can not copy and paste your content.
I decided to use this plugin as it was a recommended plugin for author sites.
Eri
your post can be copied easy , trust me.
Reo
Disabling selection is good method but it only support famous web browser like Chrome, Safari and Opera but not IE and Edge.
Dave Coldwell
Another great article, I work as a freelance journalist so I sell a lot of articles and it’s up to the people who buy it to decide on their policies.
But I also have a couple of blogs and affiliate websites so I think I might need to take a look at what’s happening with my content.
Absynth
Does not giving credit where it’s due count as “content scraping”?
Because Jeff Starr wrote this same post at Perishable Press over 5 years ago:
Check the structure and terminology of your article and compare it to the original.
Just sayin.
WPBeginner Support
We did give credit to Jeff Starr. Please read the actual article before pointing out errors.
管理者
Absynth
Yes my apologies.. I missed that the first time through. My bad
Sieu
i has just develop a theme for blogger and that theme need a full feed to work, i worry about scrapping content, i think if many scrapper use my content on their blogger site, which have the same content with my site, backlink point to mysite, my blog will be spam in Google ‘s eye and will be deleted.
Lori
Thanks for this amazing article with useful tips! I actually just got a “Thin Content” penalty from Google. I asked an SEO expert for help, they told me to stop scraping content. They sent me a link of an article I wrote yesterday and thought I had stolen it from another website. The crappy thing is, they were stealing from me, not just that article, but probably a couple thousand articles! They are still in Google search, and I am not. I am being the one penalized! Turns out there are at least three websites scraping my content, not even sure what to do.
Raviraj
Awesome article.
I sort of agree with most of the points you have discussed. Actually few of the points are pretty awesome.
But if your sole business is based on content in your website, shouldn’t we be more careful about scrapers?
I don’t think content theft would ever be good to the owner of the content.
I guess we all should think of opting some preventive measure rather than reactive measure. You can consider using ShieldSquare, a content protection solution to stop content scraping permanently.
Andre
I know this is an old article, but the one source that is NOTORIOUS for allowing content scaping is WordPress with their “Press This” feature. They are basically encouraging this.
Sara
I think I may have finally found the answer to my problem. I have been thinking someone has been stealing my stories and making them into “new” stories. I thought either someone is out to get me or I am losing my mind. I was almost losing my mind over thinking like this. Paranoid. Concerned someone was listening to my private phone calls. When really, all the information has come directly from my blog! This article may have saved my life. Literally. I am not even joking because I have been so afraid that I was going crazy and very selectively trying to talk about it with friends, to get feedback or support and being looked at like I am nuts and need to go to the psych ward for a while. This article makes what has been happening to me, make total sense. Thank you! I am so overwhelmed with relief.
John
Thanks for some tips but a good chunk of this article is not very helpful. Most scrappers are not blind scrappers, the content is generally sucked, looked at by a human eye and then published. Which means that even by taking a minute to look at an article the spam kid is able to publish hundred of copied article a day. Backlinks problem is very easy to circumvent for content scrapper as the feed importers have pre-process options and they generally set it to delink the body. Also I do not see how turning rss into summary may help at all, the feed importers only use the rss to grab the new content link and from there they follow the skeleton of your html, which you have nicely set with proper image, title, link etc tags for the convenience of Google and very easily extract the content.
Obviously blocking the IP is a very good solution. DMCAs are generally a waste of time; they take time to formulate and stupid hosts take time to respond (since spammers choose these host specifically because they’re lax on spam-like activity). Of all, Google is the most frustrating; no matter how many reports you file with them they never take action on any of the stolen content on which they’re showing ads and still rank the crap-spam site well on the search results despite it being easy for their systems to detect copies
Evie
John, I couldn’t agree with you more. Google got mad at me stating that I was the person stealing my own content. This person stole my content and put it on blogger. The nerve. There needs to be a solution for this. At this point, I just block!
WPBeginner Staff
Then perhaps the best way for you is to change the licensing and aggressively send take down notices to content scrappers. Meanwhile keep focusing on creating quality content.
Philipp D
Hi there,
I just stumbled upon your article while looking for answers to some of my concerns.
I, together with some friends, launched a website about DIY in Italy, few months ago, which is working unexpectedly well, rankings are high, lots of traffic, etc. Still, PR is yet 0. Our content has a Creative Commons 4.0 license, because we realyl believe it’s a good way to share contents. HOWEVER:
Some time ago we noticed a PR4 site with lots of traffic copying our top articles, linking back to our homepage (which is not what you’re supposed to do with a CC license, but it’s still ok). The problems are these:
1. there’s a whole lot of smaller sites scraping their (our) content and linking back to them instead of our site
2. the PR4 site and some of the smaller sites somehow rank better than our site
3. there’s strong suggestions that a Google penalty to OUR content has taken place, as it has lower PR than most of the other pages (which have been online for a long time).
We’re in contact with the PR4 site and it’s ok for us if they use our content, as long as they link back to the original article (that’s the whole point of the CC license), BUT we’re trying to find a solution to avoid getting Google penalties: would rel canonical do the job? What is your opinion? Whould we change our license and be more aggressive towards content copying?
Thank you!
WPBeginner Support
Philipp, If you have not already done so, then you should create a webmaster tools account for your site and submit your sitemap. It helps you figure out if there is a problem with your site, how your site is doing on search, and you can use lots of other tools. It also helps Google better understand where some content first appeared.
We don’t think changing the license will stop content scrappers from copying your content.
管理者
Philipp
hi! Yes, we set up a webmaster tools account, linked the site to our google+ page, and most of the authors to their google+ profiles using publisher and author tags. authorship seems to be working fine in search snippets, but so far it doesn’t seem to make much difference in case of scraped content. Higher PR pages scraping our content are still on top…
Garratt
One of the best ways not to be effected by this is to ping effectively. Pinging, and manually submitting pages to Google and Bing gets spiders on your site FAST. They index the pages ASAP, then when they find duplicate content on other sites consider you as the authority.
I do however have the sneaky suspicion this might have to do with PageRank though… But Matt Cutts (webspam team @ Google) has advocated using pinger’s on this very topic. I’m just not sure how much I can trust what he says though.
To add more services, go to Settings -> Writing Settings -> Update Services -> Open the “Update services” link in a new tab and copy all the update services. Back in WordPress paste them in the ping list and click save.
Open account in Bing Webmaster tools for manual URL submission for fast indexing.
Chris Backe
I recently discovered a guy that can taking an RSS feed from my blog – bear in mind that my blog is a summary feed with Yoast’s ‘This post was found first on’ line. I sent the guy a thank-you message, basically telling him that he’s giving me backlinks, AND telling Google he’s copying my website (since they can look at the timestamps to see which was published first).
Checked out 2 days later, and all my stuff was mysteriously gone…
Editorial Staff
Hah yup. Most of these scammers aren’t very bright lol. Glad you got it fixed.
-Syed
管理者
Ian
Has anyone seen or used this WP anti scraping plugin http://wordpress.org/plugins/wordpress-data-guards/ it sounds solid but very few people have downloaded it ? I’m not technical – so would appreciate opinions on its worth or effect on SEO
Editorial Staff
You can definitely use that plugin. It blocks right clicks, keyboard shortcuts for copying, ip blacklist etc. Those all prevent manual scraping however most content scrapers use automatic tools. So none of those would be super helpful.
管理者
Ian
Thanks for your reply – the pro version states it protects you from bot attacks so I assume that means scrapper bots? the price puts me off installing it on all my sites, but I may use it on one just to see how well it works
Mark Conger
This is one of, if not the best, “beginner” article I’ve ever come across on the web.
After reading it I feel like I just had a meeting with a security consultant.
I’m applying these techniques right frickin now!
Thanks. I’m now a follower of this site.
Editorial Staff
Thanks for the very kind words Mark
管理者
Neil Ferree
Its only happened to me a few times. Some blogger from outside the USA has taken my post word-for-word and posted to their site as if it were their own. Since it was just a single post with my YT video embedded, I didn’t sweat the details too much, since my channel CTR saw a nice spike it visits anyway.
Edward B. Rockower, Ph.D.
Just want to say thanks, thanks, and thanks!
I just today discovered your website, only read 3 articles so far (including this one)… but I’m extremely impressed.
I’ve only been blogging now for 5 weeks, but finding it addictive, especially seeing the growing traffic and user engagement as a result of my efforts. Seeing 100 visitors to my blog site in one day, and being able to see who’s referring them, motivates me to learn all I can to increase the social media marketing and interactions with new visitors.
Best regards,
@earthlingEd
Debbie Gilbert
I love your Website and was floored to read about content scraping! Is there and way to create a watermark somehow which is not distracting to your readers but to the scraper’s site is dead obvious?
Editorial Staff
You can do hotlink protection among other things to disable images on domains that are not whitelisted.
管理者
Usman
Is it legal to post the complete article from another website and writing source website name at bottom of article?
Editorial Staff
No.
管理者
Usman
And if we give direct link to article at bottom?
Dan
It is still not good unless the owner approves it
Abdul Karim
Is there any way / plugin
someone is copy my fashion blog picture and post it at their forum
but when i click on image at that forum . its open in new window
i want any plugin or script that if he copy my images when someone click on that images, then that person redirect to my blog post related to that images ?
any plugin yet ? link with post images ?
Editorial Staff
None that we know of.
管理者
Abdul Karim
I’ll done it just change
when someone upload any picture on right side it shows url link
default setting is media file
u have to change it in attachment url
then done!
when someone copy your blog images .that give backlink to your posted page
Anton
If someone takes an article written in English and translate it, using their heads and not google translate, into some other language, lets say because the majority of the people in the country of that other language doesn’t understand English. Would you point them out as scrapers anyway? Or what is your opinion on that?
For me personally I don’t find it extremely problematic, of course I believe the “author” should link bank to the original article while clarifying that his article is translated.
Editorial Staff
Unless you have written permission of the author, then it is technically scraping.
管理者
Greg
This is a tremendous article. After reading it I hope you do not see me as a content scraper. I have used excepts from you (curated), I always have the ‘Read the Full Article” and have your page link there and also many of my posts are tweeted and I include your twitter account in there. If you do not want this please let me know and I will gladly remove it. I am very appreciative of your work and want to share it with my visitors. it is not intended to steal your visitors but to be able to give good value to mine and send them on to you for more.
Editorial Staff
Greg, as long as you only display an excerpt and send the user over to our site to read the full article, then it is not scraping. As you said, it is curation. Tons of popular sites do that (i.e reddit, digg, etc).
管理者
ryan
My site has a lot of original security articles and a couple have been scraped. The site that scraped me was in yahoo! News with my article and had people commenting on it. I dealt with the issue by commenting and saying I was the original author and replied to a few comments. I had internal links, that’s how I found out so quickly. A trick I am going to write about is getting people who come from a scrapers site and have a banner or image appear telling them what happened. The never ending request suggestion sounds illegal under the computer fraud and abuse act. I am not a lawyer. I just write about security, so I have to know the security laws for computers.
I Do not like it that your form didn’t take my companies email as a valid email.
Editorial Staff
Sorry Ryan that our form didn’t approve your business email. Not sure what happened there, but it is meant to approve all valid emails.
管理者
andre
how to use this code, can you provide more details or tutorials, thank you
RewriteCond %{REMOTE_ADDR} 123\.456\.789\.
RewriteRule .* http://dummyfeed.com/feed [R,L]
Editorial Staff
You would have to edit the .htaccess file.
管理者
Ali Rashid
nice and informative writeup i like your approach of taking advantage of the scrappers however blocking an ip may not always work; a serious scrapper would often use a list of anonymous or free proxies in that case blacklisting one ip might not be an effective solution as the scrapper would change it often. One solution is to write a small script that will detect any abnormal traffic from a given ip, say more than 20 hits/sec and challenge it with a captcha if no reply, put the ip in a temp blacklist for about 30 mins. you can hardened it with another javascript that detects mouse, touch or keyboard movement after few hits, if no keyboard, mouse, or touch is detected you can again put the scrapper in the temp blacklist, worked like a charm for us.
Arihant
Your solutions are good enough for content scrapers.
But what if people are manually coping and pasting content into their Facebook pages.
We have implemented tynt but they remove the link back to original article, any ideas on how you can handle this kind of situation.
Editorial Staff
If people really want to steal your content, there is nothing you can do about it. It’s a sad truth, but it’s a truth.
管理者
Garratt
Actually there’s a plugin created by IMWealth Builders, probably the only one of their plugins I like, the rest are pretty trashy and involve scraping Ecommerce sites (CB,Azon,CJ etc) for affiliate commisions.
It’s called “Covert Copy Traffic” is actually allows you to set any text pre or post a set number of words. So say I set it to post “This content was taken from xxxxxxx.com” after 18 words. Then anytime someone copied/paste more than 18 words from the website it would add that text at the bottom, 17 words or less it would do nothing.
These were just example settings. Pretty useful plugin, works a charm. I’ve tried just about every way I could think of to bypass the text insertion but it seems to be impossible. Plugin is to stronk.
Editorial Staff
Sounds like you are describing this tutorial here:
https://www.wpbeginner.com/wp-tutorials/how-to-add-a-read-more-link-to-copied-text-in-wordpress/
Garratt
Yeah, that’s right. You can just use that script to say “Content came from yourwebsite.com” rather than “Read More”.
Jennae Barker
Is this true that their amazon etc programs are scrapers – if that is the case – I have made whopper of mistake on a purchase from them – luckily, I have not used it yet.
Garratt
Yeah Jennae, it’s legal in terms of Amazon allow you to copy content from their pages. It helps there sales, affiliates are the reason Amazon is Amazon.
However Google and other search engines (that matter) just consider it a “thin affiliate site” as in no original content. Therefore they don’t rank unless there’s a certain percentage of original content on the site as well.
A scraper, is nothing more than a spider/crawler generally it runs in socket mode, however some run in browser.
Just because it’s labeled as a scraper doesn’t make it bad per say, I use scrapers and spiders regularly to check my site for unnatural links, I check others for competition analysis, and keyword research and a variety of other tasks that do not harm anyone, but benefit me.
However I don’t like or condone anyone scraping for the purpose of copyright infringement. Which is what this discussion is really about.
Google uses the spider “Google Bot” to index the web along with 100’s of other search engines, there’s thousands, hundreds of thousands of spiders crawling the web for a variety of purposes. Google also scrapes websites to “cache” them. As do a lot of important services we need such as the historical web archives.
Troy
I’m about to begin aggressively searching for sites that are copying my content and have the content removed. I no it is impacting how my site ranks so I have to do something about it. Any idea how much has to be copied before you can deliver DMCA notices? Is a paragraph in an article enough to legally be able to call it plagiarized?
Editorial Staff
We are not legal experts here, so we refrain from giving legal advice on this site.
管理者
Dallas
You fail to mention that any self respecting autoblogger will strip out links and insert their own affiliate links rather than using your content as it comes, so your approach to getting links from them will usually fail.
Editorial Staff
Is there such thing as a self respecting autoblogger? If they have any self respect, then they will write original content.
管理者
David Halver
Agreed! There’s a very special “Hot Place” near the center of the Earth for Spammers, Scrapers and Auto-Bloggers…
VeryCreative
I think that the best idea is to include affiliate links.
After the last Pinguin update, my website was penalized. I started to analyze it and I’ve discovered that many other sites copied my content. I don’t know why, but those websites rank better than me in search engines, using my content.
Editorial Staff
Not just affiliate links. Include as many internal links. Because if those sites are linking back to your other pages, then Google will KNOW that you are the authority site.
管理者
Bayer
Hi wpbeginner.com Team. I really appreciate this article, but have one question in regards to having internal links in your pages/posts.
I suppose you mean ‘absolute’ links?? Otherwise this may not work in your favour, once the content has been scraped… Well, so far I have always been going along with relative links, as you do I suppose. Which is the best method? Cheers!
Editorial Staff
We always use absolute links because it keeps thing working smooth.
Gautam Doddamani
first of all your tutorial is just fantastic..hats off! just one doubt how to know if a site is a scraper site? i used your method and found out that Google Webmaster Tools is reporting that there are 262 links to my site and there are many sites which dont know of…thus i am in a confusion….how to check if a site is a scraper site or an authoritative site?? is der a tool available for that? thanks in advance!
Editorial Staff
Trust me, no authority site will ever STEAL your article word-for-word.
管理者
Gautam Doddamani
yes that is true…but what if i dont want to find my article on those scraping sites…i know my article is there as it is being reported by GWT and i just want to block that IP address by inserting those rewritecond rules in the htaccess file…i dont want to waste my time searching those bad sites for my article or requesting them to takedown my article…
Nathan
Thank you for this article – and for your site in general!. I like this so much that I had wondered how I would keep track of this resource. And now I see the subscriptions options below. What a way to get a comment!
Yeasin
Preventing content scraping is almost impossible. I don’t think content scrapper does hurt me any way. They are just voting me that i have got some high quality contents. Google is smart enough to detect the original publishers. No-one should worry.
mrwindowsx
really informative, if you use cloudflare, there is new apps called ScrapeShield, and you can easily protect and track/monitor your site contents free.
wpbeginner
@mrwindowsx Oh didn’t know that. Thanks for pointing it out.
Gautam Doddamani
wow dats great man…do you use cloudflare? i just wanted your review because i have never used that cdn service..i know it is free and all but i think my site load time is already gr8 that i didnt require it…now that scrapeshield is there i think i will definitely check it out…what all other apps will we get if we start using cloudflare?? thanks
Matt
Hello,
IMO @cloudflare really is awesome. I have two sites on it (both mine and my wife’s blog) and it really is incredibly fast, but that’s not to mention all of the security, traffic analysis, app support (automatic app installs) that they provide.
I know that all hosting setups are different, but I have both of our sites running on the Media Temple (gs)Grid Service. I can honestly say that our sites run faster now than they did when I was using W3 Total Cache and Amazon S3 as my CDN. Actually, I still use W3TC on my site to minimize & cache my content, but I use CloudFlare for CDN, DNS, and security services.
Highly recommend… Actually, I would really appreciate it if someone at WPBeginner would give us their in-depth, experienced opinion of the CloudFlare services. To me, they have been awesome!
shivabeach
You can also get a plugin whose name eludes me at this time that does the google search for you. It also adds a code into your RSS that the app searches for
MuhammadWaqas
Great post, I know there are many autoblogs fetching my content. Although after penguin update my site is getting 3 times more traffic from google than before. But after reading about many disasters or original content generators I’m worried about future penalties by google.
Its my experience that usually google respect high PR sites with good authority backlinks. but site is just one year old and PR is less than 5.
I try to contact scrappers but most of them don’t have contact forms. so I think I’ll try that htaccess method to blog the scrappers ip addresses. But only the other hand some of them can use feedburner.
Garratt
Personally I don’t bother with RSS as most users don’t use it. Instead supply a newsletter feed. It does the same trick + you get emails to market to (if done correctly). Majority of people are more likely to subscribe to a blog rather than bookmark a RSS in my experience. So it’s better to turn off RSS. You can do this using WordPress SEO by Yoast, and various other plugins.
Then if you also implement above mentioned strategies, you should be good. Remove all unnecessary headers RSD WLM etc.
There will be a couple still able to scrape effectively but those tricks will diminish a great deal of them.