Javascriptトリック?scribdを使用すると、テキストのコピーと貼り付けも難しくなります


19

最近、私はscribdにより、ユーザー(無料ユーザー)がサイトでホストされているドキュメントを閲覧するのが非常に難しくなることを見てきました。同じものをダウンロードすることはもちろん、ドキュメント内で検索する機能はありません。

JavaScriptを使用して、ブラウザでオンデマンドでページをロードするため、ブラウザの「名前を付けて保存」機能はあまり役に立ちません。

驚いたことに、テキストをコピー/貼り付けても、クリップボードに意味がわからないことがわかりました!間違っていたことを確認するために、ブラウザーでJavaScriptをオフにしてから、同じドキュメントを再度ロードしました。出来上がり、私はちらつきを見ていた。そのため、scribdのjavascriptがなんらかの形で意味のないテキストをデコードし、ブラウザに表示するように見えます。

さて、私の質問は、javascriptが有効になり、ブラウザでテキストが適切にレンダリングされた後でも、選択したテキストに対応するDOMオブジェクトを見ると、意味不明なテキストが表示されることです。

だから、今、私は混乱しています。テキストはユーザーには問題なく表示されますが、DOMオブジェクトにはまだ意味がありません。だから質問は、DOMオブジェクトにちらつきを保持し、デコードされたテキストをレンダリングできるようにするために、サイトはどのような種類のJavaScriptフック/コードを使用していますか?

デコードされたテキストにアクセスする方法はありますか?私の意図は、デコードするアルゴリズムをリバースエンジニアリングすることではなく、デコードされたテキストが保存されている場所を見つけることですか?

サンプル文書は次のとおりです。

http://www.scribd.com/doc/143886351/OCP-Upgrade-to-Oracle-Database-12c-Student-Guide-vol-1-Exam-1Z0-060

Javascriptのオン/オフを切り替えるとどうなるかをご覧ください!


その種の単純な。彼らはjavascript pdfビューアを作成しました。MozillaはFirefoxで何かをしました。PDFビューアはコンテンツの表示に実際には使用されていないため、視聴体験のほぼすべての側面を制御できます。
ラムハウンド

回答:


15

font-familyためspan。カスタムフォント(この場合ff6)を使用します。

より多くのPDFドキュメントが正しく表示されるように、これを行う必要があります。PDFドキュメントの場合と同様に、ドキュメント内のテキストが標準の文字セットを使用する必要はありません。埋め込みフォントのグリフにマップするコードを持つものを使用するだけです。


10

表示されたテキストと「意味不明」を見ると、一部の文字が置換されているのに対して、一部の文字は同じであることがわかります。たとえば、「Mltmrprfsm Jblbemr」は「Enterprise Manager」です。十分なテキストがあれば、簡単な変換テーブルを作成できるはずです。すでに、MEL- > NTR、およびPに翻訳されること、F- > Rなどが明確であることがわかっています。

もちろん、次のドキュメントがDan D.が言及ff6したのと同じフォントを使用するという保証はないため、後で使用するためにテキストを保存する場合は、ローカルで使用するためにそのフォントを取得することが次のステップになります。


0

ブラウザのクロップツールを使用してスクリーンショットをキャプチャし、すぐに利用できるオンラインocrサイトのいずれかを使用して、テキストに変換することができます。それはあなたを整理する必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.