英語の文章の複雑さを判断するにはどうすればよいですか?


10

私は人々が第二言語として英語を学ぶのを助けるアプリに取り組んでいます。文章が追加のコンテキストを提供することで言語の学習に役立つことを検証しました。60人の生徒の教室で小規模な調査を実施しました。

私はWikipediaから10万以上の文をさまざまな英語の単語(Barronsの800の単語と1000の最も一般的な英語の単語を含む)についてマイニングしました

データ全体はhttps://buildmyvocab.inで入手できます

コンテンツの品質を維持するために、理解しにくい可能性があるため、160文字を超える文章は除外しました。

次のステップとして、このコンテンツを理解しやすい順に並べ替えるプロセスを自動化できるようにしたいと考えています。私自身は英語を母国語としない人です。簡単な文章と難しい文章を区別するために使用できる機能を知りたい。

また、これは可能だと思いますか?

回答:


8

はい。フォッグインデックスなど、さまざまなメトリックがあります。 PythonのTextacyには、すばらしいリストと実装があります。

>>> ts.flesch_kincaid_grade_level
10.853709110179697
>>> ts.readability_stats
{'automated_readability_index': 12.801546064781363,
 'coleman_liau_index': 9.905629258346586,
 'flesch_kincaid_grade_level': 10.853709110179697,
 'flesch_readability_ease': 62.51222198133965,
 'gulpease_index': 55.10492845786963,
 'gunning_fog_index': 13.69506833036245,
 'lix': 45.76390294037353,
 'smog_index': 11.683781121521076,
 'wiener_sachtextformel': 5.401029023140788}

エントロピーや一意の単語の割合を確認することもできますが、上記の指標はより関連性があります。
GrimSqueaker
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.