タグ付けされた質問 「tokenize」


16
文字列区切り文字を使用してC ++で文字列を解析(分割)(標準C ++)
以下を使用してC ++で文字列を解析しています。 using namespace std; string parsed,input="text to be parsed"; stringstream input_stringstream(input); if (getline(input_stringstream,parsed,' ')) { // do some processing. } 単一の文字区切り文字を使用した解析は問題ありません。しかし、区切り文字として文字列を使用したい場合はどうでしょうか。 例:分割したい: scott>=tiger >=区切り文字として、私はスコットと虎を得ることができるように。
362 c++  parsing  split  token  tokenize 



10
スキャナーvs. StringTokenizer vs. String.Split
私はちょうどJavaのスキャナークラスについて学んだ、今それがどのようにStringTokenizerとString.Splitと比較/競合するのか疑問に思っている。StringTokenizerとString.SplitはStringsでのみ機能することを知っているので、なぜStringに対してScannerを使用したいのですか?Scannerは分割のためのワンストップショッピングを意図したものですか?

4
「トークン化機構」、「パーサー」、「レクサー」の明確な定義と、それらが相互にどのように関連して使用されるかを探していますか?
「トークン化」、「パーサー」、「レクサー」とは何か、それらが互いにどのように関連しているのか(パーサーがトークナイザーを使用するか、その逆など)の明確な定義を探しています。データの宣言と定義を抽出するためにc / hソースファイルを処理するプログラムを作成する必要があります。 私は例を探していて、いくつかの情報を見つけることができますが、文法規則、解析ツリー、抽象構文ツリーなどの基本的な概念と、それらがどのように相互に関連するかを理解するのに本当に苦労しています。最終的にこれらの概念は実際のプログラムに格納する必要がありますが、1)それらはどのように見えるか、2)一般的な実装があります。 LexやYaccのようなこれらのトピックやプログラムについてウィキペディアを見てきましたが、コンパイラークラス(EEメジャー)を一度も経験したことがないので、何が起こっているのかを完全に理解するのは難しいと感じています。
151 parsing  lexer  tokenize 

5
Pythonコードの行は、インデントのネストレベルを知ることができますか?
このようなものから: print(get_indentation_level()) print(get_indentation_level()) print(get_indentation_level()) 私はこのようなものを手に入れたいです: 1 2 3 この方法でコードを読み取ることができますか? 私が欲しいのは、コードのよりネストされた部分からの出力がよりネストされることです。これによりコードが読みやすくなるのと同じように、出力も読みやすくなります。 もちろん、たとえばを使用してこれを手動で実装することもできます.format()が、私が念頭に置いていたのは、インデントレベルがprint(i*' ' + string)どこにあるかというカスタムの印刷関数でしたi。これは、私の端末で読みやすい出力を作成する簡単な方法です。 これを行うための手作業でのフォーマットの手間を省くより良い方法はありますか?


11
NLTKトークナイザーを使用して句読点を取り除く方法は?
私はNLTKを使い始めたばかりで、テキストから単語のリストを取得する方法がよくわかりません。を使用するとnltk.word_tokenize()、単語と句読点のリストが表示されます。代わりに言葉だけが必要です。句読点を取り除くにはどうすればよいですか?またword_tokenize、複数の文では機能しません。ドットは最後の単語に追加されます。
125 python  nlp  tokenize  nltk 

13
Oracleで文字列を複数の行に分割する
私はこれがPHPとMYSQLである程度回答されていることを知っていますが、誰かがOracle 10g(好ましくは)と11gで文字列(カンマ区切り)を複数の行に分割する最も簡単な方法を教えてくれるかどうか疑問に思っていました。 テーブルは次のとおりです。 Name | Project | Error 108 test Err1, Err2, Err3 109 test2 Err1 以下を作成します。 Name | Project | Error 108 Test Err1 108 Test Err2 108 Test Err3 109 Test2 Err1 スタックに関するいくつかの潜在的な解決策を見てきましたが、それらは単一の列(カンマ区切りの文字列)しか占めていません。どんな助けでも大歓迎です。
104 sql  string  oracle  plsql  tokenize 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.