スクリプト:XMLファイルのタグの値を抽出する最も簡単なものは何ですか?


14

pom.xml(Mavenの「プロジェクトオブジェクトモデル」)を読み取り、バージョン情報を抽出したい。以下に例を示します。

<?xml version="1.0" encoding="UTF-8"?><project 
xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">

    <modelVersion>4.0.0</modelVersion>
    <groupId>com.mycompany</groupId>
    <artifactId>project-parent</artifactId>
    <name>project-parent</name>
    <version>1.0.74-SNAPSHOT</version>
    <dependencies>
        <dependency>
        <groupId>com.sybase.jconnect</groupId>
        <artifactId>jconnect</artifactId>
        <version>6.05-26023</version>
    </dependency>
    <dependency>
        <groupId>joda-time</groupId>
        <artifactId>joda-time</artifactId>
        <version>1.5.2</version>
    </dependency>
    <dependency>
        <groupId>com.sun.jdmk</groupId>
        <artifactId>jmxtools</artifactId>
        <version>1.2.1</version>
    </dependency>
    <dependency>
        <groupId>org.easymock</groupId>
        <artifactId>easymock</artifactId>
        <version>2.4</version>
    </dependency>       
</dependencies>
</project>

上記からバージョン「1.0.74-SNAPSHOT」を抽出するにはどうすればよいですか?

シンプルなbashスクリプトsedまたはawkを使用して、これを実行できるようになります。それ以外の場合は、単純なpythonが推奨されます。

編集

  1. 制約

    Linuxボックスは企業環境にあるため、既にインストールされているツールのみを使用できます(xml2などのユーティリティを要求することはできませんが、大量の赤テープを使用する必要があります)。いくつかのソリューションは非常に優れています(既にいくつかの新しいトリックを学びます)が、環境が制限されているために適用できない場合があります

  2. 更新されたxmlリスト

    依存関係タグを元のリストに追加しました。この場合、一部のハッキングソリューションが機能しない可能性があります

  3. ディストリビューション

    私が使用しているディストリビューションはRHEL4です



あんまり。xmlには多くのバージョンタグがあります(たとえば、依存関係タグの下)。'/ project / version'のみが必要です
アンソニーコング

どのxml関連のツールとライブラリが利用可能ですか?jvmベースのソリューションは大丈夫ですか?
Vi。

これまでのところ、xml2、xmlgrep、perl XMLモジュールが存在しないことがわかります。ほとんどのUNIXコマンドラインユーティリティが存在します。ディストリビューションはRedHatのEL 4です
アンソニー・香港

.....いくつかの偉大な答えはここで見つけることができます(私はやり過ぎ多少、答えとして返信する必要がありますので、私はコメントを追加することができませんでした)stackoverflow.com/questions/2735548/...
JStrahl

回答:


17

xml2はxmlを行指向の形式との間で変換できます:

xml2 < pom.xml  | grep /project/version= | sed 's/.*=//'

6

その他の方法:xmlgrepおよびXPath:

xmlgrep --text_only '/project/version' pom.xml

欠点:遅い


コマンドをxml_grep
GAD3R

6

を使用して python

$ python -c 'from xml.etree.ElementTree import ElementTree; print ElementTree(file="pom.xml").findtext("{http://maven.apache.org/POM/4.0.0}version")'
1.0.74-SNAPSHOT

を使用して xmlstarlet

$ xml sel -N x="http://maven.apache.org/POM/4.0.0" -t -m 'x:project/x:version' -v . pom.xml
1.0.74-SNAPSHOT

を使用して xmllint

$ echo -e 'setns x=http://maven.apache.org/POM/4.0.0\ncat /x:project/x:version/text()' | xmllint --shell pom.xml | grep -v /
1.0.74-SNAPSHOT

cat (//x:version)[1]/text()使用してxmllintも動作します!
ケブ

5

Clojureの方法。特別なjarファイルを含むjvmのみが必要です。

java -cp clojure.jar clojure.main -e "(use 'clojure.xml) (->> (java.io.File. \"pom.xml\") (clojure.xml/parse) (:content) (filter #(= (:tag %) :version)) (first) (:content) (first) (println))"

Scalaの方法:

java -Xbootclasspath/a:scala-library.jar -cp scala-compiler.jar scala.tools.nsc.MainGenericRunner -e 'import scala.xml._; println((XML.load(new java.io.FileInputStream("pom.xml")) match { case <project>{children @ _*}</project> => for (i <- children if (i  match { case <version>{children @ _*}</version> => true; case _ => false;  }))  yield i })(0) match { case <version>{Text(x)}</version> => x })'

グルーヴィーな方法:

java -classpath groovy-all.jar groovy.ui.GroovyMain -e 'println (new XmlParser().parse(new File("pom.xml")).value().findAll({ it.name().getLocalPart()=="version" }).first().value().first())'

これはすごい!いい案!
アンソニーコング

4

これがPerlの代替です

$ perl -MXML::Simple -e'print XMLin("pom.xml")->{version}."\n"'
1.0.74-SNAPSHOT

深さの異なる複数の「バージョン」要素がある質問の修正/拡張された例で動作します。


遅い(xmlgrepよりも高速ですが)
Vi。

3

ハッキーな方法:

perl -e '$_ = join "", <>; m!<project[^>]*>.*\n(?:    |\t)<version[^>]*>\s*([^<]+?)\s*</version>.*</project>!s and print "$1\n"' pom.xml

必須の正しいインデントに依存 <version>


提案をありがとう、しかし残念ながらそれは私が望むものを返しません。更新されたPOMモデルをご覧ください。
アンソニーコング

「1.0.74-SNAPSHOT」を返します。複数の<version>ことを読んだ後にスクリプトを変更したことに注意してください。
Vi。

注:このソリューションは「楽しみのために」提供されており、実際の製品で使用することを意図したものではありません。xml2 / xmlgrep / XML :: Simpleソリューションをより適切に使用します。
Vi。

ありがとう!それは「ただの楽しみ」ですが、依存関係の数が最小限であるため、おそらく最も最適なソリューションです。perlのみが必要です;
アンソニーコング

Javaから実行するのはどうですか?pomファイルを使用することは、JVMがインストールされていることを意味します。
Vi。

3

非常に不器用なワンライナーソリューションを作成する

python -c "from xml.dom.minidom import parse;dom = parse('pom.xml');print [n for n in dom.getElementsByTagName('version') if n.parentNode == dom.childNodes[0]][0].toxml()" | sed -e "s/.*>\(.*\)<.*/\1/g"

最後のsedは非常にいですが、ノードのテキストをmindomだけで印刷することはできませんでした。

_Viから更新

あまりハックのないPythonバージョン:

python -c "from xml.dom.minidom import parse;dom = parse('pom.xml');print [i.childNodes.item(0).nodeValue for i in dom.firstChild.childNodes if i.nodeName == 'version'].pop()"

私からの更新

別のバージョン:

    python -c "from  xml.dom.minidom import parse;dom = parse('pom.xml');print [n.firstChild.data for n in dom.childNodes[0].childNodes if n.firstChild and n.tagName == 'version']"

2

XSLTの方法:

<?xml version="1.0" encoding="ISO-8859-1"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
        <xsl:output method="text"/>

        <xsl:template match="/">
                <xsl:for-each select="*[local-name()='project']">
                    <xsl:for-each select="*[local-name()='version']">
                        <xsl:value-of select="text()"/>
                    </xsl:for-each>
                </xsl:for-each>
        </xsl:template>
</xsl:stylesheet>
xalan -xsl x.xsl -in pom.xml

xsltprocがシステム上にあり、おそらくlibxsltがRHEL4上にある場合は、それと上記のスタイルシートを使用してタグ、つまりxsltproc x.xsl prom.xslを出力できます。
fpmurphy

2

「xmlに多くのバージョンタグがある」場合は、「単純なツール」と正規表現を使用することを忘れてください。

このPythonを試してください(依存関係なし):

from xml.dom.minidom import parse

dom = parse('pom.xml')
project = dom.getElementsByTagName('project')[0]
for node in project.childNodes:
    if node.nodeType == node.ELEMENT_NODE and node.tagName == 'version':
        print node.firstChild.nodeValue

このスクリプトは正確に何をしますか?
サイモンシーハン

Pythonのminidom実装を使用してXMLをDOM構造として読み込みます:docs.python.org/library/xml.dom.minidom.htmlアイデアは、一意の<project>タグを取得し、その子ノード(直接子のみ)探しているタグ<version>を見つけ、他の場所にある同じ名前の他のタグを見つけません。
サムス

1

sedを使用したワンライナーは次のとおりです。

sed '/<dependencies>/,/<\/dependencies>/d;/<version>/!d;s/ *<\/\?version> *//g' pom.xml

1
要素にパラメーターが存在しないことと、余分な<version>sが依存関係の内部にのみ存在できることに依存しています。
Vi。

1

awkは、追加のツールを使用しなくても正常に機能します。
cat pod.xml

<project>
  <modelVersion>4.0.0</modelVersion>
  <groupId>com.networks.app</groupId>
  <artifactId>operation-platform</artifactId>
  <version>1.0.0</version>
  <packaging>tar.xz</packaging>
  <description>POM was created by Sonatype Nexus</description>
</project>

<packaging>タグの値を取得する簡単で読みやすい方法:

cat pod.xml | awk -F'[<>]' '/packaging/{print $3}'

1
これは機能しているように見えますが、注意してください。フィールドセパレータ(FS)を文字セット<および>に設定することです。次に、「packaging」という単語が含まれるすべての行を検索し、3番目のフィールドを提供します。
SMerrill8

0
Return_text_val=$(xmllint --xpath "//*[local-name()='$TagElmnt']" $FILE )

ここで、これを試してください:

$TagElmnt - TagName
$FILE - xml file to parse

0

あなたの質問はLinuxを言っていますが、バッチファイルに入れることができるようにサードパーティのツールを必要とせずにWindowsでこれを行う必要がある場合、Powershellはpom.xmlファイルから任意のノードを抽出できます:

powershell -Command "& {select-xml //pom:project/pom:properties/pom:mypluginversion -path pom.xml -Namespace  @{pom='http://maven.apache.org/POM/4.0.0'} | foreach {$_.Node.Innerxml}}" > myPluginVersion.txt

Powershellは現在オープンソースであり、Linuxおよびその他のプラットフォームで実行されます。bash、cygwin、ming64よりも優先してビルドに使用します。
チャールウィード

0
sed -n "/<name>project-parent/{n;s/.*>\(.*\)<.*/\1/p;q}" pom.xml

この-nオプションは、一致しない行の印刷を回避します。最初の一致(/.../)は、必要なテキストがある行の前の行にあります。n次の行にコマンドスキップs捕捉基スルー抽出関連情報(\(...\))、及び後方参照(\1)。p印刷してq終了します。


2
これを説明するために答えを展開できますか?ありがとう。
fixer1234
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.