Как вы читаете, обрабатываете и записываете содержимое нестандартного форматированного xml

Я пытаюсь обработать содержимое Language-XML-файла на С# для машинного перевода.

Содержимое <seg-source> сегментов должно быть переведено и записано обратно в <target> сегменты. Форматирование тегов внутри исходного или целевого сегментов должно оставаться прежним.

Моя первая проблема заключается в том, что файл xml читается неправильно из-за того, что начальный и конечный теги не являются <xml> и </xml>. Замена первых двух строк текста тегом <xml> не работает, потому что весь исходный XML-файл написан в одну строку (следующий пример отформатирован для лучшего чтения).

Есть ли простой способ скопировать всю исходную информацию, которая должна быть переведена в массив, и записать ее обратно после того, как я ее обработаю?

Вот как выглядят XML-файлы (.sdlxliff):

<?xml version = "1.0" encoding = "utf-8"?>
<xliff xmlns:sdl = "http://sdl.com/FileTypes/SdlXliff/1.0" xmlns = "urn:oasis:names:tc:xliff:document:1.2" version = "1.2" sdl:version = "1.0">
    <file original = "" datatype = "x-sdlfilterframework2" source-language = "de-DE" target-language = "en-US">
        <header>
            <file-info xmlns = "http://sdl.com/FileTypes/SdlXliff/1.0">
                <value key = "SDL:FileId">77260240-fccf-4e75-81e3-7a1ab00fe948</value>
                <value key = "SDL:CreationDate">03/18/2022 16:00:07</value>
                <value key = "SDL:OriginalFilePath"></value>
                <value key = "SDL:FileTypeDllVersion">1.8.2.0</value>
                <value key = "SDL:OriginalEncoding">utf-8</value>
                <value key = "SDL:AutoClonedFlagSupported">True</value>
                <value key = "HasUtf8Bom">False</value>
                <value key = "LineBreakType">
</value>
                <value key = "ParagraphTextDirections"/>
                <sniff-info>
                    <detected-encoding detection-level = "Likely" encoding = "utf-8"/>
                    <detected-source-lang detection-level = "Guess" lang = "de-DE"/>
                    <props>
                        <value key = "HasUtf8Bom">False</value>
                        <value key = "LineBreakType">
</value>
                    </props>
                </sniff-info>
            </file-info>
            <sdl:filetype-info>
                <sdl:filetype-id>Plain Text v 1.0.0.0</sdl:filetype-id>
            </sdl:filetype-info>
            <tag-defs xmlns = "http://sdl.com/FileTypes/SdlXliff/1.0">
                <tag id = "0">
                    <st name = "^">^</st>
                </tag>
                <tag id = "1">
                    <st name = "$">$</st>
                </tag>
                <tag id = "2">
                    <st name = "^">^</st>
                </tag>
                <tag id = "3">
                    <st name = "$">$</st>
                </tag>
                <tag id = "4">
                    <st name = "^">^</st>
                </tag>
                <tag id = "5">
                    <st name = "$">$</st>
                </tag>
            </tag-defs>
        </header>
        <body>
            <trans-unit translate = "no" id = "08c58142-03fe-4aad-8bc6-64e45600e91c">
                <source>
                    <x id = "0"/>
                </source>
            </trans-unit>
            <trans-unit id = "038509df-7f97-4faa-867f-ec00a1290f62">
                <source>Ein Satz zu übersetzen</source>
                <seg-source>
                    <mrk mtype = "seg" mid = "1">Ein Satz zu übersetzen</mrk>
                </seg-source>
                <target>
                    <mrk mtype = "seg" mid = "1"/>
                </target>
                <sdl:seg-defs>
                    <sdl:seg id = "1"/>
                </sdl:seg-defs>
            </trans-unit>
            <trans-unit translate = "no" id = "b3f5e43b-6bba-41e4-a9fd-b7e4077694cc">
                <source>
                    <x id = "1"/>
                    <x id = "2"/>
                </source>
            </trans-unit>
            <trans-unit id = "4c7dcbe2-1ebe-4e56-bb9a-2fe647b12f1f">
                <source>Ein zweiter Satz zu übersetzen</source>
                <seg-source>
                    <mrk mtype = "seg" mid = "2">Ein zweiter Satz zu übersetzen</mrk>
                </seg-source>
                <target>
                    <mrk mtype = "seg" mid = "2"/>
                </target>
                <sdl:seg-defs>
                    <sdl:seg id = "2"/>
                </sdl:seg-defs>
            </trans-unit>
            <trans-unit translate = "no" id = "0ca0c301-f5a2-44e8-8754-7618c98e14c6">
                <source>
                    <x id = "3"/>
                    <x id = "4"/>
                </source>
            </trans-unit>
            <trans-unit id = "5b3973af-b0cf-4dcf-b66c-aea309389c2d">
                <source>Ein letzter weiterer Satz zu übersetzen</source>
                <seg-source>
                    <mrk mtype = "seg" mid = "3">Ein letzter weiterer Satz zu übersetzen</mrk>
                </seg-source>
                <target>
                    <mrk mtype = "seg" mid = "3"/>
                </target>
                <sdl:seg-defs>
                    <sdl:seg id = "3"/>
                </sdl:seg-defs>
            </trans-unit>
            <trans-unit translate = "no" id = "1cced868-b401-45c5-be2b-ea1fede236c0">
                <source>
                    <x id = "5"/>
                </source>
            </trans-unit>
        </body>
    </file>
</xliff>

Это мой код для чтения файла, но я понятия не имею, как обращаться с тегами в исходных сегментах, и я думаю, что должен быть лучший способ заменить начальный тег:

    string fileContents = File.ReadAllText(ofd_ToTranslate.FileName);

    fileContents = fileContents.Replace("<?xml version=\"1.0\" encoding=\"utf - 8\"?><xliff xmlns:sdl=\"http://sdl.com/FileTypes/SdlXliff/1.0\" xmlns=\"urn:oasis:names:tc:xliff:document:1.2\" version=\"1.2\" sdl:version=\"1.0\">", "<xml>");
    fileContents = fileContents.Replace("</xliff>", "</xml>");

    XmlReaderSettings settings = new XmlReaderSettings { NameTable = new NameTable() };
    XmlNamespaceManager xmlns = new XmlNamespaceManager(settings.NameTable);
    xmlns.AddNamespace("sdl", "");
    XmlParserContext context = new XmlParserContext(null, xmlns, "", XmlSpace.Default);
    XmlReader reader = XmlReader.Create(new StringReader(fileContents), settings, context);
    XmlDocument xmlDoc = new XmlDocument();

    xmlDoc.Load(reader);

    XmlNodeList sourceElements = xmlDoc.GetElementsByTagName("source");
    XmlNodeList targetElements = xmlDoc.GetElementsByTagName("target");

Вопрос не ясен. Это простой XML-файл. Тег <xml> не нужен. <?xml> — это тег нет, это XML-декларация необязательный, которая может появляться в любом XML-документе. Ваш код калечит это совершенно нормальный XML файл без всякой причины. Только не коверкай. Просто используйте XmlDocument или XDocument, чтобы прочитать его, а затем делайте с тегами все, что хотите.

Panagiotis Kanavos 18.03.2022 16:21

Лучше использовать XML Linq. Чтобы упростить запись, сохраняйте формат чтения. Затем используйте doc.Descendants("trans-unit").ToArray(), чтобы получить массив тегов.

jdweng 18.03.2022 16:23

Я попытался использовать «.descendants» в файле. Это не работает, пока я не заменил заголовок на <xml> - это и было причиной его замены в первую очередь. Может ли быть другая причина, по которой ".descendants("trans-unit")" ничего не возвращает?

Dave 20.03.2022 18:14

Это твое пространство имен, Дэйв. Что-то нужно сделать с вашим пространством имен.

Enigmativity 20.03.2022 23:17
Стоит ли изучать PHP в 2023-2024 годах?
Стоит ли изучать PHP в 2023-2024 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
0
4
58
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Вы можете использовать сериализацию xml

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Xml;
using System.Xml.Serialization;

namespace ConsoleApp1
{
    class Program
    {
        const string FILENAME = @"c:\temp\test.xml";
        static void Main(string[] args)
        {
            XmlReader reader = XmlReader.Create(FILENAME);
            XmlSerializer serializer = new XmlSerializer(typeof(Xliff));
            Xliff xliff = (Xliff)serializer.Deserialize(reader);
        }
    }
    [XmlRoot(ElementName = "xliff", Namespace = "urn:oasis:names:tc:xliff:document:1.2")]
    public class Xliff
    {
        [XmlElement("file")]
        public File file { get; set; }
    }
    public class File
    {
        [XmlAttribute()]
        public string datatype { get; set; }
        [XmlAttribute("source-language")]
        public string sourceLanguage { get; set; }

        [XmlElement("header")]
        public Header header { get; set; }
        [XmlElement("body")]
        public Body body { get; set; }
    }
    public class Header
    { 
        [XmlElement(ElementName = "file-info", Namespace = "http://sdl.com/FileTypes/SdlXliff/1.0")]
        public FileInfo fileInfo { get; set; }
        [XmlElement(ElementName = "filetype-info", Namespace = "http://sdl.com/FileTypes/SdlXliff/1.0")]
        public FileType fileType { get; set; }
        [XmlArray(ElementName = "tag-defs", Namespace = "http://sdl.com/FileTypes/SdlXliff/1.0")]
        [XmlArrayItem(ElementName = "tag")]
        public List<Tag> tags { get; set; }
    }
    public class FileInfo
    {
        [XmlElement(ElementName = "value", Namespace = "http://sdl.com/FileTypes/SdlXliff/1.0")]
        public List<Value> values { get; set; }
        [XmlElement(ElementName = "sniff-info")]
        public SniffInfo sniffInfo { get; set; }
    }
    public class Value
    {
        [XmlAttribute()]
        public string key { get; set; }
        [XmlText]
        public string value { get; set; }
    }
    public class SniffInfo
    {
        [XmlElement(ElementName = "detected-encoding")]
        public Encoding encoding { get; set; }
        [XmlElement(ElementName = "detected-source-lang")]
        public Source source { get; set; }
        [XmlArray("props")]
        [XmlArrayItem("value")]
        public List<Value> values { get; set; }

    }
    public class Encoding
    {
        [XmlAttribute("detection-level")]
        public string detectionLevel { get; set; }
        [XmlAttribute()]
        public string encoding { get; set; }
    }
    public class Source
    {
        [XmlAttribute("detection-level")]
        public string detectionLevel { get; set; }
        [XmlAttribute()]
        public string lang { get; set; }
    }
    public class FileType
    {
        [XmlElement(ElementName = "filetype-id")]
        public string id { get; set; }
    }
    public class Tag
    {
        [XmlAttribute("id")]
        public int id { get; set; }
        [XmlElement(ElementName = "st")]
        public St st { get; set; }
    }
    public class St
    {
        [XmlAttribute()]
        public string name { get; set; }
        public string value { get; set; }
    }
    public class Body
    {
        [XmlElement(ElementName = "trans-unit")]
        public List<TransUnit> transUnits { get; set; }
    }
    public class TransUnit
    {
        [XmlAttribute()]
        public string translate { get; set; }
        [XmlAttribute()]
        public string id { get; set; }
        [XmlArray("source")]
        [XmlArrayItem("x")]
        public List<X> xs { get; set; }
        [XmlElement(ElementName = "seg-source")]
        public SegSource segSource { get; set; }

        public Target target { get; set; }
        [XmlElement(ElementName = "seg-defs", Namespace = "http://sdl.com/FileTypes/SdlXliff/1.0")]
        public SegDefs segDeg { get; set; }
    }
    public class X
    {
        [XmlAttribute("id")]
        public int id { get; set; }
    }
    public class SegSource
    {
        public Mrk mrk { get; set; }
    }
    public class Target
    {
        public Mrk mrk { get; set; }
    }
    public class Mrk
    {
        [XmlAttribute()]
        public string mtype { get; set; }
        [XmlAttribute()]
        public string mid { get; set; }
        [XmlText]
        public string value { get; set; }
    }
    public class SegDefs
    {
        public Seg seg { get; set; }
    }
    public class Seg
    {
        [XmlAttribute()]
        public int id { get; set; }
    }
}

Это ничего не делает, чтобы помочь ОП понять его проблему.

Enigmativity 20.03.2022 23:14

@Enigmativity: ОП знает проблему лучше, чем кто-либо. Просто не знает кода для решения проблемы. Сериализацию Xml нелегко освоить, потому что существует так много исключений. То, что мне нужно было сделать за короткий промежуток времени, заняло бы недели OP, чтобы решить.

jdweng 21.03.2022 09:44
Ответ принят как подходящий

Ваш XML в порядке, но у него есть пространство имен по умолчанию:

xmlns = "urn:oasis:names:tc:xliff:document:1.2"

Для доступа к узлам необходимо использовать пространство имен.

Вот пример:

var xd = XDocument.Load(@"file.xml");
var xn = XNamespace.Get("urn:oasis:names:tc:xliff:document:1.2");
var tus = xd.Root?.Descendants(xn + "trans-unit");
Console.WriteLine(tus.Count());

Это выводит 7 для меня.

Вы тестировали этот код?

jdweng 21.03.2022 13:12

Да. Я всегда тестирую свой код перед публикацией.

Enigmativity 21.03.2022 13:13

Это прекрасно работает. Спасибо за ваше объяснение!

Dave 21.03.2022 14:19

Другие вопросы по теме