Как анализировать гетерогенную разметку с помощью PHP?


У меня есть строка с пользовательской разметкой для сохранения песен с аккордами, таблицами, заметками и т.д. Он содержит

Вещи в разных скобках: \[.+?\], \[[.+?\]], \(.+?\)
стрелы: <-{3,}>, \-{3,}>, <\-{3,}
и так далее...

Пример текста может быть

Text Text [something]
--->
Text (something 021213)

Теперь я хочу разобрать разметку на массив токенов, объектов соответствующих классов, которые выглядели бы как (совпадающие части в скобках)

ParsedBlock_Text ("Text Text ")
ParsedBlock_Chord ("something")
ParsedBlock_Text (" ")
ParsedBlock_NewColumn
ParsedBlock_Text (" text ")
ParsedBlock_ChordDiagram ("something 021213")

Я знаю, как их сопоставить, но либо я должен сопоставлять каждый другой шаблон и сохраняйте смещения, чтобы правильно отсортировать массив, или я сопоставляю их сразу, и я не знаю, какой из них был сопоставлен.

Спасибо, МК

Author: hakre, 2013-05-03

1 answers

Предполагая, что вы не пытаетесь вложить эти структуры, это обозначит ваш текст:

function ParseText($text) {
    $re = '/\[\[(?P<DoubleBracket>.*?)]]|\[(?P<Bracket>.*?)]|\((?P<Paren>.*?)\)|(?<Arrow><---+>?|---+>)/s';
    $keys = array('DoubleBracket', 'Bracket', 'Paren', 'Arrow');
    $result = array();
    $lastStart = 0;
    if (preg_match_all($re, $text, $matches, PREG_SET_ORDER | PREG_OFFSET_CAPTURE)) {
        foreach ($matches as $match) {
            $start = $match[0][1];
            $prefix = substr($text, $lastStart, $start - $lastStart);
            $lastStart = $start + strlen($match[0][0]);
            if ($prefix != '' && !ctype_space($prefix)) {
                $result []= array('Text', trim($prefix));
            }
            foreach ($keys as $key) {
                if (isset($match[$key]) && $match[$key][1] >= 0) {
                    $result []=  array($key, $match[$key][0]);
                    break;
                }
            }
        }
    }
    $prefix = substr($text, $lastStart);
    if ($prefix != '' && !ctype_space($prefix)) {
        $result []= array('Text', trim($prefix));
    }
    return $result;
}

Пример:

$mytext = <<<'EOT'
Text Text [something]
--->
Text (something 021213)
More Text
EOT;

$parsed = ParseText($mytext);
foreach ($parsed as $item) {
    print_r($item);
}

Выход:

Array
(
    [0] => Text
    [1] => Text Text
)
Array
(
    [0] => Bracket
    [1] => something
)
Array
(
    [0] => Arrow
    [1] => --->
)
Array
(
    [0] => Text
    [1] => Text
)
Array
(
    [0] => Paren
    [1] => something 021213
)
Array
(
    [0] => Text
    [1] => More Text
)

Http://ideone.com/kJQrBw

Если вы хотите добавить больше шаблонов в регулярное выражение, убедитесь, что вы поместили более длинные шаблоны в начале, чтобы они не были ошибочно сопоставлены как неправильный тип.

 1
Author: Markus Jarderot, 2013-05-03 13:07:40