Как анализировать гетерогенную разметку с помощью PHP?
У меня есть строка с пользовательской разметкой для сохранения песен с аккордами, таблицами, заметками и т.д. Он содержит
Вещи в разных скобках: \[.+?\]
, \[[.+?\]]
, \(.+?\)
стрелы: <-{3,}>
, \-{3,}>
, <\-{3,}
и так далее...
Пример текста может быть
Text Text [something]
--->
Text (something 021213)
Теперь я хочу разобрать разметку на массив токенов, объектов соответствующих классов, которые выглядели бы как (совпадающие части в скобках)
ParsedBlock_Text ("Text Text ")
ParsedBlock_Chord ("something")
ParsedBlock_Text (" ")
ParsedBlock_NewColumn
ParsedBlock_Text (" text ")
ParsedBlock_ChordDiagram ("something 021213")
Я знаю, как их сопоставить, но либо я должен сопоставлять каждый другой шаблон и сохраняйте смещения, чтобы правильно отсортировать массив, или я сопоставляю их сразу, и я не знаю, какой из них был сопоставлен.
Спасибо, МК
1 answers
Предполагая, что вы не пытаетесь вложить эти структуры, это обозначит ваш текст:
function ParseText($text) {
$re = '/\[\[(?P<DoubleBracket>.*?)]]|\[(?P<Bracket>.*?)]|\((?P<Paren>.*?)\)|(?<Arrow><---+>?|---+>)/s';
$keys = array('DoubleBracket', 'Bracket', 'Paren', 'Arrow');
$result = array();
$lastStart = 0;
if (preg_match_all($re, $text, $matches, PREG_SET_ORDER | PREG_OFFSET_CAPTURE)) {
foreach ($matches as $match) {
$start = $match[0][1];
$prefix = substr($text, $lastStart, $start - $lastStart);
$lastStart = $start + strlen($match[0][0]);
if ($prefix != '' && !ctype_space($prefix)) {
$result []= array('Text', trim($prefix));
}
foreach ($keys as $key) {
if (isset($match[$key]) && $match[$key][1] >= 0) {
$result []= array($key, $match[$key][0]);
break;
}
}
}
}
$prefix = substr($text, $lastStart);
if ($prefix != '' && !ctype_space($prefix)) {
$result []= array('Text', trim($prefix));
}
return $result;
}
Пример:
$mytext = <<<'EOT'
Text Text [something]
--->
Text (something 021213)
More Text
EOT;
$parsed = ParseText($mytext);
foreach ($parsed as $item) {
print_r($item);
}
Выход:
Array
(
[0] => Text
[1] => Text Text
)
Array
(
[0] => Bracket
[1] => something
)
Array
(
[0] => Arrow
[1] => --->
)
Array
(
[0] => Text
[1] => Text
)
Array
(
[0] => Paren
[1] => something 021213
)
Array
(
[0] => Text
[1] => More Text
)
Если вы хотите добавить больше шаблонов в регулярное выражение, убедитесь, что вы поместили более длинные шаблоны в начале, чтобы они не были ошибочно сопоставлены как неправильный тип.