HTML文件中的事务数据

1查看(最近30天)
V K.
V K. 20月15日
评论道: V K.2020年5月16日
您好,我在目录中有一系列html文件,名为transactiondata1.html,transactiondata2.html等。在这些HTML文件中,事务信息被掩埋的兴趣参数:
客户名称: Michael Henesi
...(其他一些东西)
事务ID: 21987335670
事务ID有不同的长度,有时不可用(该字段中没有条目)。有时会有多个事务。有时,事务ID被指定为:
< b >事务ID: < / b > 21987335670
也就是说,交易ID之前的空间变为结肠后的空间。
在某些HTML文件中,缺少客户名称和事务ID信息。
目标是在一个文本文件中获取目录中所有文件中的所有Transaction id以及Customer Names。如何做到这一点?
2的评论
V K.
V K. 20月15日
当然。我附上了一个这样的文件(以文本格式为单位)。
在事务ID字段中,有时它是空白的。

登录评论。

接受答案

每只伊拉克森
每只伊拉克森 20月15日
编辑:每只伊拉克森 20月15日
这是一个开始
%%
悲伤= dir(' d: \ m \ cssm \ transData * . txt ');
Len = length(悲哀);
Out = Cell(Len,2);
JJ = 1:LEN
CHR = fileread(悲伤(jj))。文件夹,悲伤(jj).name));
xpr =' < b >客户名称:< \ / b >([^ <] +)。+ < b >事务ID: < \ / b > \ x20的* (\ d +) '
Cac = regexp(chr, xpr,“令牌”);
如果不是(isempty(cac{1}))
出(JJ,:) = CAC {:};
结束
结束
出去
它输出
出=
1×2个细胞大批
“陆凌晨”} {“8299045”
>>
在回应评论时
%%
悲伤= dir(' d: \ m \ cssm \ transData * . txt ');
Len = length(悲哀);
Out = Cell(Len,2);
JJ = 1:LEN
CHR = fileread(悲伤(jj))。文件夹,悲伤(jj).name));
xpr ='客户名称:<\ / b>([^ <] *)。* 事务ID:<\ / b> \ x20 *(\ d *)'
Cac = regexp(chr, xpr,“令牌”);
如果(isempty (cac{1}{1})) & &不(isempty (cac {1} {2}))
出局(JJ,:) = CAC {1};
elseif(isempty (cac {1} {1}))
(jj, 1) = cac {1} (1);
(jj, 2) = {“-99”};
elseif不是(isempty(cac {1} {2}))
(jj, 1) = {'---'};
OUT(JJ,2)= CAC {1}(2);
其他的
(jj, 1) = {'---'};
(jj, 2) = {“-99”};
结束
结束
出去
输出
出=
2×2个细胞大批
“陆凌晨”} {“8299045”
“南顺”} {“-99”
>>
6评论
V K.
V K. 2020年5月16日
升值。

登录评论。

更多的答案(0)

社区寻宝

在MATLAB中心找到宝藏,并发现社区如何可以帮助你!

开始狩猎!