此页面提供了可以使用的不同数据集列表,以便使用文本分析应用程序。
数据集 | 描述 | 任务 |
---|---|---|
工厂的报告 |
出厂报告数据集是一个表包含大约500个报告,其中各种属性包括在变量中的纯文本描述 从文件中读取Factory Reports数据 filename =“factoryReports.csv”;数据= readtable(文件名,'texttype'那'细绳');textdata = data.description;标签= data.Category; 有关用于处理深度学习的如何处理此数据的示例,请参阅使用深度学习对文本数据进行分类(深度学习工具箱)。 |
文本分类,主题建模 |
莎士比亚的十四行诗 |
文件 阅读文件中莎士比亚十四行诗的数据 filename =“sonnets.txt”;textdata = extractFiletext(文件名);
SONNET由两个空格字符缩进,并通过两个换行符分隔。使用缩进使用 textdata = replace(textdata,”“那“);textdata = split(textdata,[newline newline]);TextData = TextData(5:2:结束); 有关用于处理深度学习的如何处理此数据的示例,请参阅使用深度学习生成文本(深度学习工具箱)。 |
主题建模,文本生成 |
ArXiv的元数据 |
Arxiv API允许您访问提交的科学电子版的元数据https://arxiv.org包括摘要和主题领域。有关更多信息,请参阅https://arxiv.org/help/api.。 使用arXiV API从数学论文中导入一组摘要和类别标签。 url =“https://export.arxiv.org/oai2?verb=listrecords”+......“&set = math”+......“&metadataprefix = Arxiv”;选项= weboptions('暂停',160);code = WebRead(URL,选项); 有关如何解析返回的XML代码并导入更多记录的示例,请参见使用深度学习的多书文本分类。 |
文本分类,主题建模 |
项目古腾堡的书籍 |
你可以从古登堡计划下载很多书。例如,从刘易斯·卡罗尔的《爱丽丝梦游仙境》中下载文本https://www.gutenberg.org/files/11/11-h/11-h.htm使用 url =“https://www.gutenberg.org/files/11/11-h/11-h.htm”;代码= Webrabread(URL);
HTML代码包含其中的相关文本 树= htmltree(代码);选择器=“P”;子树= FindElement(树,选择器);
使用HTML子树中提取文本数据 textData = extractHTMLText(子树);textData (textData = =“)= [];
有关用于处理深度学习的如何处理此数据的示例,请参阅使用深度学习的字词文本生成。 |
主题建模,文本生成 |
周末更新 |
文件 从文件中提取文本数据 filename =“waydendupdates.xlsx”;tbl = readtable(文件名,'texttype'那'细绳');textData = tbl.TextData; 有关显示如何处理此数据的示例,请参阅分析文本情绪。 |
情绪分析 |
罗马数字 |
CSV文件 从CSV文件加载十进制罗马数字对 filename = fullfile(“romannumerals.csv”);选择= detectImportOptions(文件名,......'texttype'那'细绳'那......'readvariablenames',错误的);options.variablenames = [“来源”“目标”];options.variabletypes = [“细绳”“细绳”];data = readtable(文件名,选项); 有关用于处理深度学习的如何处理此数据的示例,请参阅利用注意进行序列间翻译。 |
序列到序列转换 |
财务报告 |
证券和交易委员会(SEC)允许您通过电子数据收集,分析和检索(EDGAR)API访问财务报告。有关更多信息,请参阅https://www.sec.gov/edgar/searchedgar/accessing-edgar-data.htm。 要下载此数据,请使用功能 年= 2019;QTR = 4;maxlength = 2e6;TextData = FignerePorts(年,QTR,MaxLength); 有关显示如何处理此数据的示例,请参阅生成域特异性情绪词典。 |
情绪分析 |