文本分析的数据集

此页面提供了可以使用的不同数据集列表，以便使用文本分析应用程序。

数据集描述任务

数据集	描述	任务
工厂的报告	出厂报告数据集是一个表包含大约500个报告，其中各种属性包括在变量中的纯文本描述`描述`和变量中的分类标签`类别`。从文件中读取Factory Reports数据`“factoryReports.csv”`。从中提取文本数据和标签`描述`和`类别`列分别。 filename =“factoryReports.csv”;数据= readtable（文件名，'texttype'那'细绳'）;textdata = data.description;标签= data.Category; 有关用于处理深度学习的如何处理此数据的示例，请参阅使用深度学习对文本数据进行分类（深度学习工具箱）。	文本分类，主题建模
莎士比亚的十四行诗	文件`sonnets.txt`在一个文本文件中包含了莎士比亚所有的十四行诗。阅读文件中莎士比亚十四行诗的数据`“sonnets.txt”`。 filename =“sonnets.txt”;textdata = extractFiletext（文件名）; SONNET由两个空格字符缩进，并通过两个换行符分隔。使用缩进使用`取代`并将文本拆分成单独的十四圈使用`分裂`。从前三个元素和十四行标题中删除主标题，这些标题出现在每个十四行像之前。 textdata = replace（textdata，”“那“）;textdata = split（textdata，[newline newline]）;TextData = TextData（5：2：结束）; 有关用于处理深度学习的如何处理此数据的示例，请参阅使用深度学习生成文本（深度学习工具箱）。	主题建模，文本生成
ArXiv的元数据	Arxiv API允许您访问提交的科学电子版的元数据https://arxiv.org包括摘要和主题领域。有关更多信息，请参阅https://arxiv.org/help/api.。使用arXiV API从数学论文中导入一组摘要和类别标签。 url =“https://export.arxiv.org/oai2？verb=listrecords”+......“＆set = math”+......“＆metadataprefix = Arxiv”;选项= weboptions（'暂停'，160）;code = WebRead（URL，选项）; 有关如何解析返回的XML代码并导入更多记录的示例，请参见使用深度学习的多书文本分类。	文本分类，主题建模
项目古腾堡的书籍	你可以从古登堡计划下载很多书。例如，从刘易斯·卡罗尔的《爱丽丝梦游仙境》中下载文本https://www.gutenberg.org/files/11/11-h/11-h.htm使用`Webrad.`功能。 url =“https://www.gutenberg.org/files/11/11-h/11-h.htm”;代码= Webrabread（URL）; HTML代码包含其中的相关文本 (段落)元素。的解析HTML代码来提取相关文本`htmltree.`功能，然后使用元素名称查找所有元素`“P”`。树= htmltree（代码）;选择器=“P”;子树= FindElement（树，选择器）; 使用HTML子树中提取文本数据`extracthtmltext.`函数并删除空元素。 textData = extractHTMLText(子树);textData (textData = =“）= []; 有关用于处理深度学习的如何处理此数据的示例，请参阅使用深度学习的字词文本生成。	主题建模，文本生成
周末更新	文件`waydandupdates.xlsx.`包含包含hashtags“#weekend”和“#vacation”的示例的社交媒体状态更新。从文件中提取文本数据`waydandupdates.xlsx.`使用`可阅读`函数并从变量中提取文本数据`textdata.`。 filename =“waydendupdates.xlsx”;tbl = readtable（文件名，'texttype'那'细绳'）;textData = tbl.TextData; 有关显示如何处理此数据的示例，请参阅分析文本情绪。	情绪分析
罗马数字	CSV文件`“romannumerals.csv”`第一列包含十进制数字1-1000，第二列包含相应的罗马数字。从CSV文件加载十进制罗马数字对`“romannumerals.csv”`。 filename = fullfile（“romannumerals.csv”）;选择= detectImportOptions(文件名,......'texttype'那'细绳'那......'readvariablenames'，错误的）;options.variablenames = [“来源”“目标”];options.variabletypes = [“细绳”“细绳”];data = readtable（文件名，选项）; 有关用于处理深度学习的如何处理此数据的示例，请参阅利用注意进行序列间翻译。	序列到序列转换
财务报告	证券和交易委员会（SEC）允许您通过电子数据收集，分析和检索（EDGAR）API访问财务报告。有关更多信息，请参阅https://www.sec.gov/edgar/searchedgar/accessing-edgar-data.htm。要下载此数据，请使用功能`financeReports`附上了这个例子生成域特异性情绪词典作为一个支万博1manbetx持文件。要访问这个函数，请以Live Script的形式打开示例。年= 2019;QTR = 4;maxlength = 2e6;TextData = FignerePorts（年，QTR，MaxLength）; 有关显示如何处理此数据的示例，请参阅生成域特异性情绪词典。	情绪分析

工厂的报告

出厂报告数据集是一个表包含大约500个报告，其中各种属性包括在变量中的纯文本描述描述和变量中的分类标签类别。

从文件中读取Factory Reports数据“factoryReports.csv”。从中提取文本数据和标签描述和类别列分别。

filename =“factoryReports.csv”;数据= readtable（文件名，'texttype'那'细绳'）;textdata = data.description;标签= data.Category;

有关用于处理深度学习的如何处理此数据的示例，请参阅使用深度学习对文本数据进行分类（深度学习工具箱）。

文本分类，主题建模

莎士比亚的十四行诗

文件sonnets.txt在一个文本文件中包含了莎士比亚所有的十四行诗。

阅读文件中莎士比亚十四行诗的数据“sonnets.txt”。

filename =“sonnets.txt”;textdata = extractFiletext（文件名）;

SONNET由两个空格字符缩进，并通过两个换行符分隔。使用缩进使用取代并将文本拆分成单独的十四圈使用分裂。从前三个元素和十四行标题中删除主标题，这些标题出现在每个十四行像之前。

textdata = replace（textdata，”“那“）;textdata = split（textdata，[newline newline]）;TextData = TextData（5：2：结束）;

有关用于处理深度学习的如何处理此数据的示例，请参阅使用深度学习生成文本（深度学习工具箱）。

主题建模，文本生成

ArXiv的元数据

Arxiv API允许您访问提交的科学电子版的元数据https://arxiv.org包括摘要和主题领域。有关更多信息，请参阅https://arxiv.org/help/api.。

使用arXiV API从数学论文中导入一组摘要和类别标签。

url =“https://export.arxiv.org/oai2？verb=listrecords”+......“＆set = math”+......“＆metadataprefix = Arxiv”;选项= weboptions（'暂停'，160）;code = WebRead（URL，选项）;

有关如何解析返回的XML代码并导入更多记录的示例，请参见使用深度学习的多书文本分类。

文本分类，主题建模

项目古腾堡的书籍

你可以从古登堡计划下载很多书。例如，从刘易斯·卡罗尔的《爱丽丝梦游仙境》中下载文本https://www.gutenberg.org/files/11/11-h/11-h.htm使用Webrad.功能。

url =“https://www.gutenberg.org/files/11/11-h/11-h.htm”;代码= Webrabread（URL）;

HTML代码包含其中的相关文本

(段落)元素。的解析HTML代码来提取相关文本htmltree.功能，然后使用元素名称查找所有元素“P”。

树= htmltree（代码）;选择器=“P”;子树= FindElement（树，选择器）;

使用HTML子树中提取文本数据extracthtmltext.函数并删除空元素。

textData = extractHTMLText(子树);textData (textData = =“）= [];

有关用于处理深度学习的如何处理此数据的示例，请参阅使用深度学习的字词文本生成。

主题建模，文本生成

周末更新

文件waydandupdates.xlsx.包含包含hashtags“#weekend”和“#vacation”的示例的社交媒体状态更新。

从文件中提取文本数据waydandupdates.xlsx.使用可阅读函数并从变量中提取文本数据textdata.。

filename =“waydendupdates.xlsx”;tbl = readtable（文件名，'texttype'那'细绳'）;textData = tbl.TextData;

有关显示如何处理此数据的示例，请参阅分析文本情绪。

情绪分析

罗马数字

CSV文件“romannumerals.csv”第一列包含十进制数字1-1000，第二列包含相应的罗马数字。

从CSV文件加载十进制罗马数字对“romannumerals.csv”。

filename = fullfile（“romannumerals.csv”）;选择= detectImportOptions(文件名,......'texttype'那'细绳'那......'readvariablenames'，错误的）;options.variablenames = [“来源”“目标”];options.variabletypes = [“细绳”“细绳”];data = readtable（文件名，选项）;

有关用于处理深度学习的如何处理此数据的示例，请参阅利用注意进行序列间翻译。

序列到序列转换

财务报告

证券和交易委员会（SEC）允许您通过电子数据收集，分析和检索（EDGAR）API访问财务报告。有关更多信息，请参阅https://www.sec.gov/edgar/searchedgar/accessing-edgar-data.htm。

要下载此数据，请使用功能financeReports附上了这个例子生成域特异性情绪词典作为一个支万博1manbetx持文件。要访问这个函数，请以Live Script的形式打开示例。

年= 2019;QTR = 4;maxlength = 2e6;TextData = FignerePorts（年，QTR，MaxLength）;

有关显示如何处理此数据的示例，请参阅生成域特异性情绪词典。

情绪分析

文本分析工具箱文档

万博1manbetx

在Matlab中的文本分析入门

现在就下载