主要内容

이번역페이지는최신내용을담고있지않습니다。최신내용을영문으로보려면여기를클릭하십시오。

텍스트데이터준비

MATLAB®으로텍스트데이터를가져와분석을위해전처리

文本分析工具箱™에는기기의로그데이터,뉴스피드,설문조사,작업자보고서,소셜미디어같은각종소스의원시텍스트를처리할수있는다양한툴이들어있습니다。이러한툴을사용하여널리사용되는형식의파일에서텍스트를추출하고,원시텍스트를전처리하고,개별단어또는다단어구문(语法)을추출하고,텍스트를숫자형표현으로변환하고,통계모델을구축하는등의다양한작업을수행할수있습니다。시작방법을보여주는예제는准备文本数据进行分析항목을참조하십시오。

文本分析工具箱는한국어,영어,일본어,독일어를지원합니다。대부분의文本分析工具箱함수는그외다른언어의텍스트에서도작동합니다。자세한내용은语言的注意事项항목을참조하십시오。

함수

모두확장

extractFileText 阅读文本从PDF,微软、HTML和纯文本文件
extractHTMLText HTML에서텍스트추출
readPDFFormData PDF양식에서데이터읽어오기
writeTextDocument 텍스트파일에문서쓰기
htmlTree 解析HTML树
findElement HTML트리에서요소찾기
getAttribute 读取HTML树根节点的HTML属性
ismissing 값이없는HTML트리찾기
tokenizedDocument 用于文本分析的标记化文档数组
erasePunctuation 删除文本和文档中的标点符号
eraseTags HTML및XML태텍스트에서그지우기
eraseURLs HTTP및HTTPS URL텍스트에서지우기
removeStopWords 从文档中删除停止词
removeShortWords 문서또는bag-of-words모델에서짧은단어제거
removeLongWords 문서또는bag-of-words모델에서긴단어제거
removeWords 从文档或词袋模型中删除选定的词
normalizeWords 词干或词根化
replaceWords 문서내단어바꾸기
replaceNgrams 문서내语法바꾸기
stopWords 불용어목록
decodeHTMLEntities HTML및XML엔터티를문자로변환
较低的 문서를소문자로변환
문서를대문자로변환
上下文 在文档中搜索上下文中出现的单词或n-gram
tokenDetails 令牌化文档数组中令牌的详细信息
addSentenceDetails 在文档中添加句子编号
addPartOfSpeechDetails 在文档中添加词性标签
addLemmaDetails 문서에토큰의표제어형태추가
addLanguageDetails 向文档添加语言标识符
addEntityDetails 向文档添加实体标记
addTypeDetails 문서에토큰유형세부정보추가
splitSentences 텍스트를문장으로분할
corpusLanguage 텍스트의언어감지
缩写 일반약어테이블
topLevelDomains 최상위도메인목록
bagOfWords Bag-of-words模型
bagOfNgrams Bag-of-n-grams模型
addDocument bag-of-words모델또는bag-of-n-grams모델에문서추가
removeDocument bag-of-words모델또는bag-of-n-grams모델에서문서제거
removeInfrequentWords bag-of-words모델에서개수가적은단어제거
removeInfrequentNgrams 从包-n-grams模型中删除不常见的n-g
removeNgrams 从包-n-grams模型中删除n-g
removeEmptyDocuments 从标记化的文档数组、单词包模型或n-gram包模型中删除空文档
topkwords 单词袋模型或LDA主题中最重要的单词
topkngrams 最常见的字格
编码 将文档编码为单词或n元计数矩阵
tfidf 术语频率-反文档频率(tf-idf)矩阵
加入 组合多个bag-of-words或bag-of-n-grams模型
用语 单词的正确拼写
editDistance 查找两个字符串或文档之间的编辑距离
editDistanceSearcher 编辑距离最近的邻居搜索器
knnsearch 通过编辑距离找到最近的邻居
rangesearch 通过编辑距离范围找到最近的邻居
splitGraphemes 문자열을문자소로분할
docfun 문서의단어에함수적용
+ 附加文件
取代 문서내부분문자열바꾸기
regexprep 使用正则表达式替换文档单词中的文本
doclength 문서배열에포함된문서의길이
doc2cell 문서를字符串형벡터로구성된셀형배열로변환
joinWords 단어를결합하여문서를문자열로변환
字符串 스칼라문서를字符串형벡터로변환

도움말항목

가져오기

从文件中提取文本数据

这个例子展示了如何从文本、HTML、Microsoft®Word、PDF、CSV和Microsoft Excel®文件中提取文本数据,并将其导入MATLAB®进行分析。

HTML을구문분석하고텍스트내용추출하기

이예제에서는HTML코드를구문분석하고특정요소에서텍스트내용을추출하는방법을보여줍니다。

텍스트분석을위한데이터세트

다양한텍스트분석작업에사용할수있는데이터세트에대해알아봅니다。

전처리

准备文本数据进行分析

这个例子展示了如何创建一个函数来清理和预处理文本数据以进行分析。

이모지가포함된텍스트데이터분석하기

이예제에서는이모지가포함된텍스트데이터를분석하는방법을보여줍니다。

문서의철자교정하기

이예제에서는Hunspell을사용하여문서의철자를교정하는방법을보여줍니다。

철자교정을위한확장사전만들기

이예제에서는철자교정을위한Hunspell확장사전을만드는방법을보여줍니다。

편집거리탐색기를사용하여사용자지정철자교정함수만들기

이예제에서는편집거리탐색기와알려진단어로구성된단어집을사용하여철자를교정하는방법을보여줍니다。

언어지원

语言的注意事项

有关为其他语言使用文本分析工具箱功能的信息。

日本语言支持万博1manbetx

关于文本分析工具箱中的日语支持的信息。万博1manbetx

分析日语文本数据

这个示例展示了如何使用主题模型导入、准备和分析日语文本数据。

德国语言支持万博1manbetx

关于文本分析工具箱中的德语支持的信息。万博1manbetx

分析德语文本数据

这个示例展示了如何使用主题模型导入、准备和分析德语文本数据。

추천예제