同学们,其实人类语言到现今为止充满了歧义,这使得编写能够准确确定文本或语音数据的预期含义的软件变的非常的困难。同音异义词、同音异义词、讽刺、习语、隐喻、语法和用法异常、句子结构的变化,这些全部是人类语言中需要花费数年时间学习的几个不规则性,但是程序员必须从一开始就教会自然语言驱动的应用程序准确地识别和理解,如果这些应用程序相对来说有用的话。
学好这门专业首选需要几个自然语言处理任务分解人类文本和语音数据,帮助计算机理解它摄取的东西。其中一些任务包括:
语音识
别也称为语音到文本,是将语音数据可靠地转换为文本数据的任务。任何遵循语音命令或回答口头问题的应用程序都需要语音识别。让语音识别变得特别有挑战性的是人们说话的方式——快速、含糊不清的单词,不同的重音和语调,不同的口音,经常使用不正确的语法。
词性标注
也称为语法标记,是根据特定单词或文本的用法和上下文来确定其词性的过程。词性在“我能做纸飞机”中将“制造”作为动词,在“你拥有什么样的汽车”中将“制造”作为名词
词义消歧
是通过语义分析过程来选择具有多重含义的单词的含义,从而确定在给定上下文中最有意义的单词。例如,词义消歧有助于区分动词“make”在“make the grade”(成绩)和“make a bet”(地点)中的含义。
命名实体识别
认为单词或短语是有用的实体。NEM将“肯塔基”作为一个地点,将“弗雷德”作为一个人的名字。
共同参考分辨率
识别两个词是否和何时指代同一个实体的任务。最常见的例子是确定某个代词所指的人或物体(例如“她”=“玛丽”),但也可能涉及识别文本中的隐喻或习语(例如,“熊”不是动物,而是一个多毛的大人物)。
情感分析
试图从文本中提取主观品质——态度、情绪、讽刺、困惑、怀疑。
自然语言生成
有时被描述为语音识别或语音转文本的对立面;这是将结构化信息转化为人类语言的任务。
上述都是改门课程的基础内容,其中比如像Python和自然语言工具包也非常关键,其中许多可以在自然语言工具包(NLTK)中找到,NLTK是一个开源的库、程序和教育资源集合,用于构建NLP程序。
进入统计NLP,它将计算机算法与机器学习和深度学习自动提取、分类和标记文本和语音数据元素的模型,然后为这些元素的每个可能含义分配统计似然性。
同学们如果想要学好悉尼大学这门课程,需要从最基本的知识开拓,对于为NLP系统创建训练数据至关重要,解决关键NLP子任务的最新方法,包括标记化,形态分析,词义表示,词性标记,命名实体识别和其他信息提取,文本分类,短语结构解析和依存关系解析
上方都是学好悉尼大学COMP5046这门课程需要注意的事项,更加细节的可以和澳洲留学生辅导老师来进行沟通,为同学们整理更多有用的课程复习资料。