置顶文章

2.7k 2 分钟

“所有的梦都在这一刻消逝。碎片飞升上天空,飞进灿烂的宇宙,从童话飞入了现实。最终,梦停留在下一个未来,静静地,等待着我们所有人的莅临。” 梦,宇宙,孤独,童话,现实,未来。 所有的这些关键词,构建成春卷饭的世界,也逐步成为了我最喜爱的意象。 阅读时建议播放歌曲列表春卷饭一列。 2019 年,与《Dreamless Dreams》相遇,那是我第一次认识春卷饭。他是 VOCALOID 的一名 p 主,所有歌曲的词曲乃至 mv 制作都是他一人完成。 无梦之梦成为了那年我的最爱歌曲,并且到今天为止,它仍然是我最喜欢的日文歌。 夢の続きを知りたいのかい?你想知道梦的后续吗?...

精选分类

文章列表

12k 11 分钟

# 第一个代码:KNN 鸢尾花分类 使用 sklearn 库 # 基础库 import matplotlib.pyplot as plt import matplotlib matplotlib.rcParams['font.sans-serif'] = ['SimHei'] matplotlib.rcParams['axes.unicode_minus'] = False # sklearn 模块 from sklearn import datasets from sklearn.model_selection import...
13k 12 分钟

# 哈希 # 1 两数之和 思路:二分查找。不过要注意下标,采用下标索引转换。 public int[] twoSum(int[] nums, int target) { int n = nums.length; Integer[] indices = new Integer[n]; for (int i = 0; i < n; i++) { indices[i] = i; } Arrays.sort(indices, Comparator.comparingInt(a -> nums[a])); for (int i...
2.1k 2 分钟

# 简介 数据集:SMS Spam Collection Dataset 目标:将短信分为 ham 和 spam 两类 # 使用的模型 # 文本嵌入 TF-IDF # 监督学习 SVM 决策树 朴素贝叶斯 # 无监督学习 k-means gmm dbscan # 项目过程 主要是下面几个阶段: 数据预处理(数据加载,清洗,向量化) 模型训练 模型评估 对于监督学习模型,数据还进行了特征标准化;训练测试比为 8:2 对于无监督模型,数据进行了 PCA 降维 # 评估结果 # 无监督模型 总体性能较差,难以实现分类的目的。 # k-means 混淆矩阵: [4596 229] [...
1.1k 1 分钟

(还没详细看基础理论,放的是 gpt 的总结整理) # K-Means 原理: 目标是将数据划分为 K 个簇,使簇内的样本尽可能相似,簇间尽可能不同。 核心思想:最小化样本点到其所在簇质心(centroid)的距离平方和。 算法步骤: 随机选择 KKK 个初始质心。 将每个样本分配到最近的质心所代表的簇。 重新计算每个簇的质心。 重复步骤 2 和 3,直到质心不再变化或达到最大迭代次数。 优点: 简单、高效 缺点: 只能发现凸形簇,对初始质心敏感,不适用于不同方差或非球形分布的数据 # GMM 原理: 假设数据是由多个高斯分布组成的混合体,每个高斯分布代表一个簇。 通过...
3.8k 3 分钟

论文地址:https://arxiv.org/pdf/2403.12173 # 摘要 将非结构化文本转化为由有用的类别标签组织的结构化且有意义的形式,是文本挖掘中用于下游分析和应用的基础步骤。然而,大多数现有的生成标签分类法和构建基于文本的标签分类器的方法仍严重依赖领域专业知识和人工整理,这使得该过程成本高昂且耗时。当标签空间定义不明确且缺乏大规模数据标注时,这一挑战尤为突出。 在本文中,我们利用大型语言模型(LLMs)解决这些挑战,其基于提示词的接口便于大规模伪标签的生成和使用。我们提出了 TnT-LLM,这是一个两阶段框架,它利用 LLMs...
17k 16 分钟

论文网址:lxm-2024612164025.pdf (ict.ac.cn) # 引言 # 定义 文本分类是指在给定分类体系下,通过特定模型计算,为输入文本指定预定义标签的过程,是自然语言处理中应用最广泛、也是最重要的领域之一。 # 方法 1960~2010:基于传统机器学习的文本分类方法 文本预处理 —— 特征提取 —— 分类计算 缺点:耗时,成本高昂,强烈依赖于领域知识,忽略文本序列信息 2010...
1.3k 1 分钟

# Attention 注意力机制 注意力机制是一种 让模型在处理序列数据时 “有选择性地关注重要信息” 的技术,核心思想类似人类阅读时的注意力分配 —— 比如读 “小明给小红送了一本书,她很喜欢” 时,我们会自然聚焦 “她” 与 “小红” 的关联,而非平均关注每个词。 注意力机制通过计算 “关联权重” 实现对重要信息的聚焦,核心是三个向量的交互: Query(查询):当前位置的 “关注点”(比如 “她” 这个词,需要找到它指代的对象); Key(键):所有位置的 “信息标签”(比如 “小明”“小红”“书” 各自的特征); Value(值):所有位置的 “具体信息”(比如 “小红”...
3.5k 3 分钟

从第四章主题曲《Fly, My Wings》谈起吧。 这首歌在我还没玩 084 的时候就收藏了,当时就很喜欢,并且它也是我《未完成的童话》系列重要的灵感来源,《无人岛电台》核心灵感之一。此外一提我 2020 年就开始听 mili 了但是直到现在才开始玩 084…… 那时对这首歌的理解就是一个 “飞向未来” 的故事,理想与现实的对立。现在证实我的理解还算准确。拥抱过去,创造未来 —— 这句话出自月计前作,但是用在这里也无比的合适。此外,084 的标语是 "Face the sin, save the...